解锁AI无限潜能!景联文科技数据产品矩阵再升级:多语言题库、海量语料、垂域代码库,全面赋能大模型训练

景联文科技持续聚焦AI数据需求前沿,全新发布包含中文题库数据集、英文题库数据集、算法代码数据库、英文语料、中文语料、垂直领域数据、小语种数据在内的七大高质量数据集产品系列。

此次发布的数据集覆盖广泛的应用场景,通过严格的清洗与结构化处理,确保数据内容的准确性、多样性和合规性。

全面助力科研机构、科技企业及开发者在自然语言处理、智能教育、代码理解、跨语言建模等领域的模型训练与落地应用。

  1. 大模型训练-中文题库数据集

逻辑题库

数据详情:包含题型全面分类、题量丰富且解析完备的逻辑推理题库体系,形成具备"一级+二级"结构化分类标签、可定向提升模型推理能力的成品数据产品。总计13万道,含多模态试题2万道与文本类11万道。

数据格式:JSON、IMG

大学数学题库

数据详情:涵盖22万道精选试题,形成覆盖微积分、线性代数、概率统计等核心领域的结构化教学数据产品,助力精准测评与自适应学习。

可满足高校数学教育智能化需求。

数据格式:JSON、IMG

中文教育题库K12题库

数据详情:包含K12全科目试题、升学考等真题试卷和自建竞赛试题三类。共3052万道试题。

格式:PDF、JSON、IMG

公考题库

数据详情:包含9万道公考试题,其中0.7万道为多模态试题。为大模型提供兼具数学推理、言语理解和考试策略分析能力的复合型训练资源。

可全面提升大模型的多模态理解与解题能力。

格式:JSON

2. 大模型训练-英文题库数据集

大学英文教育题库

数据详情:涵盖大学所有学科试题的英文教育题库,总计9万道题目,整体难度适中。

该题库专为针对英文语种题进行训练的解题大模型设计,可满足大学教育阶段英文题目解题训练需求。

格式:JSON

K12英文教育题库

数据详情:涵盖小学、初中、高中等试题的英文教育题库,总计5637万道题目。其中包含229万多模态试题,题源来自海外教育体系下真实试题,非翻译版本。

可满足不同教育阶段英文题目解题训练需求。

格式:JSON、IMG

    3. 大模型训练-算法代码数据库

    数据详情:包含20万道算法题,12万份答案详解的优质数据资源可提升大模型的逻辑推理、题目解决能力,以及代码生成与优化能力。

    格式:JSON

      4.大模型训练-英文语料

      英文期刊

      数据详情:收录了800万篇权威英文期刊论文数据,数据包含自然科学、工程技术及医学健康等多学科领域文献。

      适用于科研方法论训练、专业术语理解提升及技术原理推理能力强化场景。

      格式:PDF

      英文剧本

      数据详情:收录了1.4万本优质英文剧本数据,数据包含电视剧、电影、话剧及舞台剧等多维度剧本内容。

      可用于故事生成 agent 提升和模型对话 prompt。

      格式:TXT、EXCEL

      英文书籍

      数据详情:收录了180万册英文电子书籍数据,数据包含多学科领域的专业文本内容。

      适用于自然语言处理研究、大模型训练及语言生成优化场景。

      格式:TXT、PDF、MOBI、EPUB

      5.大模型训练-中文语料

      中文剧本

      数据详情:包含2.3万本优质中文剧本,覆盖电视剧、电影、话剧、舞台剧等。

      可用于故事生成 agent 提升和模型对话 prompt。

      格式:TXT、EXCEL

      多轮对话

      数据详情:收录1467.3万组多轮对话文本,对话内容包含客服、情感及日常对话,占比为 1:1:1。

      适用于智能客服系统、聊天机器人、虚拟助理与个人助手模型 prompt。

      格式:JSON、TXT

      裁判文书数据

      数据详情:包含8000万条法律文书数据,覆盖民事、刑事、行政等全部案由类型。

      适用于提升模型法律条文理解能力、裁判逻辑推理和文书生成等的专属垂类领域数据。

      格式:EXCEL

      硕博论文

      数据详情:包含23万篇理工科中文硕博论文,覆盖基础科学、工程技术、信息科技等前沿领域。

      可用于提升模型理解推理能力,推动跨领域应用。

      格式:PDF

      6.大模型训练-多垂直领域知识教材书籍数据

      管理科学知识

      数据详情:收录303册管理科学教材数据,数据包含管理学科相关文献,以及管理学科知识图谱。

      适用于教育大模型训练、智能教学系统开发与跨语言教育A1应用场景。

      格式:PDF、EXCEL、Word

      K12中英文教辅教材

      数据详情:收录11655册中英文教辅教材数据,数据包含10225册中文教辅与1430册英文教辅的K12全学科内容。

      适用于教育大模型训练、智能教学系统开发及跨语言教育 AI 应用场景。

      格式:PDF

      工业书籍

      数据详情:收录3.4万册专业工业书籍数据,数据覆盖多个领域的中英文专业书籍。

      适用于工业AI大模型训练、智能决策系统构建与专业技术知识服务场景。

      格式:PDF、Word

      7.大模型训练-小语种数据

      小语种数字专利

      数据详情:收录131.4万条小语种专业数据,覆盖多国语言,涉及各个技术领域。

      适用于大模型跨文化理解训练、多语言模式适应及专业领域AI应用场景。

      格式:PDF

      小语种平行语料

      数据详情:收录110万条小语种平行语料数据,数据包含包括阿拉伯语、波兰语、德语、俄语、法语、马来语、泰语、土耳其语、西班牙语、意大利语、英语共11 国语言文本。

      适用于跨文化理解训练、多语言模式适应及小语种 AI 应用场景

      格式:EXCEL

      随着AI应用场景的不断拓展,对高质量、多语言、细分专业领域的数据资源需求也将持续增长。

      景联文科技将继续秉持“成为人工智能的核心引擎,让每一比特数据释放AI的无限可能”的愿景,不断优化数据产品体系,满足日益复杂和多元的模型训练需求。

      如需了解更多关于本次数据集的技术参数、样本示例或定制化服务,请访问我们的官网或联系专属商务经理。

      让我们携手打造更加智能、高效的人工智能未来!

      本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
      如若转载,请注明出处:http://www.pswp.cn/pingmian/86942.shtml
      繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86942.shtml

      如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

      相关文章

      OSPF(开放最短路径优先)

      一、ospf简介 OSPF是基于链路状态的内部网关协议,与距离矢量协议不同,链路状态协议通告的是链路状态而不是路由表。OSPF是用于自治系统(AS)内部的路由决策,特点有,收敛速度快,安全性好,避免环路…

      全面拥抱vue3

      Vue 3 性能全面解析:为何性能飞跃提升 Vue 3 在性能方面实现了质的飞跃,相比 Vue 2 在多个维度都有显著提升。以下是 Vue 3 性能优化的全面解析: 一、核心架构优化 1. 响应式系统重写(Proxy 替代 defineProperty) …

      C#最佳实践:考虑为类重写ToString()方法

      C#最佳实践:考虑为类重写ToString()方法 在 C# 编程的日常开发中,ToString()方法是一个既基础又容易被忽视的重要成员。它是System.Object类的虚方法,所有类都继承自System.Object,这意味着每个类都拥有ToString()方法。然而,默认的ToString()方法往往无法满足实际需求,…

      从0开始学习计算机视觉--Day05--优化

      除了得到最小的W之外,如何节省这个探索最优W的过程,也是很重要的一点。假如把这个过程比作从山上的顶点开始下山,把图中必定游玩的经典比作最优权重,那么节省的过程,就是找到下山的最短路径的过程。而在下山的过程中&a…

      OpenCV计算机视觉实战(14)——直方图均衡化

      OpenCV计算机视觉实战(14)——直方图均衡化 0. 前言1. CLAHE 自适应均衡1.1 应用场景1.2 实现过程 2. 直方图反向投影2.1 应用场景2.2 实现过程 3. 基于颜色的目标追踪小结系列链接 0. 前言 在图像处理与计算机视觉领域,直方图技术是最直观且…

      基于uniapp的老年皮肤健康管理微信小程序平台(源码+论文+部署+安装+售后)

      感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,我会一一回复,希望帮助更多的人。 系统背景 近年来,我国人口老龄化进程不断加快,据国家统计局数据显示&#…

      MySQL(106)如何设计分片键?

      设计分片键(Sharding Key)是数据库分片的核心,它决定了将数据分配到不同分片的方式。一个好的分片键应该能够均衡地分布数据,避免热点问题,提高查询性能。下面将详细介绍如何设计分片键,并结合代码进行说明…

      汽车一键启动升级手机控车

      汽车一键启动升级手机控车实现手机远程启动,不改变原车任何功能且全部免接线。升级后原车遥控器能在有效范围内启动车辆。移动管家手机控车一键启动系统用手机远程控制,完美兼容原车遥控器。支持长安、别克、宝马、奥迪等众多系列车型,市场99…

      【开源项目】「安卓原生3D开源渲染引擎」:Sceneform‑EQR

      「安卓原生3D开源渲染引擎」:Sceneform‑EQR 渲染引擎 “那一夜凌晨3点,第一次提交 PR 的手在抖……”——我深刻体会这种忐忑与激动。 仓库地址:(https://github.com/eqgis/Sceneform-EQR)。 一、前言:开源对我意味着什么 DIY 的…

      建造者模式 - Flutter中的乐高大师,优雅组装复杂UI组件!

      痛点场景:复杂的对话框配置 假设你需要创建一个多功能对话框: CustomDialog(title: 警告,content: 确定要删除吗?,titleStyle: TextStyle(fontSize: 20, color: Colors.red),contentStyle: TextStyle(fontSize: 16),backgroundColor: Color…

      基于Java+Spring Boot的大学校园生活信息平台

      源码编号:S559 源码名称:基于Spring Boot的大学校园生活信息平台 用户类型:双角色,用户、管理员 数据库表数量:17 张表 主要技术:Java、Vue、ElementUl 、SpringBoot、Maven 运行环境:Wind…

      C# .NET Framework 中的高效 MQTT 消息传递

      介绍: 在当今互联互通的世界里,设备之间高效可靠的通信至关重要。MQTT(消息队列遥测传输)就是为此而设计的轻量级消息传递协议。本文将探讨 MQTT 是什么、它的优势以及如何在 .NET 框架中设置和实现它。最后,您将对 M…

      nn.Embedding 和 word2vec 的区别

      理解它们的关键在于​​区分概念层级和职责​​。 可以将它们类比为: ​​word2vec:​​ 一个​​专门制作高质量词向量模型的“工厂”​​。​​nn.Embedding:​​ 一个​​可存储、查找并训练词向量的“智能储物柜”​​(作为…

      华为云Flexus+DeepSeek征文|​​华为云ModelArts Studio大模型 + WPS:AI智能PPT生成解决方案​

      引言:告别繁琐PPT制作,AI赋能高效办公 ​​ 在商业汇报、学术研究、产品发布等场景中,制作专业PPT往往需要耗费大量时间进行内容整理、逻辑梳理和视觉美化。​​华为云ModelArts Studio大模型​​与​​WPS​​深度结合,推出AI-P…

      【连接redis超时】

      报错 客户端输出缓冲区超限 Client … scheduled to be closed ASAP for overcoming of output buffer limits 表示这些客户端(通过 psubscribe 命令进行发布订阅操作)的输出缓冲区超过了 Redis 配置的限制,Redis 会关闭这些客户端连接来避免…

      PHP「Not enough Memory」实战排错笔记

      目录 PHP「Not enough Memory」实战排错笔记 1. 背景 2. 快速定位 3. 为什么 5 MB 的图片能耗尽 128 MB? 3.1 粗略估算公式(GD) 4. 实际峰值监控 5. 解决过程 6. 最佳实践与防御措施 7. 总结 PHP「Not enough Memory」实战排错笔记 —…

      Java垃圾回收机制和三色标记算法

      一、对象内存回收 对于对象回收,需要先判断垃圾对象,然后收集垃圾。 收集垃圾采用垃圾收集算法和垃圾收集器。 判断垃圾对象,通常采用可达性分析算法。 引用计数法 每个对象设置一个引用计数器。每被引用一次,计数器就加1&am…

      基于python网络数据挖掘的二手房推荐系统

      基于网络数据挖掘的二手房推荐系统设计与实现 【摘要】 随着互联网技术在房地产行业的深入应用,线上房源信息呈爆炸式增长,给购房者带来了信息过载的挑战。为了提升二手房筛选的效率与精准度,本文设计并实现了一个基于网络数据挖掘的二手房推…

      Java + 阿里云 Gmsse 实现 SSL 国密通信

      前言 解决接口或页面仅密信浏览器(或 360 国密浏览器)能访问的问题 测试页面 测试网站-中国银行:https://ebssec.boc.cn/boc15/help.html 使用其他浏览器(google,edge等)打开 使用密信浏览器打开 解决…

      国产数据库分类总结

      文章目录 一、华为系数据库1. 华为 GaussDB 二、阿里系数据库1. 阿里云 OceanBase2. PolarDB(阿里云自研) 三、腾讯系数据库1. TDSQL(腾讯云)2. TBase(PostgreSQL增强版) 四、传统国产数据库1. 达梦数据库&…