中信数科 DataTrust 数据市场

数据集之江实验室

174个领域的科学大模型训练网页语料数据

价格待定

数据描述

该数据知识产权用于多领域科学基座大语言模型的训练，使其可以学习各领域的专业术语、概念和语义信息，从而具备处理各学科自然语言处理任务的能力，助力科学家进行学术研究，回答不同领域问题，并可为长篇论文生成不同长度的摘要，适应会议提交或快速浏览等场景。将中文论文自动翻译为各种语言并保持术语准确性，促进跨语言科研交流。该数据也可以用于构建智能文献检索系统，从而使科学大模型能够具备地学文献检索的能力，为研究人员提供个性化的文献推荐服务，提高文献获取效率。

算法/方法论

1. 从公开的FineWeb和DCLM数据集进行采集 2. 将与科学相关的，如生物、化学等网页数据的域名及内容，保存为特定格式，如csv等格式 3. 通过相关学科数据，使用Fasttext算法训练学科分类器，对FineWeb语料进行学科网页域名召回，并得到文本内容、语言分类、语言得分和学科分类。 4. 对召回网页的域名进行域名聚合、域名筛选及评估，对学科分类器进行迭代优化，从而得到更多召回的网页数据，及优化的文本内容、语言分类、语言得分和学科分类。 5. 对召回后的网页数据通过Gopher Repetition、Gopher Quality、C4 Quality、 FineWeb Quality的算法进行质量过滤 6. 对质量过滤后的数据，基于Minhash对文档进行签名计算，使用LSH将相似文档分组，进行针对文档级别相似性去重。 7. 将去重后的数据进行tokenizer转化，得到token数。 8. 最终数据包含文本内容、语言分类、语言得分、token数及学科分类。

字段定义

字段名	类型	描述
`序号`	--	--
`ID`	--	--
`网页内容`	--	--
`转存路径`	--	--
`链接`	--	--

样本数据

fieldName	exampleValue
序号	1
ID	<urn:uuid:4a6c0ffd-d519-4da9-92a5-8884c8
网页内容	1441 SANTA ANITA AVENUE, SOUTH EL MONTE,

调用API获取完整数据

基本信息

数据格式: xlsx
数据类型: 企业数据
记录数量: 503
所属行业: 科学研究和技术服务业
登记企业: 之江实验室

V6 评分明细

描述质量 0.0 / 20

结构规范 0.0 / 20

规模时效 0.0 / 15

安全合规 0.0 / 20

认证标注 0.0 / 15

商业价值 0.0 / 10

API 调用示例

curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/176906

获取API密钥已有账户？登录

认证信息

证书编号: 20250633000011283
登记编号: SZ2025320011283.7