中信数科 DataTrust 数据市场

数据集瓴羊智能科技有限公司

客服文档知识提取问答数据

价格待定

数据描述

对合法采集的企业文档数据进行分析、处理，帮助企业快速提取文档中的问答对，提升企业知识运营效率，完善机器人知识库等系统。

算法/方法论

客服文档知识提取问答数据的算法规则包括： 1、数据采集和处理：客户通过产品页面，上传PDF/DOCX等文档数据，含文字和图片等内容。 2、算法加工：针对上传的文档文件等数据，通过OCR、版面分析等文档解析模型，识别出文件中的文字和图片等文档段落信息内容。这样，完成了从文档源格式文件到文档段落内容的提取。基于每个文档段落，应用NLP大模型（基于抽样的文本段落和相应的标定的问答对SFT训练的大模型），从这些信息中，抽取出若干个问答对（包含问题和答案部分）。汇总所有文档段落的问答对结果，即得到了整篇文档的所有问答对抽取结果。

字段定义

字段名	类型	描述
`文档名称`	--	--
`文档段落`	--	--
`生成问题`	--	--
`生成答案`	--	--

样本数据

fieldName	exampleValue
文档名称	2020年中国智能客服行业研究报告-36KRabdc.pdf
文档段落	智能客服助力电商零售企业降低人力成本、打造消费数据资产•电商零售企业直接面向下游
生成问题	目前我国电商零售企业面临哪些核心痛点?

调用API获取完整数据

基本信息

数据格式: --
数据类型: --
记录数量: 999999
所属行业: 信息传输、软件和信息技术服务业
登记企业: 瓴羊智能科技有限公司

V6 评分明细

描述质量 0.0 / 20

结构规范 0.0 / 20

规模时效 0.0 / 15

安全合规 0.0 / 20

认证标注 0.0 / 15

商业价值 0.0 / 10

API 调用示例

curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/33792

获取API密钥已有账户？登录

认证信息

证书编号: 20240433000001751
登记编号: SZ2024120001751.3