返回数据集列表
数据集 瓴羊智能科技有限公司

客服文档知识提取问答数据

价格待定
数据描述

对合法采集的企业文档数据进行分析、处理,帮助企业快速提取文档中的问答对,提升企业知识运营效率,完善机器人知识库等系统。

算法/方法论

客服文档知识提取问答数据的算法规则包括: 1、数据采集和处理:客户通过产品页面,上传PDF/DOCX等文档数据,含文字和图片等内容。 2、算法加工:针对上传的文档文件等数据,通过OCR、版面分析等文档解析模型,识别出文件中的文字和图片等文档段落信息内容。这样,完成了从文档源格式文件到文档段落内容的提取。基于每个文档段落,应用NLP大模型(基于抽样的文本段落和相应的标定的问答对SFT训练的大模型),从这些信息中,抽取出若干个问答对(包含问题和答案部分)。汇总所有文档段落的问答对结果,即得到了整篇文档的所有问答对抽取结果。

字段定义
字段名 类型 描述
文档名称 -- --
文档段落 -- --
生成问题 -- --
生成答案 -- --
样本数据
fieldName exampleValue
文档名称 2020年中国智能客服行业研究报告-36KRabdc.pdf
文档段落 智能客服助力电商零售企业降低人力成本、打造消费数据资产•电商零售企业直接面向下游
生成问题 目前我国电商零售企业面临哪些核心痛点?
调用API获取完整数据
基本信息
数据格式
--
数据类型
--
记录数量
999999
所属行业
信息传输、软件和信息技术服务业
登记企业
瓴羊智能科技有限公司
V6 评分明细
描述质量 0.0 / 20
结构规范 0.0 / 20
规模时效 0.0 / 15
安全合规 0.0 / 20
认证标注 0.0 / 15
商业价值 0.0 / 10
API 调用示例
curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/33792
认证信息
证书编号
20240433000001751
登记编号
SZ2024120001751.3