对合法采集的企业文档数据进行分析、处理,帮助企业快速提取文档中的问答对,提升企业知识运营效率,完善机器人知识库等系统。
客服文档知识提取问答数据的算法规则包括: 1、数据采集和处理:客户通过产品页面,上传PDF/DOCX等文档数据,含文字和图片等内容。 2、算法加工:针对上传的文档文件等数据,通过OCR、版面分析等文档解析模型,识别出文件中的文字和图片等文档段落信息内容。这样,完成了从文档源格式文件到文档段落内容的提取。基于每个文档段落,应用NLP大模型(基于抽样的文本段落和相应的标定的问答对SFT训练的大模型),从这些信息中,抽取出若干个问答对(包含问题和答案部分)。汇总所有文档段落的问答对结果,即得到了整篇文档的所有问答对抽取结果。
| 字段名 | 类型 | 描述 |
|---|---|---|
文档名称 |
-- | -- |
文档段落 |
-- | -- |
生成问题 |
-- | -- |
生成答案 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 文档名称 | 2020年中国智能客服行业研究报告-36KRabdc.pdf |
| 文档段落 | 智能客服助力电商零售企业降低人力成本、打造消费数据资产•电商零售企业直接面向下游 |
| 生成问题 | 目前我国电商零售企业面临哪些核心痛点? |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/33792