本数据集旨在为中华优秀传统文化领域大语言模型及智能应用提供高质量、结构化、可追溯的实体知识基座。具体应用包括:1. 大模型领域知识注入与精调:作为高质量SFT数据,用于对齐和优化传统文化垂域LLM的参数,使其在生成关于典籍、人物、器物等实体的解释时,能严格基于权威出处输出结构化知识,有效抑制事实性幻觉。2. 文化智能应用开发:可作为文化教育App、数字文博导览、文创内容生成等应用的底层知识库,支撑实体查询、关系探索、智能问答等功能。
加工前的数据说明:原始数据是中华传统文化相关书籍的pdf文件(来源于开源古籍数字化平台“Anna’s Archive”),总大小约1107MB,包含约550万文字。 处理规则:数据处理采用“OCR识别-大模型初筛-规则归因-专家校准”的混合流水线。首先,使用paddleocr框架得到文本数据,分块后,利用本地化部署的大语言模型(Qwen2.5-14B)进行命名实体识别。将实体类别定义为十大类,概念、器具、书籍、人物、属性、物产、地名、材料、时间、机构,该定义源于对初步抽取结果的聚类分析与领域专家共同制定的分类体系,确保类别覆盖全面且符合学术规范。随后,通过基于正则表达式的规则匹配算法,将每个识别出的实体精准锚定回其在原文中的具体句子及位置坐标,强制建立“实体-证据原句-文献出处”的可追溯链接。最后,经过实体聚合、去重与名称标准化后,将生成的实体列表导出至协作平台,由资深领域专家进行集中审阅、类别校正与解释优化,形成最终本体。 数据内容描述:最终产出超过10万条高质量的中华传统文化实体数据记录。每条记录为一个结构化的数据实体,包含以下核心字段:1) id:唯一标识符;2) 标准名称:实体的规范化名称;3) 字符长度:标准名称的字符数;4) 原始名称:从原文中识别出的所有同义或相关表述(以“|||”或“,”分隔);5) 类别:实体所属的十个类别之一,在上述处理规则部分已进行阐述;6) 解释:根据原句总结生成的定义与描述;7) 原句:实体在文献中出现的关键证据句子(通常为1-3句,以“|||”分隔);8) 文献出处:实体来源的古籍;9) 归属:实体所属的传统文化细分领域(如茶道、花道、香道)。该数据集构成了一套可机读、可验证、具备学术严谨性的中华传统文化实体“标准身份证”库。
| 字段名 | 类型 | 描述 |
|---|---|---|
id |
-- | -- |
标准名称 |
-- | -- |
字符长度 |
-- | -- |
原始名称 |
-- | -- |
类别 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| id | 7333,99691,62727,97305,89227 |
| 标准名称 | 茶碗,白露前后采制,销藏茶量,《中国茶图鉴》,沙坪茶 |
| 字符长度 | 2,6,4,7,3 |