通过对危化品经营单位安全管理领域知识测评数据进行上下文标注,形成具有高度针对性和语义复杂性的训练集。这些数据通过数据解析和安全合规验证,从而生成危化品经营单位安全管理领域的专业样本,为全面评估AI大模型的危化品经营单位安全管理知识提供了专业全面的测试样例,在危化品安全管理问答题解答中的语义理解能力、语言表达能力和思维推导能力评估,以及测试和提升危化品经营单位安全管理领域AI模型对场景理解的适用性。
1.数据采集:采集《中华人民共和国安全生产法》《中华人民共和国消防法》《危险化学品安全管理条例》《危险化学品经营许可证管理办法》《使用有毒物品作业场所劳动保护条例》《生产安全事故报告和调查处理条例》《建筑设计防火规范》《常用危险化学品分类及标志》等相关法律法规、规章制度涉及的危化品经营单位安全管理领域公开测试、考试题目,得到待分析原始数据的危化品安全管理类文献题目数据集。 2.数据处理:1)采用文本标注,标注题目的难度级别(简单、中等、困难);2)采用TextRank提取摘要的方式提取每个段落的一个关键句,将关键句按照段落的顺序排列,组成新的文本内容;对文本内容提取出的关键句序列再进行一轮关键句提取,根据迭代传播权重计算各个句子的得分,再将每个句子输入序列标注模型,得到实体序列标注结果,包含实体越多的句子给予越高的重要度权重倾斜,实体权重得分和句子重要度得分之和即作为每个句子最终的重要度分数。每次设置一个范围在[1,3]的整型随机数r,提取排名前r的关键句作为该题的正确候选答案(即在TextRank模型中,T=r),将正确候选答案分类存储;3)在答案集中随机选择字符长度与原正确候选答案最为接近的2个答案成为该题目的错误候选答案,若答案集中符合要求的错误候选答案数量不足,则采用NLTK生成该答案的反义词作为错误候选答案的补充。 3.数据应用:该数据集可用来测试和提升危化品单位安全管理领域AI模型对场景理解的适用性。
| 字段名 | 类型 | 描述 |
|---|---|---|
序号 |
-- | -- |
问题 |
-- | -- |
选项A |
-- | -- |
选项B |
-- | -- |
选项C |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 序号 | 1 |
| 问题 | ( )负责核发危险化学品及其包装物、容器生产企业的工业产品生产许可证,并依法对其 |
| 选项A | 质量监督检验检疫部门 |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/175809