在“互联网健康咨询、在线辅助问诊、临床决策辅助支持”场景中,通过训练挖掘内容与学科、行业、专业、科室之间的相关性,获取药品、诊断、疾病、检查、检验等诊疗知识,构建出具备自我学习、数据分析、引导提问等能力医疗大模型。辅助医生为用户提供精准、可靠、及时的全流程健康咨询服务,主要包含AI诊前服务和AI诊后服务,AI诊前服务利用大模型技术,提供健康自诊断、知识问答、用药咨询、智能导诊等功能的服务,帮助用户在就医前获得初步的医疗建议和指导;AI诊后服务是指利用医疗大模型技术,在诊后随访、智能评估、专病管理、智能跟踪等院外场景中提供专业的知识服务能力。
1.格式清洗:完成QA对答、知识图谱等原始数据的格式统一&清洗,获取内容、学科、数据集类型、数据集来源等信息 2.敏感信息&毒性信息过滤:去除隐私数据和黄赌毒/暴恐/政治等毒性数据。 3.质量过滤:清除语句不通顺、医学专业质量差的数据,并生产质量分字段 4.数据去重:通过模糊匹配和精准匹配完成数据集内部重复数据清除 5.多维度打标:基于质心的聚类,采用k均值算法,计算对象与聚类中心之间的距离,完成学科、类别、行业、专业、科室等字段的打标,便于数据洞察和选择。
| 字段名 | 类型 | 描述 |
|---|---|---|
唯一标识 |
-- | -- |
内容 |
-- | -- |
类别 |
-- | -- |
学科 |
-- | -- |
行业 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 唯一标识 | 92843c160cb233ac311a94ea5e4b91ae-0 |
| 内容 | 氨苄西林胶囊\n国药准字H42022761-730522577894252572 |
| 类别 | isa |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/10609