中信数科 DataTrust 数据市场

数据集杭州谦贞数字科技有限公司

实体识别训练数据

价格待定

数据描述

适用条件与范围医疗健康：从病历记录中识别疾病、药物和治疗过程等实体，辅助诊断和治疗决策。法律和合规：在法律文件中识别相关的法律条款、案件名称、参与人物等，用于合规性分析。金融服务：从财经新闻或报告中提取公司名称、股票代码、经济指标等，辅助市场分析和投资决策。新闻和媒体：自动识别新闻文章中的关键人物、地点、事件等，用于内容分类和摘要生成。社交媒体分析：从用户生成的内容中识别品牌、产品、人名等，用于市场趋势分析和舆情监控。旅游和地理信息系统：识别地理位置、地标、文化遗产等，用于旅游推荐和地理信息服务。对象医疗专业人员：用于提高病历处理的效率和准确性。法律从业者：帮助快速处理大量法律文件和案件记录。金融分析师：协助进行市场趋势分析和投资决策。新闻编辑和记者：提高新闻报道的准确性和速度。市场营销人员：分析品牌和产品的市场表现。旅游规划师：提供更丰富的旅游信息和建议。禁用场景不用于非法目的：禁止用于任何形式的非法活动，如侵犯隐私、诈骗等。避免敏感信息泄露：在处理个人敏感信息时必须遵守隐私保护和数据安全的法律法规。避免偏见和歧视：确保实体识别不加强任何形式的偏见和

算法/方法论

实体识别（Entity Recognition）是自然语言处理（NLP）中的一个关键任务，旨在从文本中自动识别和分类特定的实体，如人名、地点、组织名称等。以下是实体识别任务的算法规则简要说明： 1. 数据预处理文本清洗：去除无关字符，如标点、特殊符号等，统一文本格式。分词：特别是对于中文等不使用空格分隔单词的语言，需要进行有效的分词处理。 2. 特征提取语法特征：提取词性标记、句法依赖等信息。上下文特征：分析实体周围的词汇和语境，帮助确定实体的类别。 3. 模型训练传统机器学习方法：如决策树、支持向量机（SVM）等，利用人工提取的特征。深度学习方法：如循环神经网络（RNN）、长短时记忆网络（LSTM）和BERT等，能够自动学习复杂的特征。 4. 实体识别序列标注：标注每个词汇是否属于某个实体类别，以及实体的边界。实体分类：确定每个识别出的实体属于哪个类别，如人名、地点等。 5. 后处理实体合并：合并多个标记来形成一个完整的实体，如一个完整的人名。消歧：解决实体名称可能引起的歧义，如同名的不同人物或地点。 6. 优化与评估模型调优：根据实体识别的性能调整模型参数。

字段定义

字段名	类型	描述
`类别`	--	--
`输入`	--	--
`结果`	--	--

样本数据

fieldName	exampleValue
类别	实体识别
输入	"来自河南医大、河南省医院、贵阳医学院、遵义医学院的数十名医疗队员将赴遵义市的1
结果	"组织：贵阳医学院,遵义医学院,河南医大,河南省医院地点：遵义市"

调用API获取完整数据

基本信息

数据格式: --
数据类型: --
记录数量: 5968
所属行业: 信息传输、软件和信息技术服务业
登记企业: 杭州谦贞数字科技有限公司

V6 评分明细

描述质量 0.0 / 20

结构规范 0.0 / 20

规模时效 0.0 / 15

安全合规 0.0 / 20

认证标注 0.0 / 15

商业价值 0.0 / 10

API 调用示例

curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/22235

获取API密钥已有账户？登录

认证信息

证书编号: 20231133000004518
登记编号: SZ2023120004518.6