通过对企业基本信息和关键词的匹配,确定公司的行业分类,为企业数据分类、分析提供前提
对企业名称、主要产品、产品剂型、产品类型四个字段进行文本识别,和四级标签关键字字段进行匹配。匹配算法使用前缀树算法,用关键字字段构建前缀树,确定根节点。根节点就是所有关键字的公共前缀,比如说所有的关键字都是“药”开头的,那根节点就是“药”,如果关键字的开头不相同,那根节点就是为空字符,不影响计算。然后用文本从根节点开始逐字符遍历,如果节点出现该字符则进入子节点,如果没有出现则返回上一节点向下遍历,适用于大文本量快速匹配。当文本中出现四级标签关键字字段中任意一个关键词时,即确定该公司的行业分类一级标签为生物医药,二级标签为药品,三级标签为中药,四级标签为中成药。随即完成对一级标签、二级标签、三级标签、四级标签的自动填写。如果没有出现关键字字段中的任何关键词,则不匹配到该分类。
| 字段名 | 类型 | 描述 |
|---|---|---|
企业名称 |
-- | -- |
主要产品 |
-- | -- |
产品剂型 |
-- | -- |
产品类型 |
-- | -- |
四级标签关键字 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 企业名称 | ****制药股份有限公司 |
| 主要产品 | 刺五加片 |
| 产品剂型 | 片剂(糖衣) |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/40140