数据在金融信贷、产业分析、供应链管理等方面均可适用。使用群体包括但不限于银行、商业保理等领域。解决金融机构获客、企业增信、产业分析,商业保理融资,供应链融资等问题。
1.数据预处理、分词:对行政许可数据进行清洗和预处理。包含去除重复数据、填补缺失值、去除停用词和标点符号等,用分词工具对文本进行分词2.使特征提取、构建词典、向量化:使用word2vec算法计算每个词在文本中出现的频率,然后根据频率对词汇进行排序,选取前若干个词汇作为特征,根据特征构建词典,将每个特征映射到一个唯一的整数编号,使用词典将每个行政许可文件转化为向量3.模型训练:使用CRF来训练信息抽取模型;将每个行政许可文件根据其所属行业标记(自定义分类标准)为对应的类别标签,使用神经网络训练行政许可分类器4.信息抽取、许可分类、计算匹配度:使用信息抽取模型,从文本中识别有效期、发证日期、地址、许可证号.使用训练好的行政许可分类器对文件进行分类,并使用余弦相似度(cosθ=A*B/(|A||B|),A、B是文本词频向量,|A|和|B|分别表示它们的模长,其中A·B表示向量的点积)计算匹配度,最终选取相似度最高的分类作为行政许可类型5.数据标准化:对有效期、发证日期转换成统一的日期格式;对企业名称结合工商数据进行校验,并补充统一社会信用代码等内容对于主体名称疑似有误的情况经过人工介入来校验
| 字段名 | 类型 | 描述 |
|---|---|---|
主体名称 |
-- | -- |
统一社会信用代码 |
-- | -- |
负责人 |
-- | -- |
许可证编号 |
-- | -- |
机关 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 主体名称 | 天津天食智慧牧业有限公司 |
| 统一社会信用代码 | 91120224789393162J |
| 负责人 | 李景斌 |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/4084