返回数据集列表
数据集 浙江亨德清洗科技有限公司

各用户对脱水机产品购买频率分析数据

价格待定
数据描述

本数据聚焦企业订单处理中识别差错、下单效率低下等核心痛点,构建精准塑胶行业手写订单图像识别AI模型的信息基础。近千张订单图片和塑胶行业知识图谱数据集经过系统处理,标准规范、结构清晰,完成了可为塑胶行业复用的塑胶制品订单识别垂域模型训练。通过应用该模型,可实现手写订单图片中紧急标识、材料属性、加工要求、精确尺寸等关键信息的精准识别、结构化提取与智能优化,实现手写订单数据自动化录入、标准化处理与快速下单,大幅降低企业人工录入成本与信息误差率,可将同行业手写订单解析准确率从传统模式大幅度提升。

算法/方法论

本项目基于多家企业图片订单数据,通过多阶段智能处理,构建了一套从非结构化图像到结构化、知识增强型订单数据的自动化系统。具体流程与成果如下: 1.数据采集与标注 采集真实业务中产生的图片订单作为原始数据源,具体包含两部分: ①业务规则验证数据集:将已处理的订单信息结构化,形成涵盖订单紧急标识、成型样式、材料属性(品类、品牌、等级、颜色)、加工要求、精确尺寸、数量包装等完整字段的业务实体数据集,用于验证和驱动下游的规则引擎。 ②领域专用OCR训练数据集:针对订单图片中手写体(工整/潦草)、印刷体等多变样式,进行人工精细化标注(文本区域框选与内容转录),构建了高质量的定制化图像-文本对齐数据集。目前OCR数据集包含近千条样本数据,按照8:2比例划分为训练集和测试集。 2.数据预处理 对采集的订单图片进行灰度化、降噪、倾斜校正等预处理操作,提升OCR识别准确率;提取图片中的文本信息,形成原始OCR识别结果,标注模糊、错误、缺失等问题字段。 3.OCR模型训练 基于卷积神经网络(CNN)和循环神经网络(RNN)的组合架构,采用“图像输入→特征提取→序列识别→输出文本”的端到端架构,建立AI手写订单识别模型,对OCR识别识别结果进行综合后处理优化,通过大量标注数据训练,采用公式矫正、常见错字替换、尺寸标准化等方法,有效纠正识别错误,生成高质量的订单文本,实现从图像到文字的直接映射。此模型在训练后再训练集中识别准确率为89%。 4.关键词矫正 基于行业订单数据词典与语义分析模型,对OCR识别结果中的关键词进行矫正,根据预先定义的、融合了领域知识的详细规则库,从优化后的文本中自动提取并结构化订单关键信息,实现非结构化文本到标准化业务数据的精准转化。包括产品规格单位统一(如“丝”与“mm”换算)、错别字修正(如“分斤”改为“公斤”)、模糊信息补全(如日期格式标准化)。目前订单解析的准确率可达95%以上。 5.历史数据关联与智能补全 在AI手写订单识别模型中添加当前订单与客户历史订单的关联关系,采用“最多字段匹配”算法,依据品类、品牌、等级三个核心字段判断订单相关性,并自动利用最相关历史订单的信息来填充当前订单中的空缺字段,实现数据知识的传承与增强。

字段定义
字段名 类型 描述
图片序号 -- --
OCR识别内容 -- --
关键词矫正 -- --
大模型纠错 -- --
成型 -- --
样本数据
fieldName exampleValue
图片序号 图片311
OCR识别内容 3月25日青兴塑业制造厂 460x335*0.5100公斤 PVC亿昇A料8.0
关键词矫正 3月25日青兴塑业制造厂 长度:460.00,宽度:335.00,厚度:0.51
调用API获取完整数据
基本信息
数据格式
rar
数据类型
企业数据
记录数量
257.1
所属行业
制造业
登记企业
浙江亨德清洗科技有限公司
数据单位
MB
V6 评分明细
描述质量 0.0 / 20
结构规范 0.0 / 20
规模时效 0.0 / 15
安全合规 0.0 / 20
认证标注 0.0 / 15
商业价值 0.0 / 10
API 调用示例
curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/8428809