中信数科 DataTrust 数据市场

数据集湖州创感科技有限公司

答题卡自动识别评分算法模型训练数据

价格待定

数据描述

随着现代化信息技术的发展，在答题卡阅卷领域已逐步实现计算机取代人工阅卷。计算机阅卷的优点:不但加快了阅卷速度，而且节约了人力资源，避免了人为错误的产生，增加了考试的公平性，进而提高了阅卷质量和效率。计算机识别答题卡后，还能直接读取学生的成绩进行存储并建立数据库，方便长久保存，省去了手工输入学生成绩的步骤。此外，学生答题卡图像识别技术能够和许多信息化技术相融合，便捷地获取答题成绩，进而将其应用到不同的教研系统中进行数据共享，方便数据分析，找出教学中存在的问题从而改进教学方法，具有非常重要的现实意义。

算法/方法论

1. 数据采集：通过多种途径收集获得历史主流答题卡模板，为保证数据集的训练数据量和多样性，通过对部分答题卡设计各种不同的干扰项，模拟不同光照条件，引入各类干扰因素。对所有的训练数据进行随机排序并设置文件ID。 2. 文件处理：使用PyTorch进行文件预处理，初始化并设置合理参数、数据集训练集路径和测试集路径。使用Hough变换对图像进行倾斜校正，保证文件的导入opencv对文件进行轮廓检测，确定答题卡的样式类型所属。使用label-studio对答题卡进行区域标注，分辨出答题卡的考生信息、选择题、填空题和主观题，得到需要识别的数据图片并对其进行分类和编号标记，确保答题卡后期总分计算等一系列处理。 3. 文件数据识别：因为主观题有多种解法和描述，目前只能人工审核，所以我们只针对考生信息、选择题和填空题进行训练识别。考生基本信息为准考证号+学生姓名，对考生信息通过ocr文字识别，获取到识别后的考生基本信息并整合为json文件，保存至student_info文件夹中。选择题通过图像平滑滤波+opencv技术识别，得到选择题的答案，对其进行整合为json文件，保存至choice_questions文件夹中。填空题使用ocr文字识别技术，得到各个填空题的答案，整合为json文件，并把它保存至fill_blank文件夹中。 4. 模型训练：通过文件数据识别得到的结果和答案进行对比，使用YOLOv10模型进行训练，将模型不断调整权重，固定学习率和批量大小的值，优化训练损失和验证损失，并且记录训练的训练时长。在训练过程中，模型的训练精度随着训练进度会逐步上升。 5. 模型评估：使用测试集对模型进行评估，计算模型在不同的样本数据下识别的训练精度、召回率、F1值、以及实时性能评估等性能指标，确保了模型的准确性与适应性。 6. 模型应用：将最终训练后得到的模型应用到实际具体的项目中。在实际应用中，通过对不同种类的答题卡进行针对性调整，确保模型识别的速率和准确性。

字段定义

字段名	类型	描述
`文件ID`	--	--
`文件路径`	--	--
`答题卡类型`	--	--
`考生信息识别结果`	--	--
`选择题识别结果`	--	--

样本数据

fieldName	exampleValue
文件ID	4931054153680807000,5881087908321021000,
文件路径	local/answer_sheet/152.jpg,local/answer_
答题卡类型	类型6,类型9,类型3,类型7,类型1

调用API获取完整数据

基本信息

数据格式: xlsx
数据类型: 企业数据
记录数量: 2683
所属行业: 信息传输、软件和信息技术服务业
登记企业: 湖州创感科技有限公司
数据单位: 条

V6 评分明细

描述质量 0.0 / 20

结构规范 0.0 / 20

规模时效 0.0 / 15

安全合规 0.0 / 20

认证标注 0.0 / 15

商业价值 0.0 / 10

API 调用示例

curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/8416773

获取API密钥已有账户？登录

认证信息

证书编号: 20250933000022829
登记编号: SZ2025520022829.6