返回数据集列表
数据集 湖州创感科技有限公司

答题卡自动识别评分算法模型训练数据

价格待定
数据描述

随着现代化信息技术的发展,在答题卡阅卷领域已逐步实现计算机取代人工阅卷。计算机阅卷的优点:不但加快了阅卷速度,而且节约了人力资源,避免了人为错误的产生,增加了考试的公平性,进而提高了阅卷质量和效率。计算机识别答题卡后,还能直接读取学生的成绩进行存储并建立数据库,方便长久保存,省去了手工输入学生成绩的步骤。此外,学生答题卡图像识别技术能够和许多信息化技术相融合,便捷地获取答题成绩,进而将其应用到不同的教研系统中进行数据共享,方便数据分析,找出教学中存在的问题从而改进教学方法,具有非常重要的现实意义。

算法/方法论

1. 数据采集:通过多种途径收集获得历史主流答题卡模板,为保证数据集的训练数据量和多样性,通过对部分答题卡设计各种不同的干扰项,模拟不同光照条件,引入各类干扰因素。对所有的训练数据进行随机排序并设置文件ID。 2. 文件处理:使用PyTorch进行文件预处理,初始化并设置合理参数、数据集训练集路径和测试集路径。使用Hough变换对图像进行倾斜校正,保证文件的导入opencv对文件进行轮廓检测,确定答题卡的样式类型所属。使用label-studio对答题卡进行区域标注,分辨出答题卡的考生信息、选择题、填空题和主观题,得到需要识别的数据图片并对其进行分类和编号标记,确保答题卡后期总分计算等一系列处理。 3. 文件数据识别:因为主观题有多种解法和描述,目前只能人工审核,所以我们只针对考生信息、选择题和填空题进行训练识别。考生基本信息为准考证号+学生姓名,对考生信息通过ocr文字识别,获取到识别后的考生基本信息并整合为json文件,保存至student_info文件夹中。选择题通过图像平滑滤波+opencv技术识别,得到选择题的答案,对其进行整合为json文件,保存至choice_questions文件夹中。填空题使用ocr文字识别技术,得到各个填空题的答案,整合为json文件,并把它保存至fill_blank文件夹中。 4. 模型训练:通过文件数据识别得到的结果和答案进行对比,使用YOLOv10模型进行训练,将模型不断调整权重,固定学习率和批量大小的值,优化训练损失和验证损失,并且记录训练的训练时长。在训练过程中,模型的训练精度随着训练进度会逐步上升。 5. 模型评估:使用测试集对模型进行评估,计算模型在不同的样本数据下识别的训练精度、召回率、F1值、以及实时性能评估等性能指标,确保了模型的准确性与适应性。 6. 模型应用:将最终训练后得到的模型应用到实际具体的项目中。在实际应用中,通过对不同种类的答题卡进行针对性调整,确保模型识别的速率和准确性。

字段定义
字段名 类型 描述
文件ID -- --
文件路径 -- --
答题卡类型 -- --
考生信息识别结果 -- --
选择题识别结果 -- --
样本数据
fieldName exampleValue
文件ID 4931054153680807000,5881087908321021000,
文件路径 local/answer_sheet/152.jpg,local/answer_
答题卡类型 类型6,类型9,类型3,类型7,类型1
调用API获取完整数据
基本信息
数据格式
xlsx
数据类型
企业数据
记录数量
2683
所属行业
信息传输、软件和信息技术服务业
登记企业
湖州创感科技有限公司
数据单位
V6 评分明细
描述质量 0.0 / 20
结构规范 0.0 / 20
规模时效 0.0 / 15
安全合规 0.0 / 20
认证标注 0.0 / 15
商业价值 0.0 / 10
API 调用示例
curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/8416773
认证信息
证书编号
20250933000022829
登记编号
SZ2025520022829.6