通过构建一个专门针对数字0到9的静态手势图像及其对应类别标签的数据集,用于训练高精度的数字分类模型。此数据适用于需要快速、非接触式进行数字输入或选择的场景,例如在虚拟/增强现实(VR/AR)应用中,用于无控制器环境下的密码输入、物品数量选择或菜单项快速导航;以及在公共场所的交互式屏幕上。利用该数据训练的模型能够专门优化数字识别的准确性和鲁棒性,解决了在特定场景下语音输入易受噪声干扰、触摸屏输入不便或不卫生的问题,提供了一种高效、明确且无声的数字交互指令通道。
面向数字的静态手势识别旨在将单个图像中的手势分类为预定义的数字内容。具体过程包括:(1)数据收集:采集覆盖多种常见手势图像,记录所属数字类别。(2)数据处理:利用手掌检测模型提取手部区域图片,然后将该区域输入到一个特征提取网络中,用于将手部区域图片映射到高维特征空间。特征提取通过公式 F_gesture=Encodercnn(I_hand) 完成,其中 F_gesture是代表手势语义的特征向量。(3)模型构建:在提取的特征向量后连接一个分类器Classifier,根据公式 P_class=Classifier(F_gesture) 预测出数字类别,其中Pclass是预测的数字类别;关键评估指标包括平均分类准确率。
| 字段名 | 类型 | 描述 |
|---|---|---|
编号 |
-- | -- |
手势图像 |
-- | -- |
手部区域图片 |
-- | -- |
数字类别 |
-- | -- |
手势语义特征向量 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 编号 | G367-20251017-SH0000 |
| 手势图像 | G367-20251017-SH0000\input.png |
| 手部区域图片 | G367-20251017-SH0000\hand.png |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/8417917