通过构建一个包含大量明确表示“确认”(如竖起大拇指、OK手势)与“否定”(如拇指向下、摆手示意)的静态手势图像及其对应二元类别标签的数据集,用于训练快速响应的分类模型。该数据适用于各类系统对话框的快速响应,例如在智能驾驶中确认导航指令、在AR/VR环境中对系统提示进行“是/否”选择、在公共查询机或售票机上进行非接触式操作确认,以及在工业流水线上对工序完成情况进行快速标记。利用该数据训练的模型能够即时、准确地捕捉用户的二元决策意图,解决了传统交互中需要中断当前任务(如伸手触摸屏幕或拿起控制器)或在嘈杂环境下语音识别率低下的问题,提供了一种极为高效、直观且无需中断的“即时反馈”交互手段。
面向二元类别的静态手势识别旨在将单个图像中的手势分类为预定义的“是”、“否”。具体过程包括:(1)数据收集:采集覆盖多种常见手势的图像,记录所属类别。(2)数据处理:利用手掌检测模型提取手部区域图片I_hand,然后将该区域输入到一个特征提取网络中,用来在高维特征空间表征手部区域。特征提取通过公式 F_gesture=Encodercnn(I_hand)完成,其中 F_gesture是代表手势语义的特征向量。(3)模型构建:在提取的特征向量后连接一个分类器Classifier,根据公式 P_class=Classifier(F_gesture) 预测出数字类别,其中P_class是预测的二元类别;关键评估指标包括平均分类准确率。
| 字段名 | 类型 | 描述 |
|---|---|---|
编号 |
-- | -- |
手势图像 |
-- | -- |
手部区域图片 |
-- | -- |
类别 |
-- | -- |
手势语义特征向量 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 编号 | Z912-20251017-SH0000 |
| 手势图像 | Z912-20251017-SH0000\input.png |
| 手部区域图片 | Z912-20251017-SH0000\hand.png |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/8417918