该数据集包含单张RGB手部图像及其对应的三维(3D)手指关键点坐标(x, y, z)。数据适用于实现更具沉浸感的VR/AR交互、机器人抓取任务的模仿学习、以及医疗康复中对患者手部运动的定量分析。利用该数据训练的模型能够仅从普通摄像头图像中恢复出手部的三维空间姿态,解决了传统依赖深度摄像头或多视角系统才能获取三维信息的硬件限制问题,极大地拓宽了三维手部姿态估计的应用范围。
从单张RGB图像中估计三维手部关键点是一个具有挑战性的任务。具体过程包括:(1)数据收集:在受控环境下采集手部图像和对应的三维关键点真实值(Ground Truth)。(2)数据处理:将单次采集的多张二维手部图像与三维关键点真实值以及图像特征进行关联,其中三维关键点真实值反映了对应二维手部图像中用于识别手势的多个关键点的三维真实坐标。图像特征是二维手部图像在高维特征空间的映射,通过公式 F3D_pose=Encodercnn(Ihand) 提取,Encodercnn为预训练的图像特征提取模型。(3)模型构建:构建一个深度神经网络,直接从二维图像特征回归三维空间坐标。根据公式 KPs3D=Decoder3D_kpt(F3D_pose) 从图像特征中预测出三维关键点坐标;关键评估指标为平均位置误差(Mean Per Joint Position Error, MPJPE),即预测的三维关键点坐标与三维关键点真实值之间的平均欧氏距离。此方法旨在通过普通摄像头实现低成本、高精度的三维手部姿态捕捉。
| 字段名 | 类型 | 描述 |
|---|---|---|
编号 |
-- | -- |
手部图像 |
-- | -- |
三维关键点真实值 |
-- | -- |
图像特征 |
-- | -- |
预测的三维关键点坐标 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 编号 | A10-20251011-SH6312 |
| 手部图像 | A10-20251011-SH6312\image.png |
| 三维关键点真实值 | A10-20251011-SH6312\bbox.json |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/8417889