该数据集包含大量图像和视频帧,其中捕捉了多个个体在同一画面内进行互动或独立活动的场景,并对所有出现的手掌进行了标注。此数据适用于会议分析系统、智能监控、多人协作的VR/AR环境以及零售业的消费者行为分析等。利用该数据训练的模型能够同时检测并区分画面中的多个手掌,解决了因手部交叉、重叠和数量变化导致的检测混淆与失败问题,为理解群体互动行为提供了基础技术支持。
在多人场景下准确检测所有手掌是实现群体行为分析的前提。具体过程包括:(1)数据收集:采集包含多个手掌的图像,并为每个手掌实例标注唯一的标注边界框。(2)数据处理:采用数据增强技术(随机缩放、裁剪、旋转)以增加模型对多手场景复杂性的适应能力。多人场景图像特征表示图像在高维特征空间的映射,通过公式 F_multi-hand=Encodercnn(I_scene) 提取,其中 F_multi-hand为多人场景图像特征,I_scene为输入的多人场景图像,Encodercnn为预训练的卷积神经网络。(3)模型构建:搭建一个能够输出多个目标边界框的检测模型。根据公式 pred_bbox,conf=Decodermulti-det(F_multi-hand) 从场景特征中解码出所有手掌的边界框集合,其中pred_bbox为预测边界框,conf为预测置信度,Decodermulti-det表示目标检测模型;关键评估指标为平均精度均值(mean Average Precision, mAP),用于综合评估模型多个手掌的综合性能。
| 字段名 | 类型 | 描述 |
|---|---|---|
编号 |
-- | -- |
多人场景图像 |
-- | -- |
标注边界框 |
-- | -- |
多人场景图像特征 |
-- | -- |
预测边界框 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 编号 | R994-20251011-SH0000 |
| 多人场景图像 | R994-20251011-SH0000\image.png |
| 标注边界框 | R994-20251011-SH0000\bbox.json |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/8417878