摘要:针对人机共融环境中机器人与人之间的交互问题,提出了一种面向人机交互场景的手势指向估计方法,通过人体指向 手势,以实现机器人对工作平面上指向目标点的信息交互。 首先,基于 RGB-D 相机与 VICON 人体动作捕捉系统,构建时间同 步的视觉指向手势位姿数据集,其中的每个样本包含人体指向手势的 RGB-D 图像和指向手势的位姿真值;其次,提出融合语义 与几何信息的指向手势位姿估计多层次神经网络模型;然后,设计融合位置点误差 ΔP 和方向角度误差 Δθ 的射线近似损失函 数,并基于构建的数据集,对指向手势位姿估计模型进行训练;最后,在实验室环境中进行了人机交互实验与模型验证。 实验结 果表明,在距离相机 5 m 的范围内,指向手势检测的平均精度为 98. 4% ,指向手势位姿的平均位置误差为 34 mm,平均角度误 差为 9. 94 °,进而实现工作平面上的手势指向目标点的平均误差为 0. 211 m。