谷歌公司的科学家们研究出有一种新的计算机视觉方法,用作构建手部感官。该方案需要在实机实验中单凭一帧图像识别出有一只手(或者多只手)上的21个3D点位。只要在手机上就能展开动态跟踪,并且还能同时跟踪多只手,可辨识遮盖。动态手形与动作追踪方案,仍然是手语辨识与手势控制系统中尤为核心的组成部分,同时在部分减少现实体验中也扮演着最重要角色。
然而,现有技术往往因为遮盖或者缺少对比模式等问题的后遗症,无法获取理想的可靠性。面临这一现实挑战,谷歌公司的科学家们研究出有一种新的计算机视觉方法,用作构建手部感官。作为幕后推动者,机器学习技术为获取了强劲助力。
根据讲解,该方案需要在实机实验中单凭一帧图像识别出有一只手(或者多只手)上的21个3D点位。与目前市面的手势辨识技术比起,谷歌的全新技术不必须倚赖台式机来计算出来,只要在手机上就能展开动态跟踪,并且还能同时跟踪多只手,可辨识遮盖。
早于在今年6月,谷歌就在2019计算机视觉与模式识别大会上发布了此项技术的预览版本。2月之后,谷歌于美国时间8月20日月宣告将该技术构建于引进MediaPipe当中。MediaPipe是一套开源跨平台框架,用作建构多模应用于机器学习流水线,可以处置有所不同模态(例如视频与音频)中的感官数据。
该项目的源代码以及末端到末端用于场景目前都早已在GitHub上全面公开发表。研究工程师ValentinBazarevsky和FanZhang在博文他们的当中写到:“感官手部形状与运动姿态的能力,未来将会沦为提高各类技术展现出及平台用户体验的最重要助力。
我们期望将这种手部感官功能交付给至更加普遍的研究与研发社区处,利用大家的力量联合增进创意用例的经常出现,性刺激新的应用于方式并拓展出有前所未有的研究途径。”据理解,谷歌的这一技术包括三套串联工作的AI模型:一个手掌观测模型(BlazePalm)用作分析框体并回到手部动作边框;一个手部标记模型(Landmark),用作查阅由手掌探测器定义的剪裁后图像区域,并回到3D位点;一个手势辨识模型,用作将之前计算出来得出结论的位点归类为一组手势。BlazePalm:手部辨识决不像听得一起那么非常简单。
GlazePalm必需需要解决问题手部遮盖这一现实难题。为此,谷歌团队训练出有一款手掌探测器BlazePalm——留意,是手掌而不是手部。他们指出,对拳头这类物体展开边界板刻画,在可玩性上要比追踪手指较低得多。
明确地,BlazePalm可以辨识多种不同手掌大小,不具备较小的图形范围,还能辨识手部遮盖,能通过辨识手臂、躯干或个人特征等信息精确定位手部。除此之外,这种方式还有另众多优势,就是需要很好地相容问候等类似场景,利用忽视其它宽高比条件的方形边框仿真手掌,从而将必需的3D点数削减至以往的三分之一到五分之一。多达,经过训练之后,BlazePalm辨识手掌的准确率可以超过95.7%。
Landmark:在手掌检测之后,手部标记模型开始接管,负责管理在检测到的手部区域之内创建21个由手到肘的3D定位座标。在训练当中,模型拒绝研究人员手动注解多达3万份现实场景下的图像,并扎根多种背景对适当座标展开图形和同构,最后创立出有高质量的制备手部模型。多达,在经过训练后,算法的平均值重返误差可减少到13.4%。
手势辨识模型:流水线上的最后一步是手势辨识,该模型利用关节转动角度来确认每根手指的状态(如倾斜或手掌),并将手指状态子集与预计义的手势同构一起,进而预测基础的静态手势。Bazarevsky和Zhang讲解称之为,该模型需要辨识来自多种文化(例如美国、欧洲与中国)的算数手势,以及握拳、“OK”、“摇滚”、“蜘蛛侠”等少见手势。
除此之外,这些模型也可以继续执行对应的分开任务,例如利用显示卡展开图像剪裁与图形,从而节约计算资源;并且,手掌观测模型只有在适当时才运营——因为在大多数时段内,先前视频帧内的手部方位只凭计算出来出有的手部关键点才可推理小说得出结论,仍然必须手掌探测器的参予。也就是说,只有当推理小说置信度高于某个阈值时,手部检测模型才不会新的插手。
展望未来,Bazarevsky、Zhang及其团队还计划创建更加强劲且、更加平稳的追踪拓展技术,同时减少需要可信检测出有的手势数量,并考虑到反对即时动态手势辨识。他们总结道:“我们坚信,这项技术的公布将为研究及开发者社区带给助力,协助他们找到更加多新的创新与应用于方向。
本文来源:4001百老汇官网-www.spoondrift504.com