微软研究人员开发了可在任何设备上运行的辅助眼动追踪AI

凝视追踪有潜力帮助患有运动神经元疾病和疾病的人发挥对环境的控制权并与他人沟通。但是,由于变量包括头部姿势,头部位置,眼睛旋转,距离,照明,背景噪音以及眼镜,面部遮罩和辅助医疗设备的...

凝视追踪有潜力帮助患有运动神经元疾病和疾病的人发挥对环境的控制权并与他人沟通。但是,由于变量包括头部姿势,头部位置,眼睛旋转,距离,照明,背景噪音以及眼镜,面部遮罩和辅助医疗设备的存在,估计一个人的注视并不是一件容易的事。存在商业上可用的凝视追踪器-它们使用专门的传感器组件-但它们往往很昂贵,成本高达数千美元。另一方面,基于软件的廉价跟踪器通常容易受到照明干扰。

这一挑战激发了Microsoft的研究人员团队开发出一种超精密,与硬件无关的凝视追踪器,该追踪器可与任何现成的网络摄像头配合使用。在本月初发布的预印本论文中,他们详细介绍了该系统的工作,该系统在MIT语料库GazeCapture上实现了1.8073厘米的误差,其中包含来自1,450多人的眼动数据,而无需进行校准或微调。

微软有最近的凝视追踪研究历史。在先前的研究中,该公司的研究人员对显示器周围的多个红外光进行了眼动追踪实验,并使用了照相机和深度传感器。Windows 10是第一个提供Eye Control的操作系统版本,Eye Control是一项允许用户使用其眼睛来控制屏幕上的鼠标和键盘体验的技术,而Eye Drive Library则通过眼睛跟踪来模拟操纵杆。 

微软工程师的最新努力并不是第一次构建更精确的基于软件的跟踪器。GazeCapture背后的MIT团队设计了iTracker,这是一种AI模型,可使用内置相机在Apple设备上执行注视跟踪。他们的系统在未经校准的情况下,在智能手机和平板电脑上的预测误差分别为1.86厘米和2.81厘米。

但是研究人员的目标是进一步采取这一措施,以在智能手机和平板电脑之外的笔记本电脑和台式机上实现类似鼠标的手势。

像iTracker一样,共同作者的模型将相机图像的左眼,右眼和脸部区域作为输入,并使用25 x 25的脸部网格来指示所捕获图像中脸部像素的位置。这些输入图像通过眼睛和面部子模型(基于预训练的ResNet18计算机视觉算法)传递,然后将这些子模型的输出处理为凝视点坐标。

研究人员在GazeTracker数据集的一部分上训练了他们的模型,但他们还进行了数据扩充,以确保模型能够更好地处理在现实世界中可能遇到的变化。他们随机更改了样本图像的亮度,对比度,饱和度和色调,然后在随机裁剪它们以增加噪声以防止模型过拟合之前调整其大小。(过度拟合是指一种模型,该模型学习训练数据中的细节,从而对模型在新数据上的性能产生负面影响。)

共同作者将跟踪模型与人脸检测库Dlib结合使用,他们说,这样可以实现更有用,更一致且质量更高的检测。尽管GazeCapture不包括眉毛上方和嘴唇区域下方的数据,但Dlib会处理捕获的图像中的一系列头部旋转信息。在检测期间,该库(以及称为minAreaRect的OpenCV方法)适合矩形以识别面部轮廓,并在执行旋转校正和提取面部和眼部作物之前估算头角。旋转角度被编码到面部网格中。

研究人员试图通过分析系统关注的面孔区域来消除潜在的偏见和其他问题。他们发现它主要关心的是眼睛区域,还有眉毛和眼睑的下缘-换句话说,当人们朝特定方向移动眼睛时,肌肉就会被激活。研究人员写道:“仅着眼于瞳孔和虹膜的三角模型不一定具有这些特征,因此,深度学习可以在此范围之外加以利用,以提高准确性。”

在未来的工作中,合著者计划开发定制的神经网络体系结构,以进一步提高性能。他们继续说道:“凝视跟踪作为可访问性技术存在许多障碍,包括缺乏互操作性以及不存在涉及面部遮挡,头部姿势和各种眼部状况的多样化且大规模的数据集。”“这项研究表明,由于深度中立网络的预测能力,有一天,任何一台计算机,平板电脑或电话都将可以用您的眼睛进行控制。”

  • 发表于 2021-07-15 08:41
  • 阅读 ( 231 )
  • 分类:互联网

0 条评论

请先 登录 后评论
魏无羡
魏无羡

694 篇文章

你可能感兴趣的文章

相关问题