谷歌正在利用人工智能技术设计出一种适用于手机平台的视频背景实时性替代方案,目前已经在YouTube当中进行测试。
视频分割是一类被广泛使用的技术,它确保了视频场景中的前景与背景区分开来,并将二者视为两个不同的图层。通过修改或替换背景,表演者将可以表达特定的情绪,任意转换位置,或者增强信息的表现力。然而,从传统角度讲,这种操作属于一类极为耗时的手动过程(例如对每一帧画面进行调整),或者需要在专门提供绿幕的工作室环境下(利用一种所谓色度键控技术)实现实时背景转换。
现在,为了让用户能够在取景器中直接享受这种效果,谷歌正在利用人工智能技术设计出一种适用于手机平台的实时性替代方案,目前已经在YouTube Stories应用当中进行测试。
具体而言,谷歌利用机器学习通过卷积神经网络以解决语义分割任务。谷歌认为,一款适用于手机的网络架构与训练程序,且其重点关注以下要求及约束条件:
· 移动解决方案应当具备轻量化特性,其运行速度至少要比现有的最为先进的图像分割模型快10到30倍。对于实时推理,这种模型需要提供每秒30帧的处理速度。
· 视频模型应该利用时间冗余特性(即相邻帧的内容往往较为相似)并体现出时间一致性(相邻结果应当彼此相似)。
· 高质量的分割结果源自高质量的注释。
谷歌这项视频分割技术与大多数基于人工智能的成像程序一样——人们首先以手动方式在超过10000张图像进行注释。正因为这些图像内涵丰富的前景与背景信息,因此相关注释包括头发、眼镜、颈部、皮肤、嘴唇等前景元素的精确像素位置,以及一套能够以98%的精度重现人类注释交叉验证结果(简称IOU)质量的常规性背景标签。
利用这套数据集,谷歌研究团队得以训练程序并指导其将背景与前景分离开来。(Adobe公司在Photoshop当中也曾提供一款类似的背景清除工具,但仅适用于静止图像)
图:来自谷歌数据集的示例图像,其中标有九项标签——前景元素覆盖在该图像之上。
谷歌的特定分割任务在于计算出一套二进制遮罩,从而在视频的每个输入帧(三通道,RGB)内将前景与背景区分开来。在这项任务当中,实现跨帧计算遮罩的时间一致性是其关键所在。对于目前的移动手机而言,利用LSTM或者GRU来实现实时应用显然在计算资源层面不具备可行性。因此,我们首先将前一帧的计算遮罩作为先验,并将其作为第四条通道接入当前RGB输入帧,从而实现时间一致性。具体如下图所示:
图:原始帧(左)在其三色通道中被区分出来,且与之前的遮罩(中)对接。其将作为神经网络的输入内容以预测当前帧的遮罩结果(右)。
然而,在视频分割当中,需要实现帧与帧之间的时间连续性,同时也要考虑到可能存在的时间不连续性——例如突然出现在摄像头当中的人物对象,而且,以上数据集是针对单幅图像训练而成的,那么谷歌如何利用单一图像替换每一帧视频的背景呢?
事实上,一旦该软件在第一幅图像上遮盖了背景,程序本身就会利用相同的遮罩机制来预测下一帧背景。当下一帧与前一帧仅存在些许差异时(例如摄像头发生了轻微移动),程序将对遮罩作出同样的微调。而如果下一帧与前一帧存在巨大区别(例如有新的人物对象加入视频),那么该软件将彻底丢弃原有遮罩预测结论,并创建新的遮罩(mask)。
具体操作而言,谷歌利用多种方式转换对图像内基本事实的注释,并将其用作前一帧的遮罩基准:
· 清空前一套遮罩——训练网络以正确方式处理第一帧与场景中的新对象。这就模拟出了新的人物对象突然出现在摄像头画面中的情况。
· 仿射转换后的实际背景遮罩——利用微调转换以训练网络传播并调整至前一帧的遮罩。利用重大转换以训练网络理解不适用的遮罩,并弃用此类遮罩。
· 转换图像——实现了对原始图像进行顺滑的平移转换,从而模拟摄像头的快速移动与旋转。
尽管这种分离背景的能力确实令人印象深刻,但谷歌公司还希望更进一步,包括使该程序能够在智能手机之上更为有限的硬件条件下运行。这意味着其必须放弃相对强大的台式计算机性能资源。在视频分割功能背后,程序员们会对程序作出进一步调整,从而提高分割与采样等操作的速度,同时减少通道数量。在此之后,该团队通过添加图层为前景与背景之间创建出更为平滑的边缘,最终提升处理质量。
谷歌公司指出,这些调整使得该应用程序能够以实时方式完成背景替换——在iPhone 7上,该应用的处理速度超过每秒100帧,而谷歌Pixel 2上的处理速度亦超过每秒40帧。谷歌方面表示,该训练集的准确率达到94.8%。不过谷歌公司目前发布的所有示例皆为单人视频,且其并没有提到该功能是否适用于多对象视频素材。
在该项功能的beta测试当中,YouTube主播们可通过选择不同的效果(夜景、黑白乃至空白背景)来更改视频中的显示背景。这一测试版本中的部分特效甚至增加了光照效果,例如可在角落处添加镜头光晕。
这款视频分割工具已经正式开放,但目前仅作为beta测试方案,因此相关功能仍无法广泛使用。谷歌公司表示,在整理出该项测试的相关结果之后,他们计划进一步扩展这种分割效果,并将该功能添加到其它程序当中——包括提供增强现实选项。
谷歌正在利用人工智能技术设计出一种适用于手机平台的视频背景实时性替代方案,目前已经在YouTube当中进行测试。
视频分割是一类被广泛使用的技术,它确保了视频场景中的前景与背景区分开来,并将二者视为两个不同的图层。通过修改或替换背景,表演者将可以表达特定的情绪,任意转换位置,或者增强信息的表现力。然而,从传统角度讲,这种操作属于一类极为耗时的手动过程(例如对每一帧画面进行调整),或者需要在专门提供绿幕的工作室环境下(利用一种所谓色度键控技术)实现实时背景转换。
现在,为了让用户能够在取景器中直接享受这种效果,谷歌正在利用人工智能技术设计出一种适用于手机平台的实时性替代方案,目前已经在YouTube Stories应用当中进行测试。
具体而言,谷歌利用机器学习通过卷积神经网络以解决语义分割任务。谷歌认为,一款适用于手机的网络架构与训练程序,且其重点关注以下要求及约束条件:
· 移动解决方案应当具备轻量化特性,其运行速度至少要比现有的最为先进的图像分割模型快10到30倍。对于实时推理,这种模型需要提供每秒30帧的处理速度。
· 视频模型应该利用时间冗余特性(即相邻帧的内容往往较为相似)并体现出时间一致性(相邻结果应当彼此相似)。
· 高质量的分割结果源自高质量的注释。
谷歌这项视频分割技术与大多数基于人工智能的成像程序一样——人们首先以手动方式在超过10000张图像进行注释。正因为这些图像内涵丰富的前景与背景信息,因此相关注释包括头发、眼镜、颈部、皮肤、嘴唇等前景元素的精确像素位置,以及一套能够以98%的精度重现人类注释交叉验证结果(简称IOU)质量的常规性背景标签。
利用这套数据集,谷歌研究团队得以训练程序并指导其将背景与前景分离开来。(Adobe公司在Photoshop当中也曾提供一款类似的背景清除工具,但仅适用于静止图像)
图:来自谷歌数据集的示例图像,其中标有九项标签——前景元素覆盖在该图像之上。
谷歌的特定分割任务在于计算出一套二进制遮罩,从而在视频的每个输入帧(三通道,RGB)内将前景与背景区分开来。在这项任务当中,实现跨帧计算遮罩的时间一致性是其关键所在。对于目前的移动手机而言,利用LSTM或者GRU来实现实时应用显然在计算资源层面不具备可行性。因此,我们首先将前一帧的计算遮罩作为先验,并将其作为第四条通道接入当前RGB输入帧,从而实现时间一致性。具体如下图所示:
图:原始帧(左)在其三色通道中被区分出来,且与之前的遮罩(中)对接。其将作为神经网络的输入内容以预测当前帧的遮罩结果(右)。
然而,在视频分割当中,需要实现帧与帧之间的时间连续性,同时也要考虑到可能存在的时间不连续性——例如突然出现在摄像头当中的人物对象,而且,以上数据集是针对单幅图像训练而成的,那么谷歌如何利用单一图像替换每一帧视频的背景呢?
事实上,一旦该软件在第一幅图像上遮盖了背景,程序本身就会利用相同的遮罩机制来预测下一帧背景。当下一帧与前一帧仅存在些许差异时(例如摄像头发生了轻微移动),程序将对遮罩作出同样的微调。而如果下一帧与前一帧存在巨大区别(例如有新的人物对象加入视频),那么该软件将彻底丢弃原有遮罩预测结论,并创建新的遮罩(mask)。
具体操作而言,谷歌利用多种方式转换对图像内基本事实的注释,并将其用作前一帧的遮罩基准:
· 清空前一套遮罩——训练网络以正确方式处理第一帧与场景中的新对象。这就模拟出了新的人物对象突然出现在摄像头画面中的情况。
· 仿射转换后的实际背景遮罩——利用微调转换以训练网络传播并调整至前一帧的遮罩。利用重大转换以训练网络理解不适用的遮罩,并弃用此类遮罩。
· 转换图像——实现了对原始图像进行顺滑的平移转换,从而模拟摄像头的快速移动与旋转。
尽管这种分离背景的能力确实令人印象深刻,但谷歌公司还希望更进一步,包括使该程序能够在智能手机之上更为有限的硬件条件下运行。这意味着其必须放弃相对强大的台式计算机性能资源。在视频分割功能背后,程序员们会对程序作出进一步调整,从而提高分割与采样等操作的速度,同时减少通道数量。在此之后,该团队通过添加图层为前景与背景之间创建出更为平滑的边缘,最终提升处理质量。
谷歌公司指出,这些调整使得该应用程序能够以实时方式完成背景替换——在iPhone 7上,该应用的处理速度超过每秒100帧,而谷歌Pixel 2上的处理速度亦超过每秒40帧。谷歌方面表示,该训练集的准确率达到94.8%。不过谷歌公司目前发布的所有示例皆为单人视频,且其并没有提到该功能是否适用于多对象视频素材。
在该项功能的beta测试当中,YouTube主播们可通过选择不同的效果(夜景、黑白乃至空白背景)来更改视频中的显示背景。这一测试版本中的部分特效甚至增加了光照效果,例如可在角落处添加镜头光晕。
这款视频分割工具已经正式开放,但目前仅作为beta测试方案,因此相关功能仍无法广泛使用。谷歌公司表示,在整理出该项测试的相关结果之后,他们计划进一步扩展这种分割效果,并将该功能添加到其它程序当中——包括提供增强现实选项。
-
标签: