研究人员对计算机视频识别取得进展
计算机可以在图像中识别您,但他们可以看到视频或真实世界的对象,并究竟介绍了什么?
研究人员正试图使计算机视频识别成为现实,并且他们正在使用一些图像识别技术来实现这一目标。
谷歌的研究人员正在进行视频识别,但谷歌大脑团队的Tensorflow工程总监Rajat Monga也有挑战,在本周Quora的问答答案期间表示。
视频识别的好处是巨大的。例如,计算机将能够识别一个人的活动,事件或位置。视频识别还将使自动驾驶汽车更加可行。
视频识别有可能向机器人提供数字眼,然后可以像洗衣一样常规琐事。
图像识别现在是常见的,但是视频识别涉及分析序列中串联聚集在一起的相关图像串。视频识别类似于人类愿景,我们看到相关图像的流,立即识别对象并识别我们周围的内容。
由于驾驶图像识别的深度学习模型的进步,视频识别的许多收益已经到来。
“通过彼此相关的每个视频中的帧序列,它提供了真实世界的更丰富的透视,允许模型创建世界的3D视图,而不必需要立体视觉,”曼引导谷歌的一个开源机器学习软件堆栈的Tensorflow。
在深度学习的背景下,与图像识别有关的挑战。计算机可以识别图像中的一些物品,但不是一切。当谈到对机器人的人类视觉的目标时,这是一个缺点。
通过视频识别真正的人类愿景是“遥远的,”Monga说。
需要培训计算机以识别深度学习模型中的图像,并且有大量存储库可用于在图片中交叉引用对象。大型数据集,如想象的大约1400万图像,有助于提高视力识别。但是,Monga说,但仍然需要更大的数据集。
谷歌的研究人员正在努力提高视频识别。该公司的研究人员正在研究深度学习如何通过预测视频帮助机器人。
谷歌正在制作AI云运营的一大部分,并且正在使用Google的机器学习,街道映射和其他服务。在谷歌之外,深度学习也被自驾车安全地使用,安全地巡航街道。公司还使用AI来摆脱代码中的错误。
Monga说,深入学习 - 培训和推理 - 均越来越好,越来越越来越好,但仍然有足够的改进空间。
更快的硬件和定制芯片的兴起,如谷歌的机器学习张量加工单元所帮助的深入学习。GPU的低级计算今天正在推动最深入的学习模型,但最快的硬件将使学习和推理更快。
“即使我们获得定制筹码,这仍然是一个挑战,即将持续的需求”对于更多计算,Monga说。
还需要更大的数据集和更多算法,它提供了底层公式来进行深度学习操作。
Monga说,培训培训深度学习模型的神经网络,培训深度学习模型,“很难没有足够的数据集。”
机器学习快速增长,许多公司正在采用谷歌的工具。像NVIDIA和MOVIDIOS这样的公司开发了Google“S Tensorflow的变体(由英特尔正在收购)服务器和嵌入式设备。
本周谷歌,亚马逊,Facebook,微软和IBM还在AI组织上形成了伙伴关系,以建立最佳AI实践。资助者Elon Musk,Peter Thiel,Sam Altman和Jessica Livingston承诺了10亿美元的快速发展AI项目,这成为IT行业AI活动的神经中心。