想记录眼前美景?不用再掏出相机或手机,只需一句语音指令,佩戴的轻巧时尚的谷歌眼镜就能立刻拍出眼前的图景;走在陌生的大街上,不用再查地图或问路,只需将手机摄像头对准街道,诺基亚“城市万花筒”就能将眼前的商店、餐馆和景点直接标注,覆盖显示在手机图像上……这些以往多是在电影中看到的画面,已成为普通人可以触摸到的现实。机器视觉——这一“第三只眼”正以巨大的能量,改变着人们的生活和工作方式。本报记者就此专访中国科学院自动化所专家,为读者解密神奇的“第三只眼”
与人眼一决高低
“机器视觉就是用机器代替人眼来进行识别、测量、判断等。机器视觉系统是通过摄像头将拍摄对象转换成图像信号,然后再交由图像分析系统进行分析、测量等。”中国科学院自动化研究所模式识别国家重点实验室研究员黄凯奇博士介绍:“机器视觉是一项典型的跨学科任务,涉及到光学、计算机视觉、模式识别、机器学习、人工智能、统计学、认知心理学等等。”
机器视觉最早应用于工业制造领域。通过机器视觉的自动识别功能,许多流水线上具有高度重复性的检测工作都可以不再依靠人来完成,大大提高了检测效率和精度。黄凯奇介绍,机器视觉系统最基本的特点就是提高生产的灵活性和自动化程度。在一些不适于人工作业的危险工作环境或者人工视觉难以满足要求的场合,常用机器视觉来替代人工视觉。同时,在大批量重复性工业生产过程中,用机器视觉检测方法可以大大提高生产的效率和自动化程度。
一个典型的机器视觉系统包括照明、镜头、相机、图像采集卡和视觉处理器5个部分。由于采集卡能更加迅速地传输图像到存储器,且计算机速度不断加快,所以在目前的机器视觉系统中,视觉处理器的应用逐渐减少。图像采集卡在机器视觉系统中举足轻重。比较典型的PCI或AGP兼容的捕获卡,可以将图像迅速地传送到计算机存储器进行处理。有些采集卡有内置的多路开关,可连接多台相机,能控制采集卡采用任意一个相机捕获的信息。
伴随着技术的发展,机器视觉的功能也在不断扩展。黄凯奇说:“缺陷检测是通过机器视觉手段来分析零部件信息,从而判断其是否存在缺陷;测量是通过使用机器视觉来对考察对象的尺寸、形状等信息进行度量;人机交互是利用机器视觉工具分析人或者其他机器发出的指令,从而实现对机器的操纵;环境建模是对机器周围环境进行感知建模,比如移动机器人对路面环境进行感知建模等。”
“目前总的看来,机器视觉在工业电子以及半导体行业应用还是最为主要的,如PCB板缺陷检测、IC芯片缺陷检测等。交通领域的应用如电子眼也较为广泛,其他行业如制药中的药品成分分析、互联网中的视觉计算广告、物流中的物品分拣等等,都有机器视觉应用的影子。”黄凯奇说。
机器视觉——这“第三只眼”已在多个领域展现出了比人眼更强大的功能。黄凯奇表示:“机器视觉利用好了完全可以比人做得更好,因为不同的人在观看时,信息得不到充分和及时的交流,主观性也很强。而机器视觉不仅计算功能强大,而且获取的信息通过协同分析后得到的知识会具有‘极高’的价值,尤其在其更趋于智能化之后。”
捕获“深度”世界
在现实生活中,我们越来越需要更多的三维模型来实现对物体或环境的全面掌握。“获得三维模型有两种基本方式,一种是利用激光扫描仪,一种是拍摄照片。但激光扫描仪的成本高,也有可能会对样本带来一些损害。第二种方式的成本小,而且在精度上也跟激光扫描仪相差无几,因此成为了现在研究的一个热点。”中国科学院自动化研究所模式识别国家重点实验室副研究员高伟博士一边展示他们的三维重建照片,一边介绍。
高伟说,一般的图像上是没有长度、距离等深度信息的,而三维模型则能更加全面、精确地记录环境,可以直观呈现物体的位置、距离、姿态等。高伟所在的机器人视觉团队研究开发的中国古代建筑全自动三维重建系统,能够实现全自动三维建模,即从底层图像处理到生成最终的三维模型,全部自动实现,无需人工交互。它对图像的拍摄方式也无特殊约束和限制,只需手持自由拍摄即可。在精度上,也与激光扫描精度相当,精度小于3cm/100米,通过配备更高像素数量的相机和长焦镜头还可以实现毫米级重建。
此外,在实时定位与在线三维重建方面,机器视觉也具有极大的应用潜力。高伟介绍了通过机器视觉在手机上增强现实的原理,即将手机上摄像头读取的视频作为输入,通过初始化、特征点提取、动态模板特征点匹配、几何变化计算阶段后得到视频每一帧中感兴趣区域的位置。诺基亚手机的“城市万花筒”就是一个应用实例。
高伟所在团队在视觉信息处理上的突出创新能力,不断吸引着国际大企业前来合作。“我们现在就正与诺基亚公司进行合作,共同研究实时定位和在线三维重建。目前,我国基于机器视觉的三维重建技术在国际上可以说处于领先地位,应用也是比较广泛的。”高伟说:“除了以上介绍的,还能用在一些不太适合人工作业的环境监测方面,像对露天煤矿的监测,就是通过无人机对煤矿进行全方位拍摄,生成三维模型来实时监测矿山的变化。此外,也能应用于城市规划、数字媒体、三维试衣、牙模制造等多方面。”
由于单纯依靠图像信息很难实现快速、稠密的三维重建,高伟所在团队也在深入研究将多种传感器信息相互融合进行三维重建的方法。目前,他们已开发出了利用单目视觉同步定位与地图创建技术以及微软公司的Kinect设备(微软公司开发的应用于Xbox360主机的周边外设,集成一个彩色摄影机、一个红外摄像机和一个红外投影机)的全自动场景快速重建系统。这一系统对单帧视频图像的处理时间小于50毫秒,可重建出稠密的三维点云,能广泛应用于多种室内场景,使用者可以随意自由拍摄。
互动“大数据”时代
在备受关注的美国政府公布的“大数据研发计划” (Big Data Research and Development Initiative)中包含一个旨在为机器建立视觉智能的Mind's Eye 项目。该计划称,传统的机器视觉研究的对象选取广泛的物体来描述一个场景的属性名词,而Mind's Eye旨在增加在这些场景的动作认识和推理需要的知觉认知基础。总之,这些技术可以建立一个更完整的视觉智能效果。
由此可见,走在信息科技前沿的美国已对机器视觉与大数据时代的互动关系先知先觉。黄凯奇指出:“大数据时代最朴素也是最深刻的特点就是‘大’。统计学中的大数定律指出,当随机事件或者试验在大量重复出现的条件下,往往呈现几乎必然的统计特性。确切地说,大数定律是以确切的数学形式表达了大量重复出现的随机现象的统计规律性。对于依赖数据规律的机器视觉算法来讲,大数据无疑为人们进一步发现人类的认知机理,实现更加鲁棒[鲁棒是Robust的音译,也就是健壮、强壮、坚定、粗野的意思。鲁棒性(robustness)就是系统的健壮性]的机器视觉算法提供了可能。另一方面,随着机器视觉系统更加鲁棒稳定,更加智能,它在收集、分析、处理海量信息方面也将发挥更加重要的作用。简言之,机器视觉一边借大数据之利不断发展,一边又靠技术的完善而反哺大数据时代,形成一个良性的互动。”
然而,这种互动要想真正建立,还需要加强技术和产业的双轮驱动。“国外在上世纪80年代就已出现大量的机器视觉产品,而我国机器视觉技术的应用始于90年代末。虽然在过去10年有了长足的发展,但目前绝大部分还处于追赶状态,一个是技术上的积累与创新跟国外相比还存在较大差距。另外一个是国内在应用创新上也存在不足,很多都是跟随国外的应用案例或者通过代理相关产品来实现模仿应用等。”黄凯奇表示。
目前,机器视觉在交通等多个领域的应用仍相对单一,存在着多层面阻碍其进一步产业化发展的因素。黄凯奇分析说,首先在鲁棒稳定的机器视觉系统方面,因为机器视觉技术涉及众多学科,需要不同学科协同创新才能突破目前发展的技术瓶颈。再一个就是标准方面,目前大部分厂家为了自身的短期局部利益都各自开发封闭的设备、协议、系统,这对整个行业的发展极为不利。“如何破除这种封闭状态的弊端,制定行业统一开放标准是促进机器视觉行业形成大格局、大产业的必经之路。”黄凯奇说。
“还有一点原因,就是关于机器视觉刚需的创造。我国是一个典型的劳动力密集国家,大部分行业依靠的是低廉的大量富余劳动力。而机器视觉与自动化息息相关,因此如何一方面有效解决就业问题,另一方面又高效推进机器视觉相关自动化产品设备的推广使用,是政府部门、企业需要面对的问题。”黄凯奇表示。