一文看懂：“计算机视觉”到底是个啥？

xman · 发表于 2017-2-20 06:07:56

　　想象一下，有人朝你扔过来一个球，你会怎么办?当然是马上把它接祝这个问题是不是弱智死了?
　　但实际上，这一过程是最复杂的处理过程之一，而我们目前尚处于理解它的阶段，离重塑还非常遥远。这就意味着，发明一个像人类一样去观看的机器，是一项非常艰巨的任务，不仅是让电脑去做到非常困难，甚至我们自己都无法确定完整的细节。
　　实际上的过程大概如下：首先球进入人类的视网膜，一番元素分析后，发送到大脑，视觉皮层会更加彻底地去分析图像，把它发送到剩余的皮质，与已知的任何物体相比较，进行物体和纬度的归类，最终决定你下一步的行动：举起双手、拿起球(之前已经预测到它的行进轨迹)。
　　上述过程只在零点几秒内发生，几乎都是完全下意识的行为，也很少会出差错。因此，重塑人类的视觉并不只是单一一个困难的课题，而是一系列、环环相扣的过程。
　　早在1966年，人工智能领域的先锋派人士Marivin Minsky就曾经给自己的研究生出题，要求他们"把摄像机连到一台电脑上，让它描述自己看到了什么。"而50年之后，今天的人们仍然在研究相同的课题。
　　这一领域的深入研究是从20世纪50年代开始的，走的是三个方向即复制人眼(难度系数十颗星);复制视觉皮层(难度系数五十颗星)，以及复制大脑剩余部分(难度系数一百颗星)。
　　复制人眼让计算机"去看"
　　目前做出最多成效的领域就是在"复制人眼"这一领域。在过去的几十年，科学家已经打造了传感器和图像处理器，这些与人类的眼睛相匹配，甚至某种程度上已经超越。通过强大、光学上更加完善的镜头，以及纳米级别制造的半导体像素，现代摄像机的精确性和敏锐度达到了一个惊人的地步。它们同样可以拍下每秒数千张的图像，并十分精准地测量距离。

　　数码相机里的图像传感器
　　但是问题在于，虽然我们已经能够实现输出端极高的保真度，但是在很多方面来说，这些设备并不比19世纪的针孔摄像机更为出色：它们充其量记录的只是相应方向上光子的分布，而即便是最优秀的摄像头传感器也无法去"识别"一个球，遑论将它抓祝
　　换而言之，在没有软件的基础上，硬件是相当受限制的。因此这一领域的软件才是要投入解决的更加棘手的问题。不过现在摄像头的先进技术，的确为这软件提供了丰富、灵活的平台就是了。
　　复制视觉皮层让计算机"去描述"
　　要知道，人的大脑从根本上就是通过意识来进行"看"的动作的。比起其他的任务，在大脑中相当的部分都是专门用来"看"的，而这一专长是由细胞本身来完成的数十亿的细胞通力合作，从嘈杂、不规则的视网膜信号中提取模式。
　　如果在特定角度的一条沿线上出现了差异，或是在某个方向上出现了快速运动，那么神经元组就会兴奋起来。较高级的网络会将这些模式归纳进元模式(meta-pattern)中：它是一个朝上运动的圆环。同时，另一个网络也相应而成：这次是带红线的白色圆环。而还有一个模式则会在大小上增长。从这些粗糙但是补充性的描述中，开始生成具体的图像。

　　使用人脑视觉区域相似的技术，定位物体的边缘和其他特色，从而形成的"方向梯度直方图"
　　由于这些网络一度被认为是"深不可测的复杂"，因此在计算机视觉研究的早期，采用的是别的方式：即"自上而下的推理"模式比如一本书看起来是"这样"，那么就要注意与"这个"类似的模式。而一辆车看起来是"这样"，动起来又是"这样"。
　　在某些受控的情况下，确实能够对少数几个物体完成这一过程，但如果要描述身边的每个物体，包括所有的角度、光照变化、运动和其他上百个要素，即便是咿呀学语的婴儿级别的识别，也需要难以想象的庞大数据。

　　而如果不用"自上而下"，改用"自下而上"的办法，即去模拟大脑中的过程，则看上去前景更加美好：计算机可以在多张图中，对一张图片进行一系列的转换，从而找到物体的边缘，发现图片上的物体、角度和运动。就像人类的大脑一样，通过给计算机观看各种图形，计算机会使用大量的计算和统计，试着把"看到的"形状与之前训练中识别的相匹配。
　　科学家正在研究的，是让智能手机和其他的设备能够理解、并迅速识别出处在摄像头视场里的物体。如上图，街景中的物体都被打上了用于描述物体的文本标签，而完成这一过程的处理器要比传统手机处理器快上120倍。
　　随着近几年并行计算领域的进步，相关的屏障逐渐被移除。目前出现了关于模仿类似大脑机能研究和应用的爆发性增长。模式识别的过程正在获得数量级的加速，我们每天都在取得更多的进步。
　　复制大脑剩余部分让计算机"去理解"
　　当然，光是"识别""描述"是不够的。一台系统能够识别苹果，包括在任何情况、任何角度、任何运动状态，甚至是否被咬等等等等。但它仍然无法识别一个橘子。并且它甚至都不能告诉人们：啥是苹果?是否可以吃?尺寸如何?或者具体的用途。

　　上文曾经谈过，没有软件，硬件的发挥非常受限。但现在的问题是，即便是有了优秀的软硬件，没有出色的操作系统，也"然并卵"。
　　对于人们来说，大脑的剩余部分由这些组成，包括长短期记忆、其他感官的输入、注意力和认知力、从世界中万亿级别的交互中收获的十亿计知识，这些知识将通过我们很难理解的方式，被写入互联的神经。而要复制它，比起我们遇到过的任何事情都要更加复杂。
　　计算机视觉的现状和未来
　　这一点就是计算机科学和更加普遍的人工智能领域的前沿。计算机科学家、工程师、心理学家、神经学家和哲学家正在通力合作，形成关于意识运作的概念，但还是远远达不到模拟它的地步。
　　不过，这也并非意味着目前我们处于死胡同。计算机视觉的未来，将会集成强大而专门的系统，让人们更加广泛集中在难以解决的概念上：环境、注意力和意图。
　　因此，即便是在如此早期的阶段，计算机视觉仍然发挥了很大的作用。在摄像头领域，是面部和笑容识别;在自驾车领域，则是读取交通信号和注意行人;工厂里的机器人会通过它来检测问题所在、并绕过周围的人类公认。虽然说要实现"和人类一样去看"仍然有很长的一段路，但是如果能够实现的话，那会是非常美妙的未来。

		自动登录	找回密码
密码			立即注册

[图像识别] 一文看懂：“计算机视觉”到底是个啥？