雅虎开源人工智能独门武器 CaffeOnSpark

jack · 发表于 2016-3-3 02:25:37

又有一家科技巨头向全世界公开了他们的 know-how 人工智能。2月25日，Yahoo 发布了 CaffeOnSpark 人工智能的源代码，每个学术研究人员或是大公司都可以使用或是加以修改。

   Yahoo 在科技方面的实力大概鲜有人知。事实上开源 Hadoop 就是 Yahoo 孵化的；Facebook、Twitter  以及其他不少公司都在用这个数据处理平台。因此在人工智能方面，Yahoo 公司有着独到的长处，因为在培训人工智能系统的时候，数据就和算法一样重要。而且 Yahoo  手握着全球最有趣最大的资料库之一：相片社群网站 Flickr。
   就如诸多新的开源人工智能项目一样，CafffeOnSpark  的根基是深度学习。深度学习是人工智能的一个分支，以其人类语音、照片和视频等的识别能力见长。Yahoo 就是用这项技术来识别照片中的不同内容，以此改良  Flickr 网站的搜索结果。与其他网站不同，Flickr 的图片搜索并不是靠图片描述或是用户输入的关键词。Yahoo  会教电脑如何识别照片的某种特征，例如特定的颜色，甚至是物体或动物。
   在最近几个月里，Google 开放了深度学习网络 TensorFlow 的源代码，Microsoft 开放了类似的网络 CNTK，Facebook  分享了人工智能硬件设计，中国搜索引擎巨头百度也公开了深度学习训练软件。
   这些开源技术项目都各自有所侧重，偏向不同。例如 Yahoo 的目的是要在现存的系统上运行深度学习，避免把数据从一个地方传输到另一个地方。Yahoo  的构架副总裁 Andy Fent  向我们解释，训练深度学习系统识别图片需要巨量的数据信息。你得往算法里放大量的例子，越多越好，比如如果是一只猫的话，系统要足够的图才会「学会」辨认猫之间的共同特征，分辨猫和其他动物。
   Flickr 网站上有成千上万张图片，足够拿来训练人工智能了。但是开发团队不想把这些图片从 Flickr  服务器传送到另一层运行深度学习软件的服务器里。于是他们发明了在已有的构架上运行深度学习软件的方法。
   从名字上看，CaffeOnSpark 结合了两种现有的科技：深度学习框架 Caffe 和大规模数据处理系统 Spark。Yahoo 所做的就是想办法在  Spark 层次上运行 Caffe。找到方法后，Caffe 不仅可以在 Spark 上运行，还可以两者一起在 Hadoop 上运行。Yahoo  的开发不仅会让人工智能开发者用更简单熟悉的工具、省去传送数据的麻烦过程，还能让深度学习更方便地同时处理数个服务器的内容。Feng 还特意告诉我们，这一点  Google 的 TensorFlow 目前还做不到，Yahoo 领先了一步。
   Feng 说到，去年团队在博客上发表了有关 CaffeOnSpark 的帖子后，不少公司都希望 Yahoo 开放 CaffeOnSpark  的源代码。于是他们发现，不少公司其实服务器上都已经具备了不少信息，但是他们不想传送。

		自动登录	找回密码
密码			立即注册