开发者俱乐部

标题: 机器学习工具综述 [打印本页]

作者: jack    时间: 2016-2-4 19:42
标题: 机器学习工具综述

工具是机器学习的重要组成部分,选择合适的工具与使用最好的算法同等重要。

在这篇文章中,你将会见识到各种机器学习工具。了解它们为什么重要,以及可供选择的工具类型。

为什么要使用工具

机器学习工具使得应用机器学习更快,更简单,更有趣。

有目的地选择工具

你不希望为学习、使用机器学习工具而学习、使用机器学习工具。必须有目的地使用工具。

机器学习工具可以让你在机器学习项目中交付结果。当你试图决定是否要学习新工具或是新功能的时候,问自己这么一个问题:

这些工具如何帮助我在机器学习项目中交付结果?

机器学习工具不仅仅是机器学习算法的实现。它们可能是,但在你解决机器学习问题的过程中,它们也可以为每一个过程提供帮助。

好工具 VS 强大工具

你想在你正在解决的问题上使用最好的工具。那么如何区分好的机器学习工具与强大机器学习工具之间的区别呢?

值得信赖的资源:强大的机器学习工具维护良好,时常保持更新,并具有社区人群。寻找关于一个工具相关的活动,是此工具被使用的标志。

何时使用机器学习工具

机器学习工具能够节省你的时间,并在项目中持续为你提供良好的结果。以下是使用机器学习工具能够为你带来的一些好处:

平台 VS 库

机器学习工具有许多。谷歌搜索到的结果就足以让你头晕目眩了。

一种有用的机器学习工具分类方式是将它们分成平台和库。平台为你运行一个项目所需的全部功能,而库只为你完成一个项目提供部分功能。

这么区分并不完美,因为有些机器学习平台同时也是库,有些库也提供了图形化用户界面。然而,这提供了很好的比较方式,从特定目的工具中区分具体使用情形。

机器学习平台

机器学习平台提供了从头到尾完成一个机器学习项目的功能。也就是,数据分析,数据准备,建模和算法评估及选择。

机器学习平台的特征有:

以下是一些机器学习平台:

机器学习库

机器学习库提供了完成一个机器学习项目部分模块的功能。比如,一个库可能提供了一系列建模算法。

机器学习库的特征有:

以下是一些机器学习库:




作者: jack    时间: 2016-2-4 19:42
机器学习工具界面
另一种区分机器学习工具的方式是根据它们提供的界面。

这可能令人迷惑,因为一些工具提供了多个界面。然而,这可能为你挑选机器学习工具提供了起点,甚至可能为你区分这些工具提供了帮助。

下面是一些常见的界面。

图形化用户界面
机器学习工具提供了图形用户界面,包括窗口,得分,点击,专注于可视化。图形化用户界面的好处有:

允许掌握较少技术的用户完成机器学习工作。

专注于处理过程,以及如何最大限度地利用机器学习技术。

用户可以使用界面进行结构化处理。

更注重于信息的图形化展示,比如可视化。

以下是一些有图形化界面的机器学习工具:

KNIME。

RapidMiner。

Orange。

命令行界面
机器学习工具提供了命令行界面,包括命令行程序,命令行参数,注重于输入和输出。命令行用户界面的好处有:

允许不是程序员的技术用户完成机器学习项目。

提供了许多专门的程序或机器学习项目特定子任务的编程模型。

根据需要的输入和将会得到的输出分解机器学习任务。

通过记录或脚本命令和命令行参数来促进有复验性的结果。

以下是一些提供命令行界面的机器学习工具:

Waffles。

WEKA Machine Learning Workbench。

如果你喜欢在命令行下工作,看看这本书《 Data Science at the Command Line: Facing the Future with Time-Tested Tools 》,可以让你了解如何在命令行下解决机器学习问题。

图片描述

应用程序编程接口
机器学习工具提供了应用程序编程接口,可以让你自由决定在你的程序中使用什么元素以及如何使用。应用程序编程接口的好处有:

你可以将机器学习算法合并到自己的软件项目当中。

你可以创建自己的机器学习工具。

你可以在机器学习项目中灵活使用自己的处理流程和自动操作。

你可以将自己的方法与库提供的方法以及扩展提供的方法结合。

以下是一些带有应用程序编程接口的机器学习工具:

面向Python的 Pylearn 2。

面向Java的 Deeplearning4j。

面向C的 LIBSVM。

参考文章:

25个Java机器学习工具&库

最好的Python机器学习库
本地机器学习工具 VS 远程机器学习工具
比较机器学习工具最后一个方法是这个工具是本地工具还是远程工具。

本地工具是你下载并安装的,在本地使用,而远程工具运行在第三方服务器上。

这样区分也许有些模糊,因为有些工具可以以本地或远程的方式运行。另外,如果你是优秀的工程师,你可以在自己的服务器上配置几乎所有的工具作为托管解决方案。

然后,这么区分可能很有用,能够帮助你理解和选择机器学习工具。

本地工具
本地工具是下载、安装并运行在本地环境的。

专为内存中数据和算法设计。

由运行配置和参数控制。

集成到你自己的系统,以满足你的需求。

以下是一些本地工具:

面向C++的 Shogun Library

面向Go的 GoLearn

远程工具
远程工具托管在服务器上,并且可以从本地环境调用。这些工具通常被称为将机器学习作为服务(MLaaS)。

专为运行更大规模数据设计。

在多系统,多核心和共享内存上运行。

为适应大规模系统,所以服务提供的算法更少。

更简单的接口,在运行配置和算法参数上提供较少的控制。

通过远程过程调用集成到你本地环境中。

以下是一些远程工具:

Google Prediction API。

AWS Machine Learning。

Microsoft Azure Machine Learning。

参考文章:

七种基于云计算的机器学习服务
机器学习API Top 10:AT&T Speech、IBM Watson和Google Prediction
也有一些工具可以让你建立自己的远程解决方案,并作为服务集成到你的本地环境中。比如:

面向Hadoop的 Apache Mahout。

面Spark的 MLlib。

PredictionIO。

总结
在这篇文章中,你了解到了为什么工具在应用机器学习中很重要。你了解到,没有良好的机器学习工具,你就必须从无到有实现所有的技术,而这需要专业技术知识和高效工程实践。

你学习到了三种结构化看待机器学习工具的方式:

平台 VS 库

图形化用户界面 VS 命令行界面 VS 应用程序编程接口

本地工具 VS 远程工具

你在使用什么机器学习工具呢?欢迎评论并分享你正在使用的机器学习工具。

作者简介:Jason Brownlee,MachineLearningMastery.com的Editor-in-chief,专业程序员,机器学习践行者。

原文链接:Machine Learning Tools( 编译:刘翔宇 审校:赵屹华 责编:周建丁)




欢迎光临 开发者俱乐部 (http://xodn.com/) Powered by Discuz! X3.2