新技术论坛
搜索
查看: 712|回复: 0
打印 上一主题 下一主题

一位数据科学家的私房工具清单

[复制链接]
  • TA的每日心情
    开心
    2016-12-9 18:18
  • 签到天数: 85 天

    连续签到: 1 天

    [LV.6]常住居民II

    扫一扫,手机访问本帖
    楼主
    跳转到指定楼层
    发表于 2017-2-3 10:39:04 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

      作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。

      近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集:
      处理较大、较复杂的类excel数据
      Pandas -处理tabular(类似Excel)数据的通用工具套件
      SQLite  Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行。
      PostgreSQL  企业级数据库系统
      处理空间、地理数据:
      PostGIS  Postgres的地理空间数据类型扩展
      Carto  地理空间数据的商业数据挖掘工具
      Mapbox  商业地图绘制工具,同时也是一个web地图系统。
      Leaflet  基于网络资源和本地数据开发活动web地图的代码库
      qGIS  适用于几乎所有地理空间和地图绘制的图形化GIS工具
      处理非常规数据:
      RethinkDB  处理实时数据流非常棒的数据库,正在从商业转开源,小心使用。
      MongoDB  处理大规模非结构化和半结构化数据的流行数据库,应用于生产环境需要加小心。
      CouchDB  与MongoDB有些类似但不尽相同。
      Cassandra  图谱和关系数据库
      为大规模数据集创建性能代码:
      Pandas  Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
      Apache Spark  一个通用的高性能数据处理系统
      SciPy and Numpy -可编写脚本的基于C的数值算法,能在紧凑的,底层机器数据架构上运行。
      Cython  使用用C编译器的Python编译器,用来提升Python性能。
      PyOpenCL  在图形显卡上进行数值计算和统计处理。
      数据清洗工具
      ODO  在不同数据格式间进行转换的Python库。
      OpenRefine  拥有图形用户界面的数据发现和清洗工具
      Pandas  数据科学任务中用来处理tabular数据的通用Python工具集
      Scrapy  Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。
      BeautifulSoup  与Scrapy类似但不尽相同
      Scrubadub  去除个人身份信息
      Arrow  帮你轻松驾驭日期和时间戳的Python库
      DataCleaner  剔除脏数据的Python库
      Dora  与DataCleaner功能类似的Python库。
      数据可视化工具
      Processing  交互式开发交互式可视化内容. 推荐读本:Visualizing
      DataD3  在web上开发可视化交互
      C3  来自D3的图表.
      Bokeh  与D3类似, 但基于Python.
      matplotlib  最早的Python数据可视化工具集。
      Leaflet  一个为开发移动设备友好的互动地图的开源 JavaScript 库。
      MapBox -详见地图工具集。
      qGIS  详见地图工具集。
      VTK  在医疗、和物理研究领域常用的重型可视化工具包。
      数据挖掘和机器学习工具
      Weka  一个机器学习和数据挖掘工具包,这里有一本免费可读的参考书
      ciKitLearn  基于Python的机器学习和数据挖掘工具套件。
      Orange  另一个基于Python的数据挖掘工具套件,同样拥有图形用户界面。
      TensorFlow  Google开源的多维度图谱数学建模工具。
      分享、协作以及知识管理工具
      Django -基于Python的web框架
      Django REST Framework  为Django网站创建 REST APIs
      IRODS  企业级数据存储和管理,包括元数据管理和基于规则的数据处理。
      Cassandra (useful for metadata and relationship storage)   一个存储和查询元数据经常用到的开源分布式数据管理系统
      GitLab -GitHub的开源替代品,可搭建私人服务器。
      ReciPy
      Prov  Python implementation of the W3C provenance model
      Kanren (部署基于元数据和数据源信息的业务逻辑非常有用)  一个描述性Python逻辑编程系统,非常适合科学元数据的查询和基于规则的处理。


    高级模式
    B Color Image Link Quote Code Smilies

    本版积分规则

    手机版|Archiver|开发者俱乐部 ( ICP/ISP证:辽B-2-4-20110106号 IDC证:辽B-1-2-20070003号 )

    GMT+8, 2024-12-23 06:19 , Processed in 0.125010 second(s), 22 queries .

    X+ Open Developer Network (xodn.com)

    © 2009-2017 沈阳讯网网络科技有限公司

    快速回复 返回顶部 返回列表