开发者俱乐部

标题: 胡伟:百度大数据布局旅游、金融、医疗领域 [打印本页]

作者: jack    时间: 2016-5-30 08:01
标题: 胡伟:百度大数据布局旅游、金融、医疗领域



  胡伟 百度研究院大数据实验室数据科学家
百度研究院大数据实验室数据科学家,分别于2005年和2011年获西安交通大学学士及博士学位,2009年至2011年在麻省理工学院认知科学实验室任访问学生。加入百度前,曾在微软亚洲互联网工程院从事搜索广告和机器翻译相关研发,拥有多年大规模机器学习和数据分析经验,研究兴趣包括自然语言处理,计算广告学,深度学习等。
  百度作为全球最大的中文搜索引擎,沉淀了其他传统数据平台无可比拟的海量数据。基于大数据分析技术,百度开放了大数据引擎,与政府、医疗、金融等传统机构率先展开合作,并逐渐向各个行业渗透、扩展。胡伟老师本次的演讲涵盖了百度大数据技术在旅游、金融及医疗领域的探索,以及深度学习技术在大数据分析中的应用。
  百度大数据在旅游领域的应用
  应用实例
  2014年9月份某旅游景点出现游客爆满滞留,带来了很大的安全隐患,旅游人流量预测问题再一次引起了全民的关注。
  旅游人流量预测一向是旅游行业的重大课题,尤其是对旅游管理机构以及目的地企业而言,对未来做到"心中有数",无论对旅游行业宏观把握和调控,还是对目的地营销活动的引导,以及对旅游人流流向和流量的调整,都具有很大的现实意义。百度大数据对此问题有专业的工具来解决。
  通过百度关键词搜索日志可以发现,事发前一个周末,这个景区有非常高的搜索量,并且搜索的用户都是周围的居民,这说明,这些用户去的可能性极大,进而可以预测到未来的一两个周末,这个景区的人流量会很大。这就是基于时间和空间的一个简单预测。
  技术要点
  百度大数据来源主要有两个方面:一是网民的广义搜索行为;二是百度的LBS数据,这些数据基本涵盖了游客旅游活动中和外界的信息交互行为,同时旅游业的信息密集、产品固定、移动消费等特点,无疑很大程度上契合了百度大数据的特点。

图1:时间序列预测的基本方法

除了季节性,天气、是否节假日等因素也影响着人流量,所有这些特征融合在一起就可以做出一个比较准确的预测。如下图所示。

图2:景区客流量预测

蓝线代表搜索日志量,包含用户搜门票、路线等信息,红线代表实际旅游人数。这是一个传统的模型,即用第一个时间点预测第二个时间点,依此类推。
  基本模型如ARMA,ETS等过于简化,使用范围有限,并且,由于时间序列的特殊性质,标准的机器学习模型难以直接应用。这就要求有更先进的模型来进行更精准的预测。即:动态空间模型State  Space Model (SSM)。

图3:状态空间模型

简单地说,y是观测的人数,当我们要预测y时,影响y的有很多因素,即内部状态,如天气因素、搜索因素、GPS定位的人数等,此模型可以把这些因素都隐含进去,然后通过动态的方式来预测每个时间点上的人数。这里的时间序列,是一个动态的模型。
  目前,百度已经有了成熟的产品上线:trends.baidu.com



图4:旅游预测与状态空间模型

百度大数据在金融领域的应用
  首先,胡伟老师明确了一点:我们做的不是风控方面,而是投资方面。百度大数据在金融领域的应用主要基于两种形式:用户数据分析和高斯图模型关联挖掘。
  用户数据分析
  用户关注某个事物或者心里想什么,会在互联网上留下一些信息,比如搜索某个公司、新闻信息,或者直接搜索某支股票,这些都可以或多或少的反映出他的投资倾向。

图5:用户数据分析

这张图显示了一个很有意思的现象:哪个公司的搜索率高,往往这只股票就会跌。这是什么原因呢?用户其实不会平白无故的搜索一只股票,或者说每个公司的搜索量应该差不多,但是当出现一些负面新闻时,比如破产或者法人出现什么问题,就会有很多人搜索。这一搜索,其实已经相当于一个预警,这个公司的股价有可能会受到负面消息的影响。
  金融工程中的数据分析多基于小数据(高频交易除外),模型评价主要以回测模拟实现,无法直接应用机器学习算法。百度金融大数据基于Query的等权重指数,可以很清晰地显示出这些变化特征。
  高斯图模型关联挖掘

图6:高斯图模型关联挖掘

高斯图模型(Gaussian Graphical Model)



  其中,S为样本协方差矩阵,X为所求的偏相关系数。基于高斯图模型挖掘出的股票联动图如图6所示。
  具体来说,各个股票之间会有一种内在关联信息,比如说行业中上下游的关系,钢材、石油、化工这些都会有一定的关联。这种关系有的比较直观,有一些比较滞后,百度通过数据挖掘的方式找出了这种规律,进而对整个金融市场做了一个全新的版图。
  百度大数据在医疗领域的应用
  现状
  艾瑞咨询2015的调查结果显示:有89%的用户生病第一反应是进行互联网咨询,百度疾病、症状类的检索量是平均每天4亿。
  医疗资源比较匮乏,挂号排队等是当今医疗行业的现状,百度内部很早就开始关注如何用新的技术手段改进这一现状,百度采用的方法是机器学习。
  深度机器学习
  传统的数据挖掘时一般用文本分类,即情感分析:当客户用一段话描述一个症状时,会被打上标签,根据这些标签,建议用户去哪些医院或者科室检查。这种传统方法的缺点主要有两个:一是BoW丢失了词序等重要信息,二是无法对复杂的非线性关系建模。Word  Embedding的缺点是运算量大,embedding过程损失原始文本信息。
  百度采用的是基于稀疏特征的CNN,具体来说,就是让机器自己找出数据内在规律,不对其做人工设置。并且,采用GPU加速,比CPU快了10倍以上。

图7:基于稀疏特征的CNN

通过搜索流量来获得用户疾病数据,通过人工智能有效地挖掘相关数据,百度的疾病诊断和科室诊断都达到了很高的准确率。
  最后,胡伟老师例举了一些上线产品:百度健康PC端、百度健康移动端、百度医疗助手DuNurse。
  结语:
  百度大数据建立在搜索的基础上,拥有庞大的用户群和很强的用户黏性,使用人工智能挖掘技术对数据深入剖析,把智能硬件资源整合,这些优势都驱动着百度一步步向各个行业渗透。








欢迎光临 开发者俱乐部 (http://xodn.com/) Powered by Discuz! X3.2