新技术论坛
搜索
查看: 811|回复: 0
打印 上一主题 下一主题

胡伟:百度大数据布局旅游、金融、医疗领域

[复制链接]
  • TA的每日心情
    开心
    2016-10-18 06:23
  • 签到天数: 72 天

    连续签到: 1 天

    [LV.6]常住居民II

    扫一扫,手机访问本帖
    楼主
    跳转到指定楼层
    发表于 2016-5-30 08:01:01 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式



      胡伟 百度研究院大数据实验室数据科学家
    百度研究院大数据实验室数据科学家,分别于2005年和2011年获西安交通大学学士及博士学位,2009年至2011年在麻省理工学院认知科学实验室任访问学生。加入百度前,曾在微软亚洲互联网工程院从事搜索广告和机器翻译相关研发,拥有多年大规模机器学习和数据分析经验,研究兴趣包括自然语言处理,计算广告学,深度学习等。
      百度作为全球最大的中文搜索引擎,沉淀了其他传统数据平台无可比拟的海量数据。基于大数据分析技术,百度开放了大数据引擎,与政府、医疗、金融等传统机构率先展开合作,并逐渐向各个行业渗透、扩展。胡伟老师本次的演讲涵盖了百度大数据技术在旅游、金融及医疗领域的探索,以及深度学习技术在大数据分析中的应用。
      百度大数据在旅游领域的应用
      应用实例
      2014年9月份某旅游景点出现游客爆满滞留,带来了很大的安全隐患,旅游人流量预测问题再一次引起了全民的关注。
      旅游人流量预测一向是旅游行业的重大课题,尤其是对旅游管理机构以及目的地企业而言,对未来做到"心中有数",无论对旅游行业宏观把握和调控,还是对目的地营销活动的引导,以及对旅游人流流向和流量的调整,都具有很大的现实意义。百度大数据对此问题有专业的工具来解决。
      通过百度关键词搜索日志可以发现,事发前一个周末,这个景区有非常高的搜索量,并且搜索的用户都是周围的居民,这说明,这些用户去的可能性极大,进而可以预测到未来的一两个周末,这个景区的人流量会很大。这就是基于时间和空间的一个简单预测。
      技术要点
      百度大数据来源主要有两个方面:一是网民的广义搜索行为;二是百度的LBS数据,这些数据基本涵盖了游客旅游活动中和外界的信息交互行为,同时旅游业的信息密集、产品固定、移动消费等特点,无疑很大程度上契合了百度大数据的特点。

    图1:时间序列预测的基本方法

    除了季节性,天气、是否节假日等因素也影响着人流量,所有这些特征融合在一起就可以做出一个比较准确的预测。如下图所示。

    图2:景区客流量预测

    蓝线代表搜索日志量,包含用户搜门票、路线等信息,红线代表实际旅游人数。这是一个传统的模型,即用第一个时间点预测第二个时间点,依此类推。
      基本模型如ARMA,ETS等过于简化,使用范围有限,并且,由于时间序列的特殊性质,标准的机器学习模型难以直接应用。这就要求有更先进的模型来进行更精准的预测。即:动态空间模型State  Space Model (SSM)。

    图3:状态空间模型

    简单地说,y是观测的人数,当我们要预测y时,影响y的有很多因素,即内部状态,如天气因素、搜索因素、GPS定位的人数等,此模型可以把这些因素都隐含进去,然后通过动态的方式来预测每个时间点上的人数。这里的时间序列,是一个动态的模型。
      目前,百度已经有了成熟的产品上线:trends.baidu.com



    图4:旅游预测与状态空间模型

    百度大数据在金融领域的应用
      首先,胡伟老师明确了一点:我们做的不是风控方面,而是投资方面。百度大数据在金融领域的应用主要基于两种形式:用户数据分析和高斯图模型关联挖掘。
      用户数据分析
      用户关注某个事物或者心里想什么,会在互联网上留下一些信息,比如搜索某个公司、新闻信息,或者直接搜索某支股票,这些都可以或多或少的反映出他的投资倾向。

    图5:用户数据分析

    这张图显示了一个很有意思的现象:哪个公司的搜索率高,往往这只股票就会跌。这是什么原因呢?用户其实不会平白无故的搜索一只股票,或者说每个公司的搜索量应该差不多,但是当出现一些负面新闻时,比如破产或者法人出现什么问题,就会有很多人搜索。这一搜索,其实已经相当于一个预警,这个公司的股价有可能会受到负面消息的影响。
      金融工程中的数据分析多基于小数据(高频交易除外),模型评价主要以回测模拟实现,无法直接应用机器学习算法。百度金融大数据基于Query的等权重指数,可以很清晰地显示出这些变化特征。
      高斯图模型关联挖掘

    图6:高斯图模型关联挖掘

    高斯图模型(Gaussian Graphical Model)



      其中,S为样本协方差矩阵,X为所求的偏相关系数。基于高斯图模型挖掘出的股票联动图如图6所示。
      具体来说,各个股票之间会有一种内在关联信息,比如说行业中上下游的关系,钢材、石油、化工这些都会有一定的关联。这种关系有的比较直观,有一些比较滞后,百度通过数据挖掘的方式找出了这种规律,进而对整个金融市场做了一个全新的版图。
      百度大数据在医疗领域的应用
      现状
      艾瑞咨询2015的调查结果显示:有89%的用户生病第一反应是进行互联网咨询,百度疾病、症状类的检索量是平均每天4亿。
      医疗资源比较匮乏,挂号排队等是当今医疗行业的现状,百度内部很早就开始关注如何用新的技术手段改进这一现状,百度采用的方法是机器学习。
      深度机器学习
      传统的数据挖掘时一般用文本分类,即情感分析:当客户用一段话描述一个症状时,会被打上标签,根据这些标签,建议用户去哪些医院或者科室检查。这种传统方法的缺点主要有两个:一是BoW丢失了词序等重要信息,二是无法对复杂的非线性关系建模。Word  Embedding的缺点是运算量大,embedding过程损失原始文本信息。
      百度采用的是基于稀疏特征的CNN,具体来说,就是让机器自己找出数据内在规律,不对其做人工设置。并且,采用GPU加速,比CPU快了10倍以上。

    图7:基于稀疏特征的CNN

    通过搜索流量来获得用户疾病数据,通过人工智能有效地挖掘相关数据,百度的疾病诊断和科室诊断都达到了很高的准确率。
      最后,胡伟老师例举了一些上线产品:百度健康PC端、百度健康移动端、百度医疗助手DuNurse。
      结语:
      百度大数据建立在搜索的基础上,拥有庞大的用户群和很强的用户黏性,使用人工智能挖掘技术对数据深入剖析,把智能硬件资源整合,这些优势都驱动着百度一步步向各个行业渗透。



    高级模式
    B Color Image Link Quote Code Smilies

    本版积分规则

    手机版|Archiver|开发者俱乐部 ( ICP/ISP证:辽B-2-4-20110106号 IDC证:辽B-1-2-20070003号 )

    GMT+8, 2024-12-23 00:18 , Processed in 0.548564 second(s), 22 queries .

    X+ Open Developer Network (xodn.com)

    © 2009-2017 沈阳讯网网络科技有限公司

    快速回复 返回顶部 返回列表