开发者俱乐部

标题: 大数据与白宫的癌症登月计划 [打印本页]

作者: xman    时间: 2016-4-2 18:45
标题: 大数据与白宫的癌症登月计划
原文:Big Data and the WhiteHouse’s Cancer Moonshot
来源: Datanami

导读:
几乎每座癌症中心都有一个数据库,记录着遗传史、医疗记录和组织库等信息,其中可能就潜藏着改善某些癌症疗法的要诀。
到今年年底时,临床试验提交的所有电子数据必须符合临床数据交换标准协会,简称CDISC)规定的标准,美国国家协调员办公室则计划打造一种“具备互操作性、隐私性和安全性的全国健康信息系统”。
从噪声中分离出人体生命机理和癌症等疾病的信号,就必须把所有数据都转换为一种通用的数据模型。


原文翻译:

白宫要搞一个新出的“癌症登月计划”(Cancer Moonshot),打算为此投入10亿美元。该计划旨在加快癌症检测、治疗和预防方法的研究进展。这不是白宫第一次宣布斥巨资抗癌,但这次有一个关键的不同之处,那就是该行业近来在数据科学方面所取得的进步。
  
奥巴马总统任命副总统拜登领导癌症登月计划。去年,拜登的长子因患脑癌不幸去世,年仅46岁。拜登一直在公开呼吁,医生和医疗机构研究癌症的方式需要做出重大改变。今年,预计美国的癌症死亡人数将达到60万人,新发病例将超过160万人。
  
癌症登月计划的目标是让当前用于实现癌症领域重大突破的创新速度加倍。这是个艰巨的任务,因为目前拨给美国国立卫生研究院(NIH)癌症中心研究所(Cancer Center Institute)的预算就有52亿美元,全球每年的癌症治疗支出更是超过1,000亿美元,相比之下,癌症登月计划的10亿美元资金显得杯水车薪。

不过据说,拜登的计划并不涉及花大价钱设立新的癌症治疗中心或者新的抗癌项目,而是想要克服官僚主义障碍,让政府、行业、研究人员、患者和慈善机构携起手来,实现一加一大于二的效果。更多更好地分享数据,就是其中的一个重要环节。


“根据我个人的经验来看,癌症研究和治疗即将迎来重大突破。”拜登在今年1月发表于Medium网站的一篇文章中写道,“在过去四年里,我们目睹了令人惊叹的进展。这是个转折点……但科学、数据和研究成果各自为营,不利于加快进步和在患者中更为广泛的应用。”


拜登说,数据和技术创新能够发挥重要作用,彻底改变医疗和研究数据的分享和使用方式,为我们取得新的突破创造条件。如果癌症登月计划成功地释放了多年来各方收集和保存的大量癌症数据,哪怕只是其中的一小部分,那么该计划就算是成功了。
  
“几乎每座癌症中心都有一个数据库,记录着遗传史、医疗记录和组织库等信息,其中可能就潜藏着改善某些癌症疗法的要诀。”拜登写道,“让研究人员和肿瘤学家能够利用这座信息宝库,对于加快进展、找到治愈方法而言,绝对至关重要。大家普遍一致认为,只要我们确保科学家、研究人员和内科医生能够拿到这些数据,并在数据的使用上通力合作,就一定能够加快研究进展,改善癌症患者的生存质量,并让我们距离治愈的目标更进一步。”

大数据整合软件提供商Tamr的产品和战略主管尼迪·阿加沃尔(Nidhi Aggarwal),是对数据可为癌症登月计划贡献力量持乐观态度的其中一人。她说,更加开放有效地分享数据(比如遗传史、医疗记录和组织库等信息)对癌症研究大有好处。
  
“很多潜在的公共和私人数据来源都可以被用来协助研究,不管是拥有几千个属性的临床试验数据集,还是拥有几百万个属性的基因数据集。”阿加沃尔对Datanami网站说,“数据不仅要数量大,还要多样化。”


Tamr在上周宣布,该公司开发的大数据整合软件将向隶属于癌症登月计划的所有研究人员免费提供。Tamr的软件利用机器学习算法来加快半结构化和非结构化数据的组织、准备和整合,以作分析之用。该公司还采取众包模式,让一群人类专家指导和训练计算机算法。


诺华(Novartis)、葛兰素史克(GlaxoSmithKline)和默克(Merck)等制药公司已经在用Tamr的软件处理大量的临床研究数据。在癌症登月计划中,“癌症大数据”既是需要克服的挑战,也是通向成功的阶梯,Tamr将全力帮助研究人员充分利用这些数据。

除了弄懂大量数据以外,癌症登月计划还面临着其他的重大挑战,包括缺乏统一的数据标准。阿加沃尔指出,通过“自上而下”方式推进数据标准化工作的努力早已有之,比如美国食品药物管理局(FDA)就要求,到今年年底时,临床试验提交的所有电子数据必须符合临床数据交换标准协会(Clinical Data InterchangeStandards Consortium,简称CDISC)规定的标准,美国国家协调员办公室(Office of National Coordinator,简称ONC)则计划打造一种“具备互操作性、隐私性和安全性的全国健康信息系统”。然而,FDA和ONC在完成数据标准化目标的过程中都遇到了重重阻力。

阿加沃尔建议,拜登不应依靠联邦机构来督促数据的标准化进程,而应效仿太空探索公司(SpaceX)的模式,通过公私合作的方式来实现。她还说,必须从一开始就将标准化和统一化作为整个项目的设计原则,而不能等它们已成既定事实后,再将它们硬靠到项目上。

最后她说,癌症大数据拥有可怕的体量,互操作性是艰巨的挑战,因此不应该仅凭人类自己的力量来应对。幸好,机器学习和人工智能都取得了长足进步,而这就是Tamr这样的私营机构正在做的事情。
  
“如果我们想把所有这些数据结合起来,建立起相应的统计模型,从噪声中分离出人体生命机理和癌症等疾病的信号,就必须把所有数据都转换为一种通用的数据模型。”阿加沃尔说,“数据转换是整合数据以供分析的重要一步,尤其是在整合大量数据来源的时候,因为在这种情况下,可能存在互相冲突的数据模型或者根本没有模型可言。”





欢迎光临 开发者俱乐部 (http://xodn.com/) Powered by Discuz! X3.2