服务热线
编者按:
在大数据被热炒的今天,你一定从哪里听说过,谷歌用搜索和大数据技术来预测流感发生。大数据粉丝们对此捧红得不得了,这就是著名的“谷歌流感趋势”(Google Flu Trends)项目。粉丝们认为,利用大数据预测疾病发生,是公众健康的福祉。
不过,身在美国的卫生经济学家陈茁向健康界介绍,这一始于2008年的项目如今在美国遭遇到了很大质疑。
他介绍,尽管“谷歌流感趋势”在2009年的成功表现让人大吃一惊,但接下来,项目高估了类流感的发病率,有时甚至比美国疾控中心的数据高出一倍以上。
不过,熟悉统计学的陈茁结合他过去的一些研究,对“谷歌流感趋势”与美国疾控中心数据偏差产生的原因进行了分析,并对谷歌项目提出了改进建议。
他的观点很明确,类似项目应该在数据准确方面有所改进,不切实际的过高期望有可能会“捧杀”大数据。但他相信,如果方法得当,大数据对疾病预测依旧有巨大的潜能,还可以在疾病监测防控之外发挥难以比拟的作用。
中国卫生领域对大数据的支持者最近大概是喜忧参半。一方面,中国国家疾病预防控制中心与百度合作,进行疾病预测防控;另一方面,美国“谷歌流感趋势”项目的准确性遭受到质疑。
“谷歌流感趋势”是谷歌公司2008年上马的一个项目。它的想法是,根据美国各州和主要城市对流感短语的搜索,来预测流感的暴发。
项目背后的原理也很简单:如果某地流感开始流行,那么相关疾病的谷歌搜索就会增多。谷歌研究团队2009年在《自然》上发表的文章引起很大反响。他们准确预测了2009年流感流行,让人大吃一惊。
其实,对于利用搜索引擎及相关数据预测卫生领域指标,业内早有相关研究。哈佛大学陈怡玲和合作者利用Yahoo的搜索数据,曾预测过肺炎和流感相关死亡数,相关研究于2008年发表在《Clinical Infectious Disease》上。
2009年以后,“谷歌流感趋势”项目的表现一直不尽如人意。2011年~2013年间,项目多数高估了类流感发病率,有时候甚至比美国疾控中心的数据超出一倍以上。原因到底是什么?
我个人认为,其中一个原因就是大家被“谷歌流感趋势”2009年的成功迷惑了,寄予了它过高的期望值。
现实要远比原理复杂。谷歌搜索的结果和使用者人群“自我估计”的流感发病率相关。“自我估计”实际上很有问题。这是因为,普通感冒在不同个体身上的严重程度上会有差别,有些患者因为担心,便搜索了相关信息。这些搜索构成了类流感“自我估计”中的“噪声”。所以,“谷歌流感趋势”模型中的“噪声”需要谨慎对待。
另外,美国疾控中心的数据来自各地实验室或医疗服务提供商,反映的是就诊发病率。由于不是每个类流感患者都会去看病,美国疾控中心的数据跟真实发病率也会有差别。
某种意义上说,谷歌流感趋势的预测和美国疾控中心数据是两个不同的指标,两者不一样并不奇怪。相对于就诊发病率,我认为“谷歌流感趋势”结合传播动力学来预测流感暴发概率,可能会更好一些。
当然,如果只用“谷歌流感趋势”,还想准确地预测流感发病率,无疑是歧路亡羊。
“谷歌流感趋势”项目失误的另外一个原因是在数据分析方面存在欠缺。哈佛大学GaryKing和搭档的研究就指出了谷歌项目在分析上的不足。
首先,这个项目没有尽可能利用传统的统计分析手段来剔除系统误差,比如残差的自相关性和季节性。
其次,“谷歌流感趋势”忽略了其他数据的作用。如果结合美国疾控中心的数据,谷歌的预测其实有可能被大大改善。我曾在明尼苏达大学杨宇宏教授的指导下做过“预测合并”的研究,“预测合并”可以改善预测精度,这或许是一个可行的改进方向。
另外,有推测认为,随着项目开始广为人知,很多人开始跟进研究。大家都搜索流感相关短语,也增加了不少“噪声”。这个问题相对来说比较容易解决,因为谷歌可以确定搜索是否源于研究机构子网中,然后进行排除。
而且,Gary King等也委婉地对谷歌研究团队提出了批评,认为其数据分析不够透明,没有将完全的“搜索短语集”公布出来。
尽管谷歌的项目遭遇质疑,但我个人认为这种质疑不足以否定大数据对国民健康的潜在贡献。我也相信,大数据还可以在疾病监测防控之外发挥难以比拟的作用。
根据美国2010平价医疗法案(ACA)建立的循患果效研究所(Patient-centered Outcome Research Institute)曾经资助了一个大数据项目。该项目旨在利用11个不同医疗服务网络的数据,来找出医学干预有可能产生的不同效果,并为找到合适的随机临床试验受试者提供线索。
此外,随着信息技术的发展和相关软硬件性价比的提高,相当多的数据服务商和地区医疗服务网络已开始利用大数据,寻找最有效和最具成本效益的医学、预防和干预手段。老牌MarketScan等数据服务机构受到新兴机构的挑战,如医疗成本研究所等。
我相信,中国国家疾病预防控制中心与百度的合作前景可期。百度的数据结合中国国家疾病预防控制中心观测点的数据,可提供更多更全面的原始信息。如果配合严谨的分析,这有可能开辟疾病监测防控的新天地。
对于上述合作,期许之外,我也有一些建议:
一个是应该更加重视分析方法,不能因为有了大数据就放弃对分析方法的重视和探索。没有合适的方法,大数据也可能导致错误的结论。比如,百度的使用人群会有不同的特征,利用百度数据进行推测疾病,就需要考虑这些特定人群与一般人群之间的差异。
另外,也需要考虑个人隐私和流行病监测之间的平衡。
最后,对标准化的重视会减少大数据应用过程中的错误。这一点对医院和各地疾控机构信息化建设尤为重要。
(本文作者为芝加哥大学卫生促进研究中心博士后学者,资深卫生经济学者,主要研究领域为卫生经济学、健康不均等的分析,及政策和项目评估。《中国卫生评论》创刊主任编辑,现任《家庭和经济问题杂志》编辑委员会委员。本文仅代表作者个人观点。)
站点声明:
本网站所提供的信息仅供参考之用,并不代表本网赞同其观点,也不代表本网对其真实性负责。图片版权归原作者所有,如有侵权请联系我们,我们立刻删除。如有关于作品内容、版权或其它问题请于作品发表后的30日内与本站联系,本网将迅速给您回应并做相关处理。 北京医大道恒医疗集团有限公司专注于医院中高管理人员培训和职业类证书咨询服务,为公立和民营医院提供运营管理、质量管理、绩效财务、创新服务等咨询服务及包括GCP、老年人能力评估师、医疗护理员、医院人工智能AI提示词工程师等个人职业证书培训。道恒拥有资深行业专家数名,根植于行业数年,具备精准发展医院现有问题和解决问题的能力。道恒致力于为医院打造高素质管理团队,培养医院核心竞争力。