- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流感防治和大数据德国柏林,一位医学研究所的研究员在进行流感病毒分析。大数据中的流感近些年来,病毒性流感一波又一波袭扰人类,这不但引起学术界的密切关注,而且还经常成为公共领域热议的话题。从 2009 年传播力惊人,造成全球 20 万人死亡的 H1N1 甲型流感,到今年年初,导致整个中国坐立不安的H7N9禽流感,流感病毒不断改头换面浮现世间,令药物和疫苗要么准备不及,不敷使用,要么无法预防,中看不中用。彼时,如果能提早发现流感的发病趋势,不仅能为抗病毒药物的准备争取宝贵的时间,而且还有助于疫苗研发机构能尽早“对症”采取措施。现有的流感检测主要基于世界卫生组织在 1952 年建立的全球流感监测网络。这一网络由来自 99 个国家的 128 个国家流感中心以及流感参比和研究合作中心组成。就目前的情况,这一网络运行态势平稳,对流感的监测和防控起到了巨大的作用,但这是因为最近数十年,流感多是地区性流行。按照大流感的流行周期,威胁全球的大流感出现的几率越来越高。这也对流感监测提出了更高的要求:如何更早更准确地发现流感流行的苗头?有一群谷歌工程师也有同样的想法。作为全球最大的搜索引擎,每时每刻都有上百万用户在使用谷歌提供的搜索服务,其中搜索健康信息的人亦不在少数。这些用户行为提供了海量的有宝贵价值的分析数据。可以想见,流感流行季,搜索流感症状的人会飙升,而在流感高发地带,这一比例会相应提高。这意味着流感相关关键词的搜索趋势与流感的流行趋势及严重程度存在某种程度的相关性。尽管并不是每个搜索这类关键词的人都有流感症状或患有流感,但把这些搜索结果汇总到一起时,或许可以从中建立起一个准确可靠的模型,实时监控时下的流感疫情,并对未来疫情状况进行估测。工程师们首先面临的任务是选择流感相关的关键词。这一步看似简单,但却非常棘手。虽然可以肯定包含“流感”字样的关键词一定会入选,但语言的组织形式多种多样,具体应纳入哪些关键词,依然难以确定。工程师索性将关键词的选择权“粗暴”地交给了机器。他们挑出谷歌搜索量最大 5000 万个关键词,分别代入到事先建好的一个模型中,而后将这一模型产生的曲线与美国疾病预防与控制中心(以下简称美国 CDC)的流感流行曲线进行拟合,进而筛选到拟合度最高 100 个关键词。事已至此,罗马的一半已经建成。接下来就要去芜存菁,从这 100 个预测性最好的关键词中,优选出与流感有关的部分,并将其综合起来完成预测模型的建立。最终有 45 个关键词落入工程师的法眼。实践是检验真理的唯一标准,预测模型好坏的最佳评价标准一定是在实战中观察其能否通过考验。在回溯验证中,谷歌工程师将美国纽约市 2003 年至 2007 年的季节性流感数据与模型计算出的数据进行了比较,发现相关系数达 0.90。对于这一模型,更有用的是“未来”验证的结果。在回溯结果的鼓励之下,谷歌工程师从 2008 年初开始,将模型导出的结果与两周后美国 CDC 公布的数据进行对照。结果依然令人振奋,相关性同样达到了 0.90。最终,工程师们还将这一模型的建立过程撰写成论文发表在《自然》杂志上。显微镜下的 H1N1 病毒图。结果仍有缺憾很快,谷歌根据这一结果推出了名为“流感指数(Google Flu Trends)”的产品,据称能够提前两周提供精确度不低于疾控中心的结果。目前这一指数已推广到全球 29 个国家,并由检测流感拓展到另一种感染性疾病登革热。谷歌工程师对这一产品如此自豪,以至于在产品推介视频中,CDC 的结果完全沦为陪衬,但事实果真如此么?由于“流感指数”的高低在很大程度上取决于用户的搜索行为,有观察家认为,如果一些事件会影响到用户的搜索,那么指数就有可能出现假阳性或假阴性。果不其然,在谷歌流感指数运行期间,人们逐渐观察到原有模型的缺陷。早在 2009 年,谷歌流感指数就暴露出了算法可能存在问题。那年在主要国家流行的流感病毒株是 H1N1 型。该毒株传播力惊人,不过毒力较弱。也就是说,相当一部分人感染了H1N1后多表现轻微的典型流感症状,并不会引发更严重的并发症。也许是这一原因导致谷歌用户并未过多关注当时流感的流行状况,致使流感指数的估值严重低于 CDC 的上报数量。这一假阴性错误迫使谷歌工程师第一次大幅修改了算法。时至 2013 年,流感再一次引起了世人的广泛关注。在中国,H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人传人的迹象。而在美国,流感流行状况也十分严峻。纽约州在 2013 年 1 月还特地发布“公共健康紧急状态”的通告,以警示民众。这些消息获得大众媒体的广泛报道。然而,谷歌流感指数的表现再次让人大跌眼镜:指数估值出现了假阳性,即远高于 CDC 的统计数量。尽管谷歌方面对此并未置评,但大部分关注这一指数的研究者认为,流感疫情获得媒体连篇累牍的报道,
您可能关注的文档
最近下载
- 环境教育与生态保护意识.docx VIP
- TCI 178-2023 高大边坡稳定安全智能监测预警技术规范.pdf VIP
- 砖砌围墙景墙结构计算一 风荷载作用下抗弯承载力计算.pdf VIP
- 《食品快速检测技术》课程标准.pdf VIP
- GB18285-2018重点解读汇报.pptx VIP
- 奥马哈系统调查表.docx VIP
- 1 古希腊罗马文学.ppt VIP
- 2025年重庆市辅警招聘考试题(含答案).docx VIP
- 红旗渠精神_讲稿模板.pptx VIP
- Unit 2 Travelling Around 大单元整体教学设计-2023-2024学年高中英语人教版(2019)必修第一册.docx VIP
文档评论(0)