- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
百度和Google疾病预测有不同
百度和Google疾病预测有不同
目前可供个人使用的大数据工具主要有两类,一类是来自医学监测机构的大数据,类似中国的疾控中心,美国的Carolinas Health Care,日本京都大学荒牧研究所等,以来自就诊患者统计为主,辅以大数据分析手段,以显示某地区目前流行病的发病情况为主,预测疾病流行走向为辅;另一类则来自搜索引擎和数据分析机构,包括Google Trends的疾病预测,百度预测的疾病预测,以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以预测疾病流行走向为主,展示区域发病情况为辅。
中国论文网 /6/view-7149992.htm
两种数据工具的手段大同小异,区别只在于前者提供的数据多是针对大区域的、服务机构的数据需要,后者则多针对小区域甚至某个城市商圈,为个人消费者服务。
Google 预测曾经很准
谷歌流感预测(/flutrends)早在2008年即已推出,原理是采用流感趋势系统监测全美的网络搜索,寻找与流感相关的词语,比如“咳嗽”和“发烧”等,并利用这些搜索结果来提前9个星期预测可能与流感相关的就医量。
2009年在H1N1爆发几周前,谷歌公司的工程师们在《Nature》上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。
这个工具最初运行表现很好,许多国家的研究人员已经证实,其流感样疾病(influenza-like illness, ILI)的估计是准确的,并且可以提前数周乃至数月,不像疾控中心一样要在流感爆发一两周之后才可以做到。
但此后的2013年,《新科学家》发现,在过去3年,该系统一直高估与流感相关的就医量,在这类数据最有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节,它预测的就医量是美国疾控中心(CDC)最终记录结果的两倍;在2011/2012流感季节,它高估了逾50%。
《scientists》杂志认为,错误源自一种被称作大数据浮夸(Big Data Hubris)的算法变化,例如对模型的人工优化,或是模型对某些不当关键词的自动调整(例如某些搜索其实源于季节而非真实发病)。
芝加哥大学卫生促进研究中心博士后、卫生经济学者陈茁也曾撰文分析了其中的原因。他认为,谷歌搜索的结果和使用者人群“自我估计”的流感发病率相关。但在现实中,普通感冒在不同个体身上的严重程度上会有差别,有些患者因为担心,便搜索了相关信息。这些搜索构成了类流感“自我估计”中的“噪声”。如果只用“谷歌流感趋势”预测流感发病率就会存在问题。
陈茁认为“谷歌流感趋势”项目失误的另外一个原因是在数据分析方面存在欠缺。哈佛大学Gary King和搭档的研究就指出了谷歌项目在分析上的不足。首先,这个项目没有尽可能利用传统的统计分析手段来剔除系统误差,比如残差的自相关性和季节性;其次,“谷歌流感趋势”忽略了其他数据的作用。如果结合美国疾控中心的数据,谷歌的预测其实有可能被大大改善。
百度预测野心很大
百度的疾病预测(http:///disease/)于2014年6月上线,目前可以对全国34个省区、331个地市、2870个区县、19个城市的2558个商圈的11种疾病进行未来趋势的预测,包括提供流感、肝炎、肺结核和性病等疾病的活跃度、流行指数,以及各种疾病相关的城市和医院排行榜,用户可以查看过去 30 天以内的数据和未来 7 天的预测趋势。而且百度还在疾病预测的页面上,整合了百度旗下其他优势产品资源,比如在页面右下角提供了百度百科和百度健康的链接,用户点击过去就可以了解到有关当前页面疾病的各种相关知识。
百度疾病预测还加入了一些最新的技术成果和数据采集结果。例如,从公开资料来看,该产品模型的搭建一是通过历史数据构建统计规律性,比如流感或者手足口等疾病具有季节性周期的规律,二是通过研究疾病人数与其他相关数据的相关性来计算预测结果,同时从统计的角度来验证数据的正确性,以机器提供的数据为基础,加入对异常数据的监控和分析。
而为了让预测的准确率更高,百度还做了另外两方面的努力。其一是在数据合作上,不仅引入权威机构的相关数据而且保持同步更新,这其中不仅包含数据互通,同时也会与合作方的专家进行产品交流。
另一点不同在于,百度预测引入社交、天气、人群迁徙等搜索之外的数据,在搜索数据上,Google的query数据依赖于Google Correlation产品,而百度则是直接从原始日志中进行清洗、消岐、扩展和分析,相对来说,理论上更容易避免“春天感冒怎么办”这样的查询影响结果。此外,百度的地理划分可以细化到城
文档评论(0)