Web数据挖掘在急性高原病易感人群预测中的应用.docVIP

Web数据挖掘在急性高原病易感人群预测中的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web数据挖掘在急性高原病易感人群预测中的应用.doc

Web数据挖掘在急性高原病易感人群预测中的应用   摘 要:将Web数据挖掘技术应用于急性高原病易感人群的预测中,通过Web技术与数据挖掘技术相结合,将分散于Web中的数据经过检索、清洗、处理后存储在专门的数据仓库中。在现有研究成果的基础上,提出一个简便、高效的急性高原病易感人群预测模型。   关键词关键词:Web数据挖掘;数据仓库;急性高原病易感人群   中图分类号:TP319 文献标识码:A 文章编号文章编号2013)008007002   0 引言   随着数据库技术及数据挖掘技术的迅速发展,人们积累起来的数据越来越多,在这些数据的背后隐藏着巨大的信息及规律。数据挖掘技术是在数据库技术广泛应用、深入发展的基础上应运而生的,它的主要价值就在于通过对大量新旧数据之间关系的分析,挖掘隐藏在这些数据背后的信息,进而促进信息的传递。   Web是一个全球性的信息服务中心,随着单位、个人每天发布的大量新的Web网页及在线文档,使得Web数据信息以指数形式进行激增。如何从这些浩如烟海的数据中,寻找出有价值的信息,使其为相应的人群、行业服务,已成为目前Web技术和数据挖掘技术的重要发展方向。   初进高原时,由于对低压低氧环境的不适应,人群中不可避免地要出现“急性高原病”。许多研究指出,人群中确实存在着急性高原病易感人群,如果能将数据挖掘技术应用于急性高原病易感人群的预测模型中,对于从根源上控制易感人群的基数将起到极其关键的作用[1]。   1 Web数据挖掘   1.1 Web内容挖掘及方法   Web内容挖掘[2]包括Web文本挖掘和Web多媒体数据挖掘,主要是从Internet上挖掘出有用的数据信息及文档信息,是一种基本Web检索工作的延伸。Web内容挖掘在传统信息检索的基础上,通过各种新技术的应用来对原先搜索引擎进行改进。   Web内容挖掘的方法主要包括数据库方法和代理人方法。Web内容挖掘的基本技术是文本挖掘,可以把Web数据看成是一个大型数据库,而对该数据库的查询、检索则需要多种技术进行融合,如:关键词检索、相似性检索、关联规则检索、聚类分析、自然处理语言等;使用代理人方法,是指通过软件代理来进行内容挖掘[3],如:信息过滤、个性化Web代理及智能信息检索方法等。   1.2 爬虫与Web内容挖掘   Web爬虫,是获取网页内容,分解Web中文本结构的一种程序。Web爬虫主要分为传统爬虫和聚焦爬虫。爬虫开始访问的网页称作种子URL,从一个网页开始,进行查询和记录与之相关联的网页链接,如此重复该过程,直至无法再获取相关链接。通过该过程,最终将获得相关网页的所有信息,成为目标数据的广泛数据源。   在Web内容挖掘中,我们拟采用聚焦爬虫挖掘,其挖掘过程比较复杂。具体挖掘原理如图1所示。DNS进程取出URL队列中的第一个URL(通过一种特殊的分析方法过滤与搜索信息无关的链接,将有用的链接放入URL队列中),并通过IP协议连接主机,DNS数据库将域名和IP地址相互映射,如果主机被解析,则直接获取IP,否则,通过DNS数据库获得主机IP。接着READ进程获得IP,并试图打开一个HTTP socket 连接来获取网页页面。页面下载之后,爬虫会检查该页面是否已经被下载过,如果未被下载过,则提取该页面的URL。在检查信息的过程中,我们利用时间戳来解决服务器的状态问题,在检查的过程中,如果时间戳耗尽了,但还没有检查完,爬虫也可以再爬取页面,如果时间戳耗尽了,还没找到可用的URL链接,则会提示找不到所查询的信息;如果找到了可用链接,爬虫会去拉取页面并将该URL记录在相应的表中存储起来。   图1 爬虫原理   1.3 Web挖掘模型   Web数据挖掘模型充分利用了XML的优点,其主要包括三个层次:采集层、数据层和应用层。采集层表示在Internet中搜集相关数据的过程,并将这些数据的格式统一规范化;数据层的主要作用是将搜集到的数据进行预处理,如:补充缺失的数据,去除一些重复的数据,丢掉明显不符合逻辑的偏差数据,修补一些缺失数据等,为数据的应用做准备;应用层,顾名思义,就是对数据层中的数据进行处理、应用,达到Web数据应用的目的。模型如图2所示。   图2 基于Web数据挖掘的总体框架   2 Web数据挖掘在急性高原病中的应用   2.1 急性高原病   急性高原病[4]是人进入高原低氧环境后出现的一种病理反应,引起本病的主要原因是低压低氧。急性高原病主要包括急性高原反应、高原肺水肿和高原脑水肿三种。早期主要表现症状为:失眠、头痛、心跳加快、呼吸困难、紫绀、血压升高、神情恍惚等症状。急性高原病如不及时诊治和治疗,严重时会危机生命。所以,建立急性高原病易感人群预测体系,严格控制身体指

文档评论(0)

lmother_lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档