Web数据挖掘在急性高原病易感人群预测中的应用.docVIP

下载本文档

10
0
约3.09千字
约 6页
2016-11-23 发布于北京
举报
版权申诉

Web数据挖掘在急性高原病易感人群预测中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web数据挖掘在急性高原病易感人群预测中的应用.doc

Web数据挖掘在急性高原病易感人群预测中的应用　　摘要：将Web数据挖掘技术应用于急性高原病易感人群的预测中，通过Web技术与数据挖掘技术相结合，将分散于Web中的数据经过检索、清洗、处理后存储在专门的数据仓库中。在现有研究成果的基础上，提出一个简便、高效的急性高原病易感人群预测模型。　　关键词关键词：Web数据挖掘；数据仓库；急性高原病易感人群　　中图分类号：TP319 文献标识码：A 文章编号文章编号2013）008007002 　　0 引言　　随着数据库技术及数据挖掘技术的迅速发展，人们积累起来的数据越来越多，在这些数据的背后隐藏着巨大的信息及规律。数据挖掘技术是在数据库技术广泛应用、深入发展的基础上应运而生的，它的主要价值就在于通过对大量新旧数据之间关系的分析，挖掘隐藏在这些数据背后的信息，进而促进信息的传递。　　Web是一个全球性的信息服务中心，随着单位、个人每天发布的大量新的Web网页及在线文档，使得Web数据信息以指数形式进行激增。如何从这些浩如烟海的数据中，寻找出有价值的信息，使其为相应的人群、行业服务，已成为目前Web技术和数据挖掘技术的重要发展方向。　　初进高原时，由于对低压低氧环境的不适应，人群中不可避免地要出现“急性高原病”。许多研究指出，人群中确实存在着急性高原病易感人群，如果能将数据挖掘技术应用于急性高原病易感人群的预测模型中，对于从根源上控制易感人群的基数将起到极其关键的作用[1]。　　1 Web数据挖掘　　1.1 Web内容挖掘及方法　　Web内容挖掘[2]包括Web文本挖掘和Web多媒体数据挖掘，主要是从Internet上挖掘出有用的数据信息及文档信息，是一种基本Web检索工作的延伸。Web内容挖掘在传统信息检索的基础上，通过各种新技术的应用来对原先搜索引擎进行改进。　　Web内容挖掘的方法主要包括数据库方法和代理人方法。Web内容挖掘的基本技术是文本挖掘，可以把Web数据看成是一个大型数据库，而对该数据库的查询、检索则需要多种技术进行融合，如：关键词检索、相似性检索、关联规则检索、聚类分析、自然处理语言等；使用代理人方法，是指通过软件代理来进行内容挖掘[3]，如：信息过滤、个性化Web代理及智能信息检索方法等。　　1.2 爬虫与Web内容挖掘　　Web爬虫，是获取网页内容，分解Web中文本结构的一种程序。Web爬虫主要分为传统爬虫和聚焦爬虫。爬虫开始访问的网页称作种子URL，从一个网页开始，进行查询和记录与之相关联的网页链接，如此重复该过程，直至无法再获取相关链接。通过该过程，最终将获得相关网页的所有信息，成为目标数据的广泛数据源。　　在Web内容挖掘中，我们拟采用聚焦爬虫挖掘，其挖掘过程比较复杂。具体挖掘原理如图1所示。DNS进程取出URL队列中的第一个URL（通过一种特殊的分析方法过滤与搜索信息无关的链接，将有用的链接放入URL队列中），并通过IP协议连接主机，DNS数据库将域名和IP地址相互映射，如果主机被解析，则直接获取IP，否则，通过DNS数据库获得主机IP。接着READ进程获得IP，并试图打开一个HTTP socket 连接来获取网页页面。页面下载之后，爬虫会检查该页面是否已经被下载过，如果未被下载过，则提取该页面的URL。在检查信息的过程中，我们利用时间戳来解决服务器的状态问题，在检查的过程中，如果时间戳耗尽了，但还没有检查完，爬虫也可以再爬取页面，如果时间戳耗尽了，还没找到可用的URL链接，则会提示找不到所查询的信息；如果找到了可用链接，爬虫会去拉取页面并将该URL记录在相应的表中存储起来。　　图1 爬虫原理　　1.3 Web挖掘模型　　Web数据挖掘模型充分利用了XML的优点，其主要包括三个层次：采集层、数据层和应用层。采集层表示在Internet中搜集相关数据的过程，并将这些数据的格式统一规范化；数据层的主要作用是将搜集到的数据进行预处理，如：补充缺失的数据，去除一些重复的数据，丢掉明显不符合逻辑的偏差数据，修补一些缺失数据等，为数据的应用做准备；应用层，顾名思义，就是对数据层中的数据进行处理、应用，达到Web数据应用的目的。模型如图2所示。　　图2 基于Web数据挖掘的总体框架　　2 Web数据挖掘在急性高原病中的应用　　2.1 急性高原病　　急性高原病[4]是人进入高原低氧环境后出现的一种病理反应，引起本病的主要原因是低压低氧。急性高原病主要包括急性高原反应、高原肺水肿和高原脑水肿三种。早期主要表现症状为：失眠、头痛、心跳加快、呼吸困难、紫绀、血压升高、神情恍惚等症状。急性高原病如不及时诊治和治疗，严重时会危机生命。所以，建立急性高原病易感人群预测体系，严格控制身体指