基于时态数据库环球网上数据采掘.docVIP

下载本文档

1
0
约8.47千字
约 8页
2017-10-03 发布于北京
举报
版权申诉

基于时态数据库环球网上数据采掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于时态数据库的环球网上的数据采掘* 王利强何雪梅唐常杰 (四川联合大学计算机系成都610064) 摘要本文论述了Internet/Web上基于时态数据库HBase的数据采掘系统Web_HBase_DM的设计与实现，并讨论了Web上资源获取，时态数据存储，以及Hbase中数据采掘的实现方法。关键词数据采掘；数据库中知识发现；时态数据库；国际互联网；环球网 1 引言 Internet/Web及其相关技术创造了网络计算机和网络经济的概念，以其巨大的社会经济效益和挑战性难题成为计算机界最注目的RD课题之一。环球网容纳了人类共同创造的知识财富(特别是新兴学科)和政治经济信息中最新最活跃的一部分，业已成为政治家、企业家和科学家的“第一图书馆”。目前Web中字节量正以每月15%(每年1.1512=5.3倍)的速度增加，由于Web是Internet上非正式(非官方)发布的信息资源集合，同一主题下数据因所有者的利益、观点和技术的差异而带有偏差和冗余。目前须人工参与的半自动数据处理速度远小于新数据的产生速度，而对于决策者，海量数据不能产生决策意志。因此，针对特定主题在Web资源中采掘知识便成为急待解决的问题。 DM(数据采掘Data Mining)和KDD(数据库中知识发现Knowledge Discovery in Database)是综合统计学、人工智能、数据库技术、模式识别、机器学习等多个领域的跨学科技术。KDD就是从数据库中提取正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式(patterns)，简而言之，就是从数据库中提取有用的信息。“数据采掘”最初用于统计学和数据库领域，就是应用特定的算法从数据库中提取模式(patterns)或模型(models)，通常我们把数据采掘视为KDD过程的一个重要步骤[1]。如何有效地利用KDD和DM技术从Internet上采掘大量有用的知识和信息已成为当前计算机领域的研究热点之一。但是Web上决大部分信息以自然语言的方式描述，机器很难识别其含义；Web上信息的动态更新特性，为资源的获取和分析带来一定的困难[2]。 TDB(时态数据库Temporal DB)是人类感官和双手在时间维上的延伸，其目的是高效地存储、管理和利用时态数据(包括历史性数据)，并智能地辅助人们决策，例如利用“历史+现状(未来”的机制作智能处理等[3-5]。上述三项技术虽产生于不同的时间和背景，但都是近一、二年才趋于成熟，结合以前我们在以上三个领域的科研实践，深切体会到，如何有机地结合三个领域的技术，实现一种以Web_HBase_DM为原型的知识采掘方法，从而探索出一种能从Internet资源中获取指定事物发展趋势和规律的机制，必将有力推动计算机智能化处理的发展，并能获得巨大的商业效益。但是，在Internet上进行数据采掘与在数据库中进行数据采掘有着很大的区别。Internet上的资源本身是无序的，并存在巨大的冗余，在这个繁杂的互联网上提取全部知识是不现实的，因此，我们从用户关心的专业领域出发，将采掘限制在“指定类事物在指定时间区间内”，使得目标现实可行。Web_HBase_DM原型结构如图1所示。用户用户界面数据采掘系统(DMS) 时态数据库(HBase) (人机接口) 专业领域知识库 Web资源 Internet 获取系统 Web Server Web Server 图1 Web_HBase_DM 原型结构 2 Internet上资源的发现与获取 Web上资源一般可以分为两类∶文档和服务。现阶段，Web上资源的发现主要集中于文档的搜索和获取[2]。通常的作法是利用WWW的资源自动获取机制(WWW robot)来实现。这种自动获取机制实质上一组驻留于主机上的软件，它们检查Internet 的Web结点，利用HTTP获取相应的文档，然后对这些文档进行分析处理，提取其中的标题、关键词等信息，存放于主机上相应的数据库中，留待用户进行检索和查询。如Lycos、AliWev、Harvest、WebCrawler等，都是利用这种机制为用户提供查询服务的，但Yahoo 和EINet Galaxy则是通过注册机制来获取Web资源信息的[6]。在Web_HBase_DM结构中，Web资源获取系统利用现有的查询系统如Yahoo、Infoseek、Lycos等获取相关领域的资源，在进