半结构化多Web文本数据挖掘的研究.pdfVIP

下载本文档

2
0
约 4页
2017-08-13 发布于湖北
举报
版权申诉

半结构化多Web文本数据挖掘的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

半结构化多Web文本数据挖掘的研究.pdf

第 31卷第 2期齐齐哈尔大学学报 Vol-31．No．2 2015年 3月 JournalofQiqiharUniversity March．2015 半结构化多Web文本数据挖掘的研究谢娜，戚晓明，朱洪浩，郭有强 (蚌埠学院计算机科学与技术系，安徽蚌埠 233030) 摘要：在 Web文本挖掘过程中，挖掘对象数据量大，且多是半结构化或无结构化的数据。采用了XQuery语言与经典的Apfiofi算法相结合的方法进行研究，引入了XQuery语言中的函数，实现了对多个Web文档的挖掘，通过具体的实例进行验证，该算法能够提高Web文本挖掘的时间效率。关键词：Web文本挖掘；Apriori算法；XQuery语言；时间效率中图分类号：TP311．135．9 文献标志码：A 文章编号：1007—984X(2015)02—0075—04 随着网络的发展，B2B电商的异常崛起，企业之间的竞争也越来越激烈。如何从网络浩瀚的数据中找出有用的信息，对其中有用的信息进行分析，由决策层依据这些数据来改变企业的销售思路，这就是Web 文档数据挖掘的主要作用。传统的数据挖掘一般是挖掘关系型的数据，而当前web数据的传输和共享多数采用了XML文档，而XML文档是一种树型结构的文档，属于半结构化的数据。所以基于XML的半结构化 Web文本数据挖掘…研究成为数据挖掘的热点。 1 Web数据挖掘 1．1 Web数据挖掘的特点由于半结构化的数据与传统的数据库中的数据结构不同，不能采用传统的挖掘方法，所以挖掘半结构化的文档数据比以往的数据要复杂的多。Web网页的数据具有海量的半结构化模糊的等特点，在挖掘时要注重数据不完整性和动态性。需要采用一种半结构的数据模型来描述半结构化的Web文档，而 XML语言是一种可扩展的半结构化语言，它是一种树型结构的文档，每个文档有且仅有一个根元素，其它的元素作为一个个子树结构存在。由于目前的数据库在构建时是多样的或不兼容的，为了统一数据格式，要先对数据源进行集成，然后才能对集成为统一格式的数据进行挖掘。那么对半结构化的Web文档数据挖掘可以转换为对 XML文档的数据挖掘。 1．2 Web数据挖掘的主要思想目前在研究过程中，Web数据挖掘的主要思想是首先利用爬虫技术口】收集一些需要挖掘的数据对象，构建一个Web文本的数据源。然后采用自然语言处理中的分词技术对数据进行预处理，包括对数据的特征抽取和数据转换。接着就可以对预处理后的文本数据进行数据挖掘，包括分类、聚类和关联分析等挖掘方法，最后对挖掘的结果和信息进行处理，抽取出大量有用的信息。 1．3 XML内容挖掘方法鉴于XML文档的半结构化特点，XML文档的内容挖掘有如下几种方法。 (1)将XML文档转换成关系模型或者传统的数据库，利用目前比较成熟的关系数据库的挖掘方法进行挖掘，然后将挖掘后的数据转换成对应的XML文档，这种方法经常使用，但该方法在数据相互转换过程中非常浪费时间，并且容易产生数据的误差。 (2)使用传统的文本挖掘技术直接对XML文档进行挖掘，这种方法主要思想是通过一些技术将 XML 文档中的标记进行剥离，提取出有用的内容，然后对内容进行挖掘，这种过程称之为解析XML文档。在解收稿日期：2014—11-21 基金项目：蚌埠学院自然科学研究项目(2013ZR13)；蚌埠学院工程化教研项目(2013g~y10)；蚌埠学院自然科学研究项目 (2013ZR07) 作者简介：谢娜 (1981-)女，江苏徐州人，助教，硕士，主要从事数据挖掘方面的研究 qq．tom。 · 76· 齐齐哈尔大学学报析过程中引入了DOM模型和SAX模型，这两个模型是W3C组织提出的一种解析XML文档的规范，主要将 XML文档看成为数据库，应用程序可以通过采用一些技术 (如 Java，．NET，c++等)中提供的API对 XML文档进行解析，选取XML文档的一些内容。 (3)采用一些半结构化的查询语言对XML文档进行查询，应用程序可以通过这样的查询语言获