- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
半结构化多Web文本数据挖掘的研究.pdf
第 31卷第 2期 齐 齐 哈 尔 大 学 学 报 Vol-31.No.2
2015年 3月 JournalofQiqiharUniversity March.2015
半结构化多Web文本数据挖掘的研究
谢娜,戚晓明,朱洪浩,郭有强
(蚌埠学院 计算机科学与技术系 ,安徽 蚌埠 233030)
摘要:在 Web文本挖掘过程中,挖掘对象数据量大 ,且多是半结构化或无结构化的数据。采用了XQuery语言与
经典的Apfiofi算法相结合的方法进行研究,引入了XQuery语言中的函数,实现了对多个Web文档的挖掘 ,通过
具体的实例进行验证 ,该算法能够提高Web文本挖掘的时间效率。
关键词:Web文本挖掘;Apriori算法;XQuery语言;时间效率
中图分类号:TP311.135.9 文献标志码:A 文章编号:1007—984X(2015)02—0075—04
随着网络的发展,B2B电商的异常崛起,企业之间的竞争也越来越激烈。如何从网络浩瀚的数据中找
出有用的信息,对其中有用的信息进行分析 ,由决策层依据这些数据来改变企业的销售思路,这就是Web
文档数据挖掘的主要作用。传统的数据挖掘一般是挖掘关系型的数据,而当前web数据的传输和共享多数
采用了XML文档,而XML文档是一种树型结构的文档,属于半结构化的数据。所以基于XML的半结构化
Web文本数据挖掘…研究成为数据挖掘的热点。
1 Web数据挖掘
1.1 Web数据挖掘的特点
由于半结构化的数据与传统的数据库中的数据结构不同,不能采用传统的挖掘方法,所以挖掘半结构
化的文档数据比以往的数据要复杂的多。Web网页的数据具有海量的半结构化模糊的等特点,在挖掘时要
注重数据不完整性和动态性。需要采用一种半结构的数据模型来描述半结构化的Web文档,而 XML语言
是一种可扩展的半结构化语言,它是一种树型结构的文档,每个文档有且仅有一个根元素,其它的元素作
为一个个子树结构存在。由于 目前的数据库在构建时是多样的或不兼容的,为了统一数据格式,要先对数
据源进行集成,然后才能对集成为统一格式的数据进行挖掘。那么对半结构化的Web文档数据挖掘可以转
换为对 XML文档的数据挖掘。
1.2 Web数据挖掘的主要思想
目前在研究过程中,Web数据挖掘的主要思想是首先利用爬虫技术口】收集一些需要挖掘的数据对象,
构建一个Web文本的数据源。然后采用 自然语言处理中的分词技术对数据进行预处理,包括对数据的特征
抽取和数据转换。接着就可以对预处理后的文本数据进行数据挖掘,包括分类、聚类和关联分析等挖掘方
法 ,最后对挖掘的结果和信息进行处理,抽取出大量有用的信息。
1.3 XML内容挖掘方法
鉴于XML文档的半结构化特点,XML文档的内容挖掘有如下几种方法 。
(1)将XML文档转换成关系模型或者传统的数据库,利用 目前比较成熟的关系数据库的挖掘方法进
行挖掘,然后将挖掘后的数据转换成对应的XML文档,这种方法经常使用,但该方法在数据相互转换过程
中非常浪费时间,并且容易产生数据的误差。
(2)使用传统的文本挖掘技术直接对XML文档进行挖掘,这种方法主要思想是通过一些技术将 XML
文档中的标记进行剥离,提取出有用的内容,然后对内容进行挖掘,这种过程称之为解析XML文档。在解
收稿 日期:2014—11-21
基金项 目:蚌埠学院自然科学研究项 目(2013ZR13);蚌埠学院工程化教研项 目(2013g~y10);蚌埠学院自然科学研究项 目
(2013ZR07)
作者简介:谢娜 (1981-)女,江苏徐州人,助教,硕士,主要从事数据挖掘方面的研究 qq.tom。
· 76· 齐 齐 哈 尔 大 学 学 报
析过程中引入了DOM模型 和SAX模型,这两个模型是W3C组织提出的一种解析XML文档的规范,主要
将 XML文档看成为数据库,应用程序可以通过采用一些技术 (如 Java,.NET,c++等)中提供的API对
XML文档进行解析,选取XML文档的一些内容。
(3)采用一些半结构化的查询语言对XML文档进行查询,应用程序可以通过这样的查询语言获
您可能关注的文档
最近下载
- 人教版二年级上册数学全册教学设计(配2025年秋新版教材).docx
- 2024-2025学年北京市东城区高三上学期期末统一检测语文试卷含详解.docx VIP
- 射血分数保留心衰(HFpEF)的临床诊治题库答案-2025年华医网继续教育.docx VIP
- 《景观设计概述》课件.ppt VIP
- 浙江宁波国际投资咨询有限公司招聘笔试题库2025.pdf
- 悬浮床渣油加氢工艺研究.docx VIP
- Unit 1 Letters in Our life(课件)教科版(2024)英语三年级上册.pptx VIP
- 2025云南电网有限责任公司社会招聘9人(第三批)笔试备考题库及答案解析.docx VIP
- 《电子政务协同办公系统电子文件应用与管理技术要求》.doc
- 2024年南京工业职业技术大学单招语文考试试题及答案解析.docx VIP
文档评论(0)