基于Web文本挖掘相关技术研究.docVIP

下载本文档

6
0
约3.61千字
约 9页
2018-06-08 发布于福建
举报
版权申诉

基于Web文本挖掘相关技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web文本挖掘相关技术研究

基于Web文本挖掘相关技术研究　　摘要：随着近年来互联网的飞速发展，如何在浩如烟海的文本信息中挖掘潜在的知识和规律是一个急需解决的问题。Internet上的信息主要是通过网页文本的形式表现出来，Web文本挖掘是为了达到从非结构化的网页文本中发现有用的知识和规律的目的。简要地介绍了Web数据挖掘的含义和种类、Web文本挖掘的含义和过程，并对Web文本挖掘过程各方面的相关技术做了进一步探讨，重点分析了文本特征表示、特征提取、分类、聚类等相关技术。　　关键词：Web文本挖掘特征提取文本分类文本聚类　　中图分类号：TP39 文献标识码：A 文章编号：1007—3973（2012）009—083—02 　　1 引言　　随着计算机、互联网的迅猛发展，近几年来，互联网已离不开人们的生活。网页上的内容以网页文本的形式存放信息，但网页文本具有半结构化的特点。因此，当今热门的研究方向便是如何快速有效地从Web上???取信息和知识。Web挖掘综合了数据挖掘技术和Web技术，因此，Web文本挖掘不但对经典的数据挖掘技术有着继承，也发扬着自身的各种特性。　　2 什么是Web数据挖掘　　Web挖掘是利用数据挖掘、文本挖掘、机器学习等技术从Web页面数据、日志数据、超链接关系中发现感兴趣的、潜在的规则、模式、知识。Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。Web挖掘通常被划分为三种主要类型（如图1）：Web内容挖掘、Web结构挖掘和Web使用挖掘。　　3 什么是Web文本挖掘　　3.1 文本挖掘　　文本挖掘主要应用于文本摘要的自动获取、文本分类、垃圾邮件过滤、知识库构建、搜索引擎等领域。文本挖掘是从非结构化文本数据中，发现有效、新颖、有潜在价值、并可理解的文本模式的非平凡过程。　　3.2 Web文本挖掘　　Web文本挖掘是从Web文本的数据中发现潜在的隐含知识。挖掘对象是Web文本。Web文本挖掘涉及领域广泛，是一门交叉性学科。　　4 Web文本挖掘的基本流程　　Web文本挖掘通常由以下几个步骤完成（如图2）：获取Web文本集、Web文本预处理、Web文本特征表示、Web文本特征提取、Web文本挖掘、质量评价、获得知识模式。　　5 Web文本挖掘的相关技术　　5.1 Web文本集的获取　　Web文本集的获取主要通过网络蜘蛛。网络蜘蛛能在各站点之间漫游并根据某种策略获取远程数据，之后保存获取到的文本集，便于接下来深入的分析工作。　　深度优先和广度优先是网络蜘蛛获取文本一般使用的两种策略。网络蜘蛛从起始页开始，顺着每一个链接一直抓取下去，处理完后再转入接下来的起始页，继续对链接进行如此地抓取，这种方式是深度优先，其优点是比较容易实现。网络蜘蛛先抓取起始网页面里的所有链接，然后选择其中的一个链接，继续抓取在此页面里的所有链接，一直按照这种抓取方式迭代访问下去，这种方式是广度优先，其优点是可以并行处理，提高网络蜘蛛的抓取速度。　　5.2 Web文本预处理　　Web页面除了包含网页的内容信息之外，还包含一部分与主题内容信息无关的信息，这种信息称作“噪音”。因此，为了更好地分析文本内容，应该将“噪音”信息予以过滤。网页过滤的目的是去掉网页上包含“噪音”的内容，保留网页中包含主题信息的内容块，最终达到消除冗余、精简数据的目的。　　5.3 Web文本的特征表示　　不同于数据库中的结构化数据，Web文本中的数据是半结构化的。这些半结构化数据不符合现有数据挖掘所要求的格式规范，因此无法直接使用数据挖掘技术对其进行挖掘。所以在挖掘之前，需要对Web文本中的数据以结构化的形式进行特征表示，作为半结构化文本和Web挖掘的中间表示形式。　　用一定的特征项（词条）来表示半结构化的文本信息，这一过程就称作特征表示。其常用的模型有：布尔模型、向量空间模型、概率模型等。向量空间模型是近几年来应用较多而且效果较好的模型。它将每个文本看成是由一组词条（T1，T2，…，Tn）构成，对于每个词条（Ti），都根据它在文本d中的权重赋予权值Wi。　　因此，对于所有的需要被挖掘的文本都能用特征向（T1，W1（d），T2，W2（d），…，Tn，Wn（d））表示。其中，Wi（d）被定义为词条Ti在文本d中出现的频率tfi（d）的函数，即：Wi（d）= （tfi（d））。Wi（d）的常用函数一般有：对数函数、布尔函数、平方根函数及TFIDF函数。TFIDF函数使用较为普遍。　　此函数的优点是可以过滤掉常见的词语，保留重要的词语。缺点是没体现出Web文件的位置信息和html文本的结构特点，因此应当考虑在Web文本中不同html标签结构下赋予不同的权重。　　5.4 Web文本的特征提取　　特征表示之后，我们会发现，向量