Web文本挖掘的研究.pdfVIP

下载本文档

8
0
约7.4千字
约 5页
2017-08-19 发布于安徽
举报
版权申诉

Web文本挖掘的研究.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web文奉挖掘研究 743 Web文本挖掘研究水武洪萍周国祥’ I 合肥_I：业大学计算机与信息学院，合肥230009 摘要：www是一个巨大的、分布广泛的、全球性的信息服务中心，。它包含了丰富的信息资源。 Web挖掘可以快速有效地获取所需要的信息。Web文本挖掘是Web挖掘中的重要组成部分。本文重点探讨了w曲文本挖掘中文本预处理，特征提取、文本分类及文本聚类等关键实现技术，最后讨论了 Web文本挖掘的价值及发展的重要性。关键词：Web文本挖掘特征提取文本分类文本聚类 1引言 Intemet上的信息是以网页形式存放的，而文本信息是网页内容的土要组成部分，冈此，Web文本挖掘是Web内容挖掘的一种主要形式。Web文本挖掘是以计算语言学、统计数理分析为理论基础，结合机器学习和信息检索技术，从Web文档和Web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息的过程【lJ。Web文本挖掘的对象是Web文档的文本内容，利通常意义上的平面文本挖掘的功能和方法相似，但是有其自身的特点。目前Web文本挖掘的主要过程是对Web上火量文档集合的内容进行文本预处理、特征提取、文本摘要、分类、聚类、关联分析等处理。图l给出了Web文本挖掘的一般处理过程【2—1。 2文本预处理比，文本具有有限的结构，甚至根本没有结构。同时。Web页面是HTML语言来定义的，除标题、正文部分外，还包含许多的HTML控制命令，冈此需要对这些文本数据进行标准化预处理。此外，文档的内容是人类使用的白然语言，计算机很难处理其语义，所以还需要进行文本数据的信息预处理。信息预处理的主图lWeb文本挖掘的一般流程 ‘基金项目l安徽省自然科学幕会(050420202)。作者简介l武洪萍(1971．)，女，讲师，颂I：，研究方向为数据仓库‘j数据挖掘：刷图样，硕}：生导师，教授．研究方向为计算町视化、数据挖掘和决策支持。 744 计算机技术‘j麻用进展·2007 要目的是抽取代表文本特征的元数据(特征项)，这些特征项可以川结构化的形式保存，作为文档的中间表示形式。 2．1分词对文档进行特征提取的前提就是对文本中的词汇进行切分。对英文而言，需要进行Stemming处型41，即从英文单词的多种形式中提取出词干。汉语语言文字的处理则不同。冈为中文的基元是字而不是词，字的信息草比较低，句子中各词语间没有I司定的分隔符(空格)，冈此对中文文本需要进行词条切分处理。目前土要有基丁词库的分词算法和无词典的分词技术两种。基丁．词库的分词算法目前使用较J．．，主要包括止向、逆向最人匹配法和逐词遍历法等。这类算法的特点是设计简单，易丁．实现。但分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面，建立一个同时满足这两个要求的词库具有很人困难。因此该分词技术对于歧义和末登录词的切分容易被疏漏，从而导致挖掘的内容不是很准确。文献【5】利用改进的最人匹配法米实现对文档的汉语自动分词，同时加强消除歧义方面的处理，分词精度有所提高。基丁．无词典的分词技术的基本思想是：基丁．词语频度的统计，不依靠词典，将文本中任意几个字同时出现的频率进行统计，出现的次数越高，成为一个词的可能性越人。。 2．2文本的特征表示基-f．白然语言处理和统计数据分析的文本挖掘中的文本特征表示指的是对从文本中抽取出的元数据进行餐化，以结构化形式描述文档信息。特征表示的构造过程就是挖掘模型的构造过程。特征表示有多种，常用的有布尔逻辑模型、向苗空间模型(VSM，VectorModel)．概率型(ProbablisticModel)和混 space 合型等。目前应用较多且效果较好的方法是向鼙空间模型。其基本思想如．卜-：在VSM模型中，将文档D看作看成一个n维坐标系中的坐标轴