- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络信息过载(玩为ma
摘 要
随着htiernet的迅速发展,尤其是认勺rldwideW七b的全球普及,W七b上信
息资源己涵盖了社会生活的各个方面,网络信息过载(玩为mratinooverioad)问题
日益突出,这促使认飞b挖掘技术和W己b信息检索技术迅速发展。
广泛使用的处理场几b信息的手段是搜索引擎。目前使用较多的是基于关键
字的搜索引擎,在实际应用中存在诸如返回文档数目过大,主题相关性不高等
问题,总体查全率和查准率差强人意。对于搜索引擎存在的问题,人们想到了
数据挖掘。数据挖掘是从大量数据中提取或“挖掘,,知识,将传统的数据挖掘技
术与W七b结合起来,从W七b文档和W已b活动中抽取感兴趣的、潜在的、有用
的信息。W己b挖掘成为数据挖掘一个重要的研究领域。认飞b挖掘技术能够从
认飞b仁海量的数据中自动地,智能地抽取隐藏于这些数据中的知识,弥补了传
统搜索引擎的不足并且有更广泛的应用。
处理海量数据的一个重要方法就是将它们分类。网页自动分类是web文本
挖掘领域的一个很重要的研究方向。通过自动分类不仅仅可以将网页按照类别
信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立
自动的分类信息资源,为用户提供分类信息目录。文本分类把 自然语言的文本
按其内容划分到一个或多个预先定义好的类别中,是一个非常重要的信息组织
和管理手段。
支持向量机 (SVM)是由物p滋 及其领导的ATT实验室研究小组提出
的一种新的很有发展前途的机器学习算法。在模式识别、回归估计、概率密度
函数估计等方面都有应用。在模式识别方面,对于手写数字识别、语音识别、
人脸图像识别、文本分类等问题,SVM算法在精度上己经超过传统的学习算法
或与之不相上下。SVM有许多突出的优点,使它适合认七b文本信息处理。SVM
作为可以广泛应用在网上信息自动分类的方法日益受到研究者的重视。该方法
研究小样本情况下的机器学习规律,具有相对较高的性能指标。因为SVM具
有较强的理论依据和较好的泛化性能,使得它成为继神经网络研究之后新的研
究热点,并将推动机器学习理论和技术的重大发展。
本文阐述了W七b挖掘的有关理论,给出W七b文本挖掘的一般处理过程,
并设计了一个基于W七b的文本挖掘系统,包括文档采集模块、特征提取模块
一 1一
和挖掘模块。接着介绍统计学习理论,深入探讨了建立在该理论基础上的SvM
算法。最后将SVM算法应用到W七b文本挖掘之中,对W七b文本进行分类。
研究了一种用SVM进行主动学习的方法,该方法在保证分类性能的前提下,
可有效的提高效率。结果表明SVM算法在W亡b文本挖掘方面具有很好的应用
前景。
关键词:城b挖掘,文本挖掘,支持向量机,网页分类
原创力文档


文档评论(0)