- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web文档分类方法的比较与分析.pdf
维普资讯
第 9卷 第 6期 滁 州 学 院 学 报 Vo1.9 No.6
2007年 11月 J0URNALOFCHUZHOUUNIVERsrrY NOV.2007
Web文档分类方法的比较与分析
汪志圣幢 李龙澍
(1安徽大学 计算机学院,安徽 舍肥 230039;2滁州学院 数学系,安徽 滁州 239012)
摘 要:对Web文档进行分类可以较好地解决网上信息杂乱的现象,而且方便用户准确定位所需的信息,有效
地提高了信息服务 的质量。目前对Web文档进行分类的技术包括基于文档 内容的分类方法和基于文档性质 的
分类方法。本文在对Web文档分类技术进行总结的基础上分析和比较了两类方法。
关键词:数据挖掘;web文档分类
中图分类号:TP31 文献标识码:A 文章编号:1673—1794(2007)06—0033—03
作者简介:汪志~(1978一),男,安徽六安人,讲师,安徽大学计算机学院2004级硕士研究生,滁州学院数学系。
l引言
信息时代的真正来临是计算机、通信技术及因特网飞速发展的结果。从网络上获取数字化信息成为人
们获取信息的重要方式,并逐渐成为主要方式。一些大型的搜索引擎索引的网页已经超过了几十亿,而且仍
然在呈指数增长。面对如此浩瀚的信息海洋,若想找出人们关注的信息,这往往需要投入大量的时间对信息
进行组织和整理。为了帮助人们有效地组织和管理海量的Web信息,Web文档分类技术应运而生,它是Web
数据挖掘的主要内容,是在文本分类的基础上发展起来的。它同时也是数据挖掘、智能信息检索和处理领域
的一个新兴和重要的研究方向,也是一门交叉学科,融合了信息网络、人工智能等多领域学科知识,涉及面
较广。Web文档分类通过利用Web文档的正文文本信息和HTML语言结构信息,针对Web文档的内容进行
相似度的分类。Web文档分类不仅可以在较大程度上解决网上信息杂乱的现象,并方便用户准确地定位所
需的信息和分流信息,而且逐渐与搜索引擎、信息过滤、文本数据库、数字化图书馆等信息处理技术相结合,
有效地提高了信息服务的质量。本文将现有的Web文档分类方法进行归纳分析,将现有的算法分成两类,并
对两类方法进行总结分析和比较,提出各 自的优缺点。
2Web文档基本特点及分类方法概述
Web信息均采用超文本的Web页面形式来表现。在Web出现之前,人们已经对文本 自动分类问题进行
了大量的研究,形成了文档 自动分类技术。随着Web上海量的文本信息的增加,文档 自动分类技术的处理对
象从普通的文档扩展到了Web文本。目前,一些比较成熟的文本分类算法已经被应用到了Web文本分类
中,其中有基于VSM的向量距离法、贝叶斯分类算法、ON分类算法、支持向量机分类算法、决策树分类算法
和神经网络分类算法等等,近些年还出现了基于粗糙集合理论的文本分类算法和一些结合多种方法的混合
分类方法。
由于Web信息 自身的特点,网页中除了包含纯文本内容,还包含标记 flags)和指向其它页面的链接
(Hyperlinks)。近年来出现了一些基于Web文档性质的分类方法。文档的性质就是指网页中所包含的文件的
基金项 日:滁州学院 自然科学基金项 目(KJ20OTB124)
收稿 日期:2007—07—17
— 33—
维普资讯
性质,据此可将网页分为新闻页、广告页、论坛页、影音页等类别。性质分类可以和内容分类有机地结合在一
起,形成更加详细的分类系统,使用户对文档的属性一 目了然。
3基于内容的Web文档分类
3,1基于 内容分类的含义
基于内容分类是指按照预先定义的基于内容的主题类别C(C={C。,C:,……cl}),这里的0可以是并列的,
也可以是分层次组织起来的,为文档集合中的每个文档di(i=l,……,m)确定所属的类别。
3.2基于 内容分类的常见算法
从算法机制上来看,文档分类方法大致可分为基于统计学习和基于知识工程两种类型。基于统计学习
方法由于具有坚
您可能关注的文档
- W4×Sn的交叉数.pdf
- W6Mo5Cr4V2角铣刀热处理开裂原因分析及工艺改进.pdf
- W8油气田地质建模研究.pdf
- Wacker公司乘式压路机的全新设计.pdf
- WAN电火花工作液改性研究现状.pdf
- WAPI与IEEE 802.11i安全协议通信性能分析.pdf
- Warm Deformation Behavior of High Carbon Steel with Martensite Starting Structure.pdf
- WAS在商品房销售管理系统中的开发应用.pdf
- WBZ21稳定土拌和机综合显示仪的开发与研制.pdf
- WCDMA-HSDPA的问题分析及其改进方案.pdf
最近下载
- 免费小学生竞选班长卡通PPT模板 (31).pptx VIP
- 电动汽车控制系统及检修课件-第一部分.pptx VIP
- 高中研究性学习调查报告PPTppt.pptx VIP
- 2025年高考英语阅读理解238个抢分关键词+572个高频词.doc VIP
- 4)-A統計基礎及品質統計.ppt VIP
- 2025最新贵州省专业技术人员继续教育公需科目考试题库及答案(全)).docx VIP
- 赵海洋 十年 完整钢琴谱.pdf VIP
- 2025年高考语文备考之文言文《古文观止》训练50篇.pdf VIP
- 青岛版数学一年级上册《20以内的进位加法》单元整体备课设计.docx VIP
- 2025至2030中国跑腿服务行业市场分析及竞争形势与发展前景预测报告.docx
文档评论(0)