- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于K_近邻算法的网页自动分类系统的研究及实现
第 17 卷 第 1 期2007 年 1 月计 算 机 技 术 与 发 展COMPU TER TECHNOLO GY AND DEVELOPMEN TVol. 17 No. 1Jan.2007基于 K - 近邻算法的网页自动分类系统的研究及实现张高胤 ,谭成翔 ,汪海航(同济大学 ,上海 201804)摘 要 :随着网络信息量的爆炸式增长 ,人们查找信息越来越难。Web 搜索引擎的出现在一定程度上解决了这种矛盾。然 而现行的搜索引擎无法根据用户所指定的主题进行针对性的搜索 ,因此 ,必须在搜索后对结果是否属于目标主题进行判 断 ,以提高搜索的准确性 ,文中提出了一种基于 K - 近邻机器学习算法的信息自动分类的方法 ,能够对搜索到的网页自动 地判定是否属于目标主题 ,并在实验的基础上验证了其在提高搜索准确性上的作用。关键词 : K - 近邻算法 ;机器学习 ;网页分类中图分类号 : TP30116文献标识码 :A文章编号 :1673 - 629 X(2007) 01 - 0021 - 03Design and Implementation of Web Page Automation Classif ication System Based onK- NearestNeighbor AlgorithmZHAN G Gao2yin , TAN Cheng2xiang ,WAN G Hai2hang( Tongji University ,Shanghai 201804 ,China)Abstract :The capacity of information in the network is growing like explosion , and it is much harder for people to find information that they want to precisely and quickly. The appearance of Web search engine resolves that problem in some level. However the popular search engine nowadays can not search in a special category. To improve the accuracy of search , decisions for whether a Web page belongs to the target category needs to be made automatically. Introduce a Web page automation classification method based on one of machine learning al2 gorithm named K - nearest neighbors( KNN) algorithm ,which can be used to decide if a Web page is relative to a special category. This page also proved the improvement of this method by experiments.Keywords :K - nearest neighbors algorithm ; machine learning ; Web pages automation classification0引言目前对于网页的搜索一般是基于关键词进行的 ,由于 语言中的一词多义和多词一义现象的普遍存在 。对于网 页的搜索的效果差强人意 ,特别是基于某一主题领域的搜 索 ,搜索结果往往会存在许多与该主题无关的结果 ,使得 用户浪费大量时间浏览自己并不感兴趣的内容 ,目前 ,所 有主流的搜索引擎普遍存在着搜索的准确率低 、召回率 低 、冗余度高的问题 ,针对这一现象 ,现行的解决方法一般 有两种 :1) 开发基于针对某一特定主题的搜索工具;利用己知 的知识使得搜索限定在某一特定主题的范围内。2) 采用机器学习的方法通过对一部分已经经过人工 分类的网页进行学习 ,总结出其中的规律 ,提取能够尽可与该主题相关的领域知识 ,对于主题领域的发展和变化也 无法进行自动的适应 ,因此 ,应用前景很有限 ,而基于机器 学习的方法 ,却具有前者无法比拟的通用性和自适应性。 具有更为广泛的应用前景[ 1 ] 。文中所提出的就是一种基 于机器学习方法的网页自动分类的方法。1K- 近邻算法简述目前 ,机器学习的算法有很多种[ 2 ] ,文中采用 K -
您可能关注的文档
最近下载
- 河南省建设工程安全生产标准化图集.docx VIP
- 别克英朗GT说明书.docx VIP
- 洪水计算(推理公式法).xls VIP
- 初中音乐 西南师大课标版 七年级上册 走进歌乐山 《走进歌乐山》 课件.ppt VIP
- (高清版)DBJ∕T 13-278-2025 《福建省电动汽车充电基础设施建设技术标准》.pdf VIP
- 带式输送机头尾部基础荷载计算书.xls VIP
- 建筑《工程质量》首件验收制度.docx VIP
- (高清版)DB21∕T 4071-2024 沥青路面再生集料应用技术规程.pdf VIP
- 中国冰沙机行业市场现状分析及竞争格局与投资发展研究报告2024-2029版.docx
- Word操作培训ppt课件.pptx VIP
文档评论(0)