- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于机器学习主的题Web挖掘技术
基于机器学习的主题Web挖掘技术摘要:本文研究和分析了Web挖掘技术和机器学习理论。机器学习是人工智能领域的一个重要分支,它主要研究计算机怎样模拟或实现人类的学习行为,有目的地自动增进其性能,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.本中主要研究了机器学习理论,对机器学习的模型、分类、及发展历程作了介绍.同时,对机器学习在Web挖掘领域的应用前景作了描述。Web页面重要性的计算是进行Web挖掘的一个重要问题.本文在原有HITS算法的基础上,加入了内容相关度的计算,提出了一种新的计算页面重要性的算法一HITS算法。关键字:A: Web挖掘;B:机器学习;C :HITSThe Technology of Topical Web Mining Based on Machine LearningThis article studies and analyses Web Mining and Machine Learning.Machine Learning is an important branch of the field of artificial intelligence.This paper presents the model of Machine Learning,classification,and the development process。Meanwhile,№chine Learning in the field of Web Mining application is described. The calculation of Web page’s authority radio is an important issue for Web Mining.Based on the HITS algorithm,we advance a new algorithmfor calculating the importance—the WHITS algorithm Keylrords:A: Web Mining; B:Machine Learning; A: HITS引言: 随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,获取潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。但当用户面对这个海量、异构、半结构化的信息库时,常常发现要查找到所需的信息要耗费大量的时间和精力,甚至难以找到,造成了“信息过载、知识匮乏”的现象。主题Web挖掘是近几年内兴起的一个被广泛关注的研究课题。它利用主题页面在Web上的分布特点,根据用户或系统定义的目标主题,以智能的方法在线爬行Web页面,收集与目标主题相关的页面,并对收集到的页面进行智能分析和处理,最后将处理的页面集合以灵活方便的检索方式提供给用户使用。许多项目的研究结果表明,主题Web挖掘方法能够保持较高的主题相关度,提高查询的精度.这为提高用户查询效率,提供了一个新的研究方向.1.绪论1.1研究背景随着因特网(Internet)的迅速发展,网络对我们的影响已经越来越大,日渐成为人们获得信息的必要途径和重要手段.而在网上发展最为迅猛的WWW(World Wide Web)技术,以其直观、方便的使用方式和丰富的表达能力,己经发展成为一个全球化信息发展空间。随着信息时代的到来和发展,Web上的信息如雨后春笋般迅速增长起来。2007年23日, 中国互联网络信息中心(CNNIC)在北京发布‘第十九次中国互联网络发展状况统计报告》。报告显示,截止到2006年12月31日,我国网民人数达到了13700万人,与去年同期相比增长了23.4%,其中宽带上网网民人数己突破一亿.目前,我国网民数和宽居世界第二‘”.然而面对这个分散无序的海量信息库,Web用户经常发现难以找到能满足他们需要的息,造成“信息过载,知识匮乏”的现状.一方面网上的信息多种多样、丰富多彩,一方面用户却找不到他们所需要信息.这一矛盾的主要原因是人们在如此大的信息库里, 很难用浏览的方式找到自己所需的信息。这一现象促使一种以Web搜索引擎为主的,用于提取网络有效资源的信息检索技术应运而生了。Google,Infoseek,Baidu,AltaVista、天网等国内外知名的搜索引擎正是人们为了解决网上信息检索的难题,而在信息检索领域进行大量研究后的成果。1.2 Web挖掘与相关研究内容Web挖掘∽1就是从Web页面和Web用户访问活动中发现、抽取感兴趣的潜在的模式和隐藏的信息。它是以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘技术与Web结合
您可能关注的文档
- 河北省定州中学2017届新高三上学期周练(7.8)语文试题 含答案.doc
- 数控切割机操注作意是事项及要求.doc
- 河北省定州中学2017届新高三上学期周练(三)地理试题 含答案.doc
- 河北省定州中学2017届新高三上学期周练(三)数学试题 含答案.doc
- 河北省定州中学2017届新高三上学期周练(三)物理试题 含答案.doc
- 河北省定州中学2017届新高三上学期周练(三)生物试题 含答案.doc
- 河北省定州中学2017届新高三上学期周练(三)英语试题 含答案.doc
- 河北省定州中学2017届新高三上学期周练(二)化学试题 含答案.doc
- 数据结构图的用应及其实现.doc
- 河北省定州中学2017届新高三上学期周练(二)地理试题 含答案.doc
文档评论(0)