基于维基类目网络和URL模式树的网页分类方法探究-计算机技术专业论文.docxVIP

基于维基类目网络和URL模式树的网页分类方法探究-计算机技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研 究工作所取得的成果。除文中已经注明引用的内容外 本论文不包含任何其他 个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人 和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本 人承担。 学位论文作者签名: ?叫树 日 期 : _1主{ 3一年_/月一主日 上海交通大学硕士学位论文摘要 上海交通大学硕士学位论文 摘要 万方数据 万方数据 基于维基类目网络和 URL 模式树的网页分类方法探 究 摘 要 分类是信息检索中的一个重要问题,而网页分类对于提高互联网服务质量 尤其意义重大。诸多互联网上的关键应用包括站点目录、搜索引擎、网页爬 虫、推荐系统、用户行为分析系统和广告投放系统无不依赖于高效而准确的页 面分类来提高服务质量。针对这些应用中涉及到的分类问题,有许多分类方法 相继被提出,其中包括基于页面内容的文本分类方法。基于页面内容的分类方 法依赖于正文质量,如果正文质量太差,或者文本长度太短,会导致分类性能 的下降。随着一些大规模词典和类目体系的建立,基于第三方词库的分类方法 引起了广泛的关注。第三方词库可以提供现成的语义类目,一方面可以作为辅 助信息增强语义识别能力,提高分类的精度;另一方面可以直接用于分类,这 样的分类方式能从一定程度上解决短文本的分类缺陷,并且不需要依靠训练 集,能高效地进行分类。 本文的分类建立在全网环境,全网环境数据结构复杂、噪声多、干扰强, 使用传统的分类方法,一方面如果文本质量太差,会大大影响分类的准确率; 另一方面,全网数据量庞大,使用传统分类方法势必要通过引入大量训练集来 训练分类模型,可能无法进行高效地分类。本文提出了一种基于维基网络的主 题分类模型,词汇量和语义都及其丰富的维基类目网络涵盖了大量词汇,并且 维基百科是在线实时编辑系统,很多词汇甚至能“与时俱进”,从而对全网范 围的词汇有较好的覆盖。另外,这种分类方法不需要依赖训练集来训练模型, 只要完成了维基网络的类目关联就可以用于分类预测。同时,尽管维基类目词 汇实时变化,但是整个类目体系相对比较稳定,从而本方法可以在长时间内保 持有效。我们在实验阶段对比了传统的基于页面内容的分类方法,证明本方案 的可行性。 另外,本文还创新性地提出了基于 URL 模式树的站点功能分类方法,基 i — 于 URL 模式树的功能分类借鉴了自然语言处理的语法树核函数(Tree Kernel) 的方法,构造了 URL 语法规则和 URL 语法树,并通过改进的 Tree Kernel 来进 行站点功能的分类。 关键词: 网页分类 维基网络 URL 模式树 大数据 ii — 上海交通大学硕士学位论文ABSTRA 上海交通大学硕士学位论文 ABSTRACT Research towards Web Classi?cation based on Wikipedia Category Network and URL Pattern Tree ABSTRACT Classi?cation is a major problem in the ?eld of Information Retrieval.Web clas- si?cation which targeting on classi?cation problems in web pages, therefore, plays a signi?cant role in web mining. Most web applications rely on accurate classi?cation to improve the quality of services. Such application includes the maintenance of web directories, search engine, page crawler, recommendation system, user pro?le system and online advertising. Many research e?orts have been devoted into these areas as to ?nd out solutions for speci?c issues, accompanying with the purpose of highly e?- cient category mechanisms, among which content-based classi?cation method is most straightforward and meanwh

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档