基于RSM的网页间语义链网络构建方法研究.doc

基于RSM的网页间语义链网络构建方法研究.doc

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于RSM的网页间语义链网络构建方法研究

中图分类号:TP391 单位代号:11903 密 级: 学 号 硕 士 学 位 论 文 SHANGHAI UNIVERSITY MASTER’S Dissertation 题 目 基于RSM的网页间语义链网络 构建方法研究 作 者 学科专业 计算机应用技术 导 师 完成日期 2010年2月 上海大学 本论文经答辩委员会全体委员审查,确认符合上海大学硕士学位论文质量要求。 答辩委员会签名: 主任: 委员: 导 师: 答辩日期: 原 创 性 声 明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签 名:___________日 期__________ 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。 (保密的论文在解密后应遵守此规定) 签 名:__________ 导师签名:___ _____日期:__________ 上海大学工学硕士学位论文 基于RSM的网页间语义链网络 构建方法研究 硕 士 生: 导 师: 学科专业:计算机应用技术 上海大学计算机工程与科学学院 2010 年 2 月 A Dissertation Submitted to Shanghai University for the Degree of Master in Engineering Research on the Method of Building Semantic Link Network of Web Page Based RSM M.D.Candidate: Supervisor: Major:Computer Application Technology School of Computer Engineering and Science, Shanghai University Feb, 2010 摘 要 随着Internet及其相关技术的发展,互联网上出现了海量的、异构的web信息资源,当前的通用搜索引擎虽然在很大程度了解决了人们在互联网上查找信息困难的问题,但是随着web信息指数化地增长,不能满足用户个性化的需求,于是出现了很多基于某一特定领域的垂直搜索引擎,但是这种垂直搜索引擎还是没有改变基于关键词简单匹配的性质。在谷歌、百度等通用搜索引擎中检索时返回的结果集的数量非常大,而且这些网页间缺少语义联系,有时难以获取到有用的信息。目录式门户网站主要工作是对网页进行分类,手工分类方式工作量大且更新慢,同样分类好的网页都是独立的缺少与其他网页之间的联系。 针对传统网页间缺少语义联系这一问题,本文对网页间的语义链网络构建方法进行了研究,提出了一种用来组织管理海量异构web信息的方法,使网页之间建立起一种语义关系,而非传统网页中仅有的一个链接关系。本文首先根据网页的五维正交信息基于资源空间模型(RSM-Resource Space Model)表示网页,达到多方面研究网页信息的效果,根据网页标签的权重信息提出了一个改进的TFIDF(Term Frequency Inverse Document Frequency)公式来计算关键词权重,并利用信息熵验证了算法的可靠性,提出了动态K值选择的KNN(K-Nearest Neighbor)分类算法,解决了KNN算法K值选择难的问题。其次,根据行业中普遍存在着的产业链这一经济特性建立网页主题间的语义链网络,本文定义了网页主题间三种语义链关系:上位关系、下位关系和同位关系,分析了这三种关系的自反性、对称性和传递性特点,以及推导出这三种关系间的九条规则,并引入了产业链中主题间距离的概念。最后,定义了网页间的两种语义关系:相似关系和关联关系,其中相似关系是同一个类别下的网页间存在的关系,而关联关系则是通过网页主题间的语义链网络建立起来的网页间语义关系,针对不同类别下网页间含有的共同关键词比较少的情况,本文还提出了一种空间向量模型间关联关系的

文档评论(0)

kakaxi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档