;!;1嚣躲高薏品藿意.PDFVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
;!;1嚣躲高薏品藿意

第篡囊鑫铲 ;:!;1嚣躲高薏品藿意 V苗筝。裟52004年s月 M1N1一MIcRo SYS。I’EMS ~18y zu”4 =一===============================—===—一 基于Hyperlink和相关度发现Web相关文档的研究 王天江·,叶卫国·,卢正鼎,,李永平2 1(华中科技大学计算机学院,湖北武汉430074) 2(国家药品监督管理局,北京100810) 摘要:分析了web文档的相似度计算方法。提出了web上查询相关信息发现的Sw—HITS算法,它结合了Web超 链接、网页知识表示的信息相关度以及HITs方法束搜索web上相关知识.本文通过它们搜索网上有关医药的信息和 知识,其效果和查准率比传统HITs和IR方法有一定提高. 关饕词:HITs;相似度计算方法;信息检索;VsM 中图分类号:TP391;TP393 文献标识码:A 文章编号;looo—1220(2004)08一0859一o 4 Finding Relevant Documents Using Hyperljnk and Similarity Measure on the Web WANG Tian—jian91.YE Wei—gu01,LU Zheng—din91,Ll Yon窟一pin92 ‘(mp州me£。,co’,节耐fr Sd8ncc,H“n≈bng uHf口e州£y o,Scfcncf口以nc^硼ozo删,u协d肌ki 430074t吼ln口) 2(Sf甜e Dr“g以西”抽z5fnrtzo”,BP讲Hg 100810,(’^i月Ⅱ) Abstract:In this paper we discuss similarity Weighted—HITS(SW—HITS)algorithms in finding releVant d。cuments on the Web.These methods not only use the hyperlinks of web g。aph,but also the similarity scoring。f term weights in document representations. We implement the aIgorithm to find Chinese medical inf。mation from the InterⅡet. Odr study showed that it has better precision than traditional IR methods and basic HITS alogorithms. Key words:HITS;similarity scoring methods;information retrieVal;VSM‘ 1 引 言 人们已经进入信息极大丰富的时代,一方面信息来源广 泛,包括web文档、图书文献、数字化资料等,这些异构的信 息分布在Internet空间中;另一方面信息量巨大.以web文 档为例目前已经拥有3亿页面,而且这个数字仍以每4至6 个月翻一倍的速度增加.面对信息的海洋,人们觉得力不从 心,往往花费了很多时间却所获甚少.在这种情况下如何有效 地提供基于Internet的资源发现服务.以帮助用户从大量信 息资源的集合中找到与给定的查询请求相关的、恰当的资源 子集,也就成为一项重要而迫切的研究课题“1. 传统的搜索引擎,例如AltaVista、GoogIe等。’试图解决 Internet上的资源发现问题,但是从资覆盖度、检索精度、检 索结果可视化、可维护性等诸多方面来看其效果远不能够令 人满意.假设你关注如MED“ne的医疗治疗信息,搜索引擎 通常返回成千上万条记录.而这些记录的相关度差异很大,从 包括专门信息的网站到几乎完全无用的站点.判断一个Web 网页的相关度本身是必须由人工完成的,主要影响判断的因 素有网页的组织、布局以及网页的信息质量;完全由人工进行 的判断在实际中是不可行的. 目前基于web超链接(HyperIjnk)的算法得到了更多关 注,并在解决上述问题中得到了很好的应用.Kleinberg的 mTS。’算法是其中应用比较普遍的、基于网页文档间的链接 来排列文档的算法;它基于如下假设:一个文档如果指向很多 其它文档就认为是一个Hub,一个文档如果被很多其它文档 指向就认为是一个Authority;Hub和Authority之间有互相 增强关联的关系:一个好的Hub指向多个好的Authority,一 个好的Authority指向多个好的Hub.有些研究利用co—cita— tion?和其它类型的连接关系来辑决上述问题,co—citation的 含义在于如果网页A指向网页B和c,那么B

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8016031115000003

1亿VIP精品文档

相关文档