面向主题的信息检索.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向主题的信息检索.doc

面向主题的信息检索   摘 要:随着互联网业务的蓬勃发展,互联网上的信息也随之迅速膨胀。在这纷繁的数据海洋中,如何准确而有效地检索用户想要的有用的信息成为当今研究的热点。为解决通用搜索引擎存在的一些不足,设计了面向主题的信息检索系统。此系统能高效地检索并返回主题信息,帮助用户更精确、更快速地找到有用信息。   关键词:信息检索;爬行器;主题   中图分类号:TP393.094 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.046   0 引言   随着互联网的发展,网上的信息越来越丰富,互联网成为人们获取相关信息的主要途径之一。但是,随着应用的深入,一些问题也暴露出来,当前的搜索引擎都是通用的搜索引擎,就是说基本上都是面向所有用户的。无法满足用户的个性化需求,面向主题的搜索应运而生,逐渐成为信息检索的研究重点领域。   主题爬行最早由De.Bra[1]提出的,研究者通过分类的方法来判断网页的相关性。M.Hersovici等人[2]在此方法的基础上进行了扩展,综合计算网页以及锚文本的相关度。同时,对页面中的URLs依据优先权进行排序,然后乘上一个系数以平衡上级页面的相关性。与De.Bra的研究相比,这个方面通过SVM模型实现,向量的分量的取值在0和1之间,同时,在计算相关度是考虑了锚文本和上下文的信息。J.Cho[3]等人在爬行策略宽度优先算法上进行了优化,虽然改进不大,但是这个研究在度量URLs的分值时引入了PageRank[4]方法。   1 实验系统的结构   实验系统主要功能是提供网页信息的采集、解析、检索功能。该系统对解析后的文本信息进行处理,建立文本信息的主题概念索引用于检索,实验系统的总体功能框架是建立在主题网络爬虫从网络上采集并进行初步分类的网页数据库基础上。   2 验结果与分析   本研究采用检索结果与百度的搜索结果来进行比较。把查询输入到百度中来检索,把百度的检索结果的前50个链接下载下来,以此作为系统的数据集。然后把本系统的检索结果与百度的前10个结果或前20个结果进行比较。由于这里是进行实验分析,在结果显示中url用网页的DocId表示。   从图1的检索结果看,检索花费了16毫秒。在百度的检索结果中,排在第4和第6的结果与主题关联性不好。由于本研究引入了主题信息,因此在检索结果中与主题高度相关的链接都排在了前面。   通过对实验结果的分析表明通过引入主题信息的爬行器与通用爬行器相比,相关网页的数量有了显著的提高,从而提高的检索的效果。   3 结束语   本章介绍了面向主题的信息检索系统的检索部分的设计和实现。在实验中以通用搜索引擎作为对比。通过实验结果可以看出,面向主题的检索系统能够得到更相关的检索结果。   参考文献   [1] P. D. Bra, G. Houben, Y. Kornatzky, et al. Information Retrieval in Distributed Hypertexts. In Procs. of the 4th RIAO Conference. New York, 1994:481-491   [2] M. Hersovici, M. Jacovi, Y. S.Maarek, et al. The Shark-search Algorithm. an Application: Tailored Web Site Mapping. Proceedings of the 7th International World-wide Web Conference. 1998:317-326   [3] J. Cho. Efficient Crawling Through URL Ordering. Computer Networks and ISDN Systems. 1998, 30(1-7):161-172   [4] L. Page, S.Brin, R. Motwani, et al. The Pagerank Citation Ranking:bringing Order to the Web. Stanford digital library technologies project, 1998

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档