- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种有效专题信息集中和检索策略
一种有效的专题信息集中和检索策略
摘 要:Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。
关键词:HITS算法; 锚文本; 网页标题; 专题相关度; 向量模型; 专题训练集
中图分类号:TP301.6文献标志码:A
文章编号:1001-3695(2010)06-2106-03
doi:10.3969/j.issn.1001-3695.2010.06.032
Effective strategy of topic distillation and retrieval
WANG Yu??xina, LIU Hai??fenga, GUO Heb, CHEN Xinb
(a.School of Electronic Information Engineering, b.School of Software, Dalian University of Technology, Dalian Liaoning 116023, China)
Abstract:The strategy of topic distillation and retrieval on Internet is the key work in research of vertical search engine. HITS algorithm is a classical method for this problem at an earlier time, and some improvements are made by other researchers afterwards. Nevertheless, no matter the theme relation rate or accuracy grade of engine still have room to be improved. This paper proposed a strategy of topic distillation and retrieval by filtering Web pages based on anchor texts and titles combining relation grade of Web pages. Using the topic training collection to judge relation grade could overcome the shortcomings of depending on inquiring strings. The experiment results prove that this strategy can improve the accuracy of topic distillation and retrieval, and reduce the downloaded information of unrelated URLs.
Key words:HITS algorithm; anchor text; Web page title; relation grade of topic; vector model; topic training collection
0 引言
随着Internet资源的高速增长,数据量已经远远超出搜索引擎能覆盖的范围,截至2008年全球因特网资源网页已数以亿计,即使是最著名的Google也只能覆盖全部信息的30%~40%。于是人们越来越难以从通用搜索引擎获取自己需要的某一专题领域的信息,在返回的数千个网页中找到自己需要的那一方面的信息非常困难[1,2]。专题搜索策略的目的就是实现人们对于某一专题领域相关信息的准确定位。
垂直搜索引擎是近几年来展开研究的一个检索模型,它的核心就是专题内容的集中和检索,这种策略又称为专题网络蜘蛛。网络蜘蛛是抓取下载网页连接的程序模型,专题网络蜘蛛则对网页进行预测,赋予不同的优先值,按照与专题领域相关的优先级策略进行抓取下载,以便集中处理相关领域的网页。一个好的专题信息检索策略,既能让最终的检索列表按照网页与主题相关度高低排列等待检索,又能
您可能关注的文档
最近下载
- 人教版(2019)选择性必修第一册Unit 4 Body language Reading and Thinking 课件 (37张ppt)(含音频+视频).pptx VIP
- 安全文明施工方案通用版.docx VIP
- 消毒防腐药质量检测教案.pdf VIP
- 2026年辽宁农业职业技术学院单招职业技能测试必刷测试卷必考题.docx VIP
- 玻璃体腔注射术后护理ppt.pptx
- 工程制图习题集_振宁_习题答案解析.docx VIP
- 2024年新课标全国卷读后续写 公开课课件-2025届高三英语一轮复习.pptx VIP
- 中学生防性骚扰课件视频.pptx VIP
- 农业产业园规划方案.docx VIP
- 妇产科护士进修汇报(1)PPT课件.pptx VIP
文档评论(0)