- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
在Internet 高速发展的时代中,人们通过通用搜索引擎的帮助从浩瀚的信息海洋中寻找
自己需要的信息,但通用搜索引擎因为本身涵盖的信息过于广泛而导致了人们往往不能迅
速准确的搜索到需要的信息,针对这种情况主题搜索引擎诞生了。主题搜索引擎的专业性
和抗干扰性使得检索准确率大大提升。随着网络信息多样化发展,常见的主题搜索有:科
技文档搜索、电影资料搜索、数码时尚搜索、书籍期刊搜索、新闻搜索等。但没有一种主
题搜索引擎技术能适用于所有的主题领域,有些主题领域具有一些与上述主题领域不同的
特点,例如药物商品搜索、职位信息搜索等,这类主题领域的信息同时具有文档结构固定、
多词同义现象严重、查询词在文档中出现少等特点。对于这类特殊主题领域,普通检索技
术往往不能获得良好的检索效果。本文主要工作即针对这类特殊主题搜索引擎的排序、检
索与性能优化算法展开深入研究,主要工作有:
(1)提出了一种能更好的适应特殊主题领域的SPF-PR(Specifically Focused PageRank) 网
页排序算法。PageRank 算法是基于超链接分析技术的页面排序算法,随着网页链接结构的
复杂程度不断增加,PageRank 算法为了适应具体的不同应用需求还需要不断改进和完善。
本文在传统PagerRank 算法的基础上提出了SPF-PR 算法。SPF-PR 算法采用了超链接锚文
本与领域向量之间的相似度来控制传统 PageRank 算法的主题漂移现象,比传统PageRank
算法具有更高的检索性能。
(2)针对特殊主题领域的文档特点设计了SEB-VSM(Seed Extension Based VSM)检索模
型。目前多数搜索引擎采用的VSM (Vector Space Model)检索模型并不适用于某些特殊领域
的检索,本文在VSM 检索模型的基础上设计了SEB-VSM 检索模型来提高特殊主题搜索的
检索性能,解决了VSM 检索模型不适用于特殊主题领域检索的问题。
(3)设计了一种基于Lingo 聚类算法的SEB-VSM 检索模型优化方案,包括特征降维与
相似度优化。基于 Lingo 聚类的特征降维技术降低了文档向量的维度,提高了相似度计算
的执行效率,降低噪音数据对相似度计算的影响;基于 Lingo 聚类算法的相似度优化,减
小相似度计算的误差。经实验证明基于 Lingo 聚类的特征降维与相似度优化能有效的提高
SEB-VSM 检索模型的性能。
最后应用上述改进与优化算法,设计了一个面向特殊主题的搜索引擎系统,采集了大
量网络数据进行测试,实验证明上述改进能在本文研究的特殊主题领域中有效的提高检索
性能,在实际应用中具有较高的实用价值。
关键词:特殊主题;搜索引擎;链接分析;检索模型;聚类分析
II
Abstract
Today is the era of rapid development of Internet, Internets exponential growth of
information to make people hard to find the information what they needs in such a vast ocean of
information. The emergence of general search engines makes this problem has been resolved, but
the general search engines would cover a wide range of information which led to people can not
quickly and accurately search the required information, so the focused search engine was born.
focused search engine with anti-jamming performance of professional and greatly enhance the
retrieval accuracy.
您可能关注的文档
最近下载
- 2024年重庆涪陵公开招聘社区工作者考试试题答案解析.docx VIP
- (新课标新教材)新湘教版数学初中七年级上册1.2.3《绝对值》核心素养型说课稿.doc
- 本量利分析练习题含参考答案.docx VIP
- 广州市南沙区2023-2024学年八年级上学期期末数学易错题整理(含答案).doc VIP
- 《社会学概论》项目四 社会互动与社会角色.pptx
- 混凝土课程设计--连续梁设计.docx VIP
- 四年级高思奥数行程问题三1.pdf VIP
- Unlock2 Unit1 第一篇听力讲解及答案.pptx VIP
- 2023年青少年百科知识竞赛题库及答案(共390题).docx VIP
- 中国溶剂油项目投资计划书.docx
文档评论(0)