垂直搜索引擎在烟草行业的研究与应用-计算机科学与技术专业论文.docxVIP

垂直搜索引擎在烟草行业的研究与应用-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垂直搜索引擎在烟草行业的研究与应用-计算机科学与技术专业论文

学位论文版权使用授权书 本学位论文作者完全了解 浙江理工大学 有权保留并向国家有关 部门或机构送交本论文的复印件和磁盘 ,允许论文被查阅和借阅。 本人授权 浙江理工大学 可以将学位论文的全部或部分内容编入有 关数据库进行检索和传播 ,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名 : 毛补队 签字日期 : 2..b lh 年 3 月 7 日 导阳:切尸 签字日期 : ?以在手月 7 日 摘要 互联网的飞速发展一方面给我们提供了极其丰富的信息,另一方面也加大了 信息过滤的难度。互联网用户越来越依赖于搜索引擎来缩小信息检索的范围,从 而更高效地获取自己感兴趣的内容。但是,用户的期望结果是小而精,通用搜索 引擎追求的目标是大而全,与用户的特定需求南辕北辙。在这种背景下,垂直搜 索引擎应运而生。如果把互联网当作一个服务提供者,则其成熟的一条重要标志 就是由通用化向订制化发展,垂直搜索引擎的出现即是这种转换的具体表现,也 是搜索引擎未来的发展方向。 首先,本文结合互联网的发展史,综述了垂直搜索引擎的出现背景及意义。 以烟草行业为例,深入分析了企业日益增长的信息检索需求与通用搜索引擎固有 局限性之间的矛盾,论证了垂直搜索引擎应用于企业的必要性与可行性。然后结 合笔者在烟草企业的实习经历,设计并实现了一种针对烟草行业的垂直搜索引擎。 在对垂直搜索引擎的整体架构和关键技术充分研究的基础上,提出了一种“三度 过滤”的主题判别方法,并提高了 PageRank 算法在实际应用中的适应性。然后 对开源项目 Lucene 进行了本地化改造,最终开发出一款适用于烟草行业的垂直 搜索引擎。 本文主要研究内容如下: (1)在研习搜索引擎典型架构的基础上,详细阐述了中文分词、倒排索引 和链接分析三项关键技术的实现原理。通过横向对比总结出了各种搜索模型的优 缺点,以布尔模型实现基础的文本筛选,以空间向量模型实现高级的匹配运算, 从而建立起符合烟草行业特点的搜索模型,兼具简单易行和支持相关性评分两方 面优势。 (2)编程模拟了 PageRank 算法的迭代过程,对出链-入链矩阵中的黑洞问 题和 PageRank 向量的数据失衡问题进行了深入的分析。黑洞问题会造成部分网 页垄断 PageRank 得分,使评分结果有失客观性与科学性;而数据失衡问题会造 成迭代过程的收敛速度过慢,无法应用于大规模的计算。本文通过引入马尔科夫 链理论对模型加入两次随机性调整,使之更符合上网者随机浏览网页的过程,从 i 根本上杜绝了黑洞问题的产生并加快了 PageRank 的收敛速度。 (3)提出了一种“三度过滤”的主题判别方法。借助烟草行业的专业词库, 在主题判别的过程中将预判因子、元信息因子、词库因子纳入主题相关度的计算, 有效过滤了与主题无关的网页,大大提高了搜索引擎的查准率。另一方面,该算 法得出的预判因子还用于调整 URL 队列的优先级,帮助主题爬虫优先抓取主题 相关度更高的网页。 (4)通过对 Lucene 源代码的本地化改造,实现了开源项目与系统开发的兼 容性整合。结合原始的空间向量模型,对影响网页欢迎度与主题相关度的各项因 子进行调整,将查询词的词频、词类、通用性以及文档长度纳入综合统计,并对 不同的查询域进行差异化加权,最终得出了符合烟草行业特点的评分公式。 关键词:垂直搜索,PageRank 算法,主题判别,网络爬虫,文档排序 ii Abstract The rapid development of the Internet provides us with the extremely abundant information on one hand, on the other hand it also increase the difficulty of information filtering. Internet users increasingly rely on search engines to narrow the scope of the information retrieval, then get the interesting content in more efficiently. The users expected result is small and exquisite, in contrast to the specific needs of users, the pursuit of general search engine is a large and various set. In this context, the vertical search engi

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档