垂直搜索引擎关键技术研究及分布式实现信息与通信工程专业论文.docxVIP

垂直搜索引擎关键技术研究及分布式实现信息与通信工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垂直搜索引擎关键技术研究及分布式实现信息与通信工程专业论文

Research Research on Key Techniques of Distributed Vectical S earch Engine A Thesis Submitted to S outheast University For the Academic Degree of MasterofEngineering BY 胁Hao Supervised by Prof.Wang Qiao School of Information Science and Engineering Southeast University March 2016 万方数据 万方数据 万方数据 东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究:I:作及取得的研究成果。尽我所 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究:I:作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我~同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生躲舅殳 吼!监!:芏 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相 一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布(包括以电子信息形式刊登)授权东南大 学研究生院办理。 研究生签名:垦L导师签名: 日期: 塑1 6:;:y 万方数据 万方数据 摘要摘要 摘要 摘要 垂直搜索引擎关键技术研究及分布式实现 硕士研究生吴吴导师王桥教授 东南大学信息科学与工程学院 垂直搜索引擎的出现是互联网服务向多样化和专业化发展的必然趋势。垂直搜索引 擎的发展建立在通用搜索引擎的基础上,提供精细化的垂直领域信息挖掘与搜索服务。 本文进行垂直搜索引擎关键技术及分布式研究,从文档主题分类技术、垂直资源挖 掘、主题Ranking模型研究以及分布式设计四个方面展开研究工作。文档主题分类技术 研究着重于借助LDA模型挖掘文档的主题信息、识别文本的语义,强化搜索引擎的理 解能力。而垂直资源挖掘研究则重点关注网络的结构信息和近邻信息,并进行主题网络 爬虫设计。主题Ranking模型研究旨在强化垂直搜索引擎的主题偏向性,保证搜索结果 更具有专业性。研究分布式垂直搜索引擎设计则是为了使系统能够适应实际的大数据应 用场景而提出分布式解决方案。 本文首先阐述了垂直搜索引擎的研究背景、意义以及发展现状,并结合通用搜索引 擎的技术背景对垂直搜索引擎的关键技术和技术特性进行了描述。本文将LDA模型应 用于垂直搜索引擎中的主题资源挖掘和用户语义解读,研究了不同文档主题分布的训练 语料库对LDA模型主题分类性能的影响。然后在LDA主题模型的基础上进行了拓展应 用研究,基于贝叶斯公式提取主题种子词库,并研究得到了基于T-PMI的主题词扩展 方法。垂直搜索引擎区别于通用搜索引擎的一大特点是搜索主题的确定性,主题先验信 息可以帮助我们更好地理解用户查询,本文为此给出了一种主题分词算法,一定程度上 解决了分词多义性的情况。 其次,本文在Shark.Search算法和HITS算法的基础上改进得到了一种基于结构信 息和近邻信息的链接分析算法,以此确立主题爬虫的方向和范围,并提出了自适应主题 爬虫策略,可以在实际的爬取过程中,根据反馈调整爬虫的方向。本文在PageRank算 法基础上引入了主题相关度,给出了主题敏感PageRank算法,该算法摒弃了随机游走 模型,认为用户浏览行为应该具有主题导向,来自同一主题页面的链接更容易被用户点 击到,因此该算法修正了PageRank算法的链接模型,增强了主题相关网页的优先级。 最后本文设计了一种分布式垂直搜索引擎原型,对关键技术进行了分布式研究,提 出了一种分布式主题爬虫框架,对分布式LDA算法的性能进行了验证,并在此基础上 设计了分布式垂直搜索引擎的系统整体框架,同时实现了一个图书搜索实例。 关键词:垂直搜索,主题分词,LDA模型,垂直资源挖掘,PageRank,分布式 东南大学硕士学位论文 东南大学硕士学位论文 II AbstractAbstract Abstract Abstract Research on Key Techniques of Distributed Vectical Search Engine Candidate:Wu Hao,Superv

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档