- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垂直搜索引擎关键技术研究及分布式实现信息与通信工程专业论文
Research
Research on Key Techniques of Distributed Vectical S earch Engine
A Thesis Submitted to
S outheast University
For the Academic Degree of MasterofEngineering
BY
胁Hao
Supervised by
Prof.Wang Qiao
School of Information Science and Engineering
Southeast University
March 2016
万方数据
万方数据
万方数据
东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究:I:作及取得的研究成果。尽我所
东南大学学位论文独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究:I:作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我~同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
研究生躲舅殳 吼!监!:芏
东南大学学位论文使用授权声明
东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相 一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布(包括以电子信息形式刊登)授权东南大 学研究生院办理。
研究生签名:垦L导师签名: 日期: 塑1 6:;:y
万方数据
万方数据
摘要摘要
摘要
摘要
垂直搜索引擎关键技术研究及分布式实现
硕士研究生吴吴导师王桥教授 东南大学信息科学与工程学院
垂直搜索引擎的出现是互联网服务向多样化和专业化发展的必然趋势。垂直搜索引 擎的发展建立在通用搜索引擎的基础上,提供精细化的垂直领域信息挖掘与搜索服务。 本文进行垂直搜索引擎关键技术及分布式研究,从文档主题分类技术、垂直资源挖 掘、主题Ranking模型研究以及分布式设计四个方面展开研究工作。文档主题分类技术
研究着重于借助LDA模型挖掘文档的主题信息、识别文本的语义,强化搜索引擎的理
解能力。而垂直资源挖掘研究则重点关注网络的结构信息和近邻信息,并进行主题网络 爬虫设计。主题Ranking模型研究旨在强化垂直搜索引擎的主题偏向性,保证搜索结果
更具有专业性。研究分布式垂直搜索引擎设计则是为了使系统能够适应实际的大数据应
用场景而提出分布式解决方案。
本文首先阐述了垂直搜索引擎的研究背景、意义以及发展现状,并结合通用搜索引 擎的技术背景对垂直搜索引擎的关键技术和技术特性进行了描述。本文将LDA模型应 用于垂直搜索引擎中的主题资源挖掘和用户语义解读,研究了不同文档主题分布的训练 语料库对LDA模型主题分类性能的影响。然后在LDA主题模型的基础上进行了拓展应 用研究,基于贝叶斯公式提取主题种子词库,并研究得到了基于T-PMI的主题词扩展 方法。垂直搜索引擎区别于通用搜索引擎的一大特点是搜索主题的确定性,主题先验信
息可以帮助我们更好地理解用户查询,本文为此给出了一种主题分词算法,一定程度上
解决了分词多义性的情况。 其次,本文在Shark.Search算法和HITS算法的基础上改进得到了一种基于结构信
息和近邻信息的链接分析算法,以此确立主题爬虫的方向和范围,并提出了自适应主题 爬虫策略,可以在实际的爬取过程中,根据反馈调整爬虫的方向。本文在PageRank算 法基础上引入了主题相关度,给出了主题敏感PageRank算法,该算法摒弃了随机游走
模型,认为用户浏览行为应该具有主题导向,来自同一主题页面的链接更容易被用户点
击到,因此该算法修正了PageRank算法的链接模型,增强了主题相关网页的优先级。 最后本文设计了一种分布式垂直搜索引擎原型,对关键技术进行了分布式研究,提
出了一种分布式主题爬虫框架,对分布式LDA算法的性能进行了验证,并在此基础上 设计了分布式垂直搜索引擎的系统整体框架,同时实现了一个图书搜索实例。
关键词:垂直搜索,主题分词,LDA模型,垂直资源挖掘,PageRank,分布式
东南大学硕士学位论文
东南大学硕士学位论文
II
AbstractAbstract
Abstract
Abstract
Research on Key Techniques of Distributed Vectical Search Engine
Candidate:Wu Hao,Superv
您可能关注的文档
- 基于历代医案数据库整理和临床问卷调查的月经量色症状规范的分析中医基础理论专业论文.docx
- fucoxanthin治疗胶质母细胞瘤及其分子机制的研究外科学专业论文.docx
- 充填法回收程潮铁矿保安矿柱的采场矿柱合理尺寸计算模型研究矿业工程专业论文.docx
- 不同基因型的丙肝病毒ns5a蛋白与pi4kb竞争结合acbd3的研究病原生物学专业论文.docx
- 硼钢高温本构方程及基于lemaitre理论的损伤演化模型工程力学专业论文.docx
- 企业人力资源管理系统的设计与实现软件工程专业论文.docx
- 沸腾炉掺烧半干法烧结烟气脱硫灰制备so2的应用基础研究冶金工程专业论文.docx
- 反式桂皮酸自微乳制剂及其抗糖尿病药效学研究制药工程专业论文.docx
- 半挂汽车列车的平顺性虚拟仿真与试验研究车辆工程专业论文.docx
- 变形速率对镁合金变形行为的影响及退孪生的研究材料物理与化学专业论文.docx
- cep55在pno期食管鳞癌的表达及意义外科学胸外科专业论文.docx
- gnss接收机多路径噪声影响及其消除方法的研究电子与通信工程专业论文.docx
- 脑血管病卧床患者肺部动态ct变化及拍背护理对肺炎预防和治疗作用价值的ct研究影像医学与核医学专业论文.docx
- 商丘网通固网网络转型的研究和实现电子与通信工程专业论文.docx
- 全双工无线通信系统的自干扰消除技术研究通信与信息系统专业论文.docx
- 额颞部皮肤软组织静脉回流模式的解剖学研究和临床应用研究外科学整形外科学专业论文.docx
- 洛南栾川断裂带栾川段变质变形及形成环境研究地质工程专业论文.docx
- 两种蛙吸虫和绦虫的感染调查及种类鉴定动物学专业论文.docx
- 船舶尾管后轴承润滑油膜特性对轴系校中影响研究船舶与海洋工程专业论文.docx
- 东方巴贝斯虫顶质体基因组的测序分析及ron2在入侵中作用的研究预防兽医学专业论文.docx
最近下载
- 除颤仪的使用方法及操作流程PPT课件.pptx VIP
- (完整版)土建工程师招聘笔试题和答案.pdf VIP
- 网络意识形态工作.pptx VIP
- 2025广西公需科目考试答案(3套,涵盖95_试题)一区两地一园一通道建设;人工智能时代的机遇与挑战.pdf VIP
- 2025年班组长成本绩效管理能力竞赛考试题库资料500题(含答案).pdf VIP
- 除颤仪的使用方法及操作流程PPT课件.pptx VIP
- 六安市霍邱县2022-2023学年七年级下学期期中数学试题【带答案】.docx VIP
- 医防融合的课件.pptx VIP
- 生物大分子中IPTG的含量测定方法.pdf VIP
- 意识形态工作培训.pptx VIP
文档评论(0)