- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个性化垂直搜索引擎关键技术研究-计算机软件与理论专业论文
Research on Key Technologies of Personalized Vertical Search Engine
A Dissertation submitted in fulfillment of the requirements of the degree of
MASTER OF ENGINEERING SCIENCE
from
Shandong University of Science and Technology
by
Pan Shouhui
Supervisor: Professor Liang Yongquan
College of Information Science and Engineering
May 2009
声 明
本人呈交给山东科技大学的这篇硕士学位论文,除了所列参考文献和世所公认的文 献外,全部是本人在导师指导下的研究成果。该论文资料尚没有呈交于其它任何学术机 关作鉴定。
硕士生签名: 日 期:
AFFIRMATION
I declare that this dissertation, submitted in fulfillment of the requirements for the award of Master of Engineering Science in Shandong University of Science and Technology, is wholly my own work unless referenced of acknowledge. The document has not been submitted for qualification at any other academic institute.
Signature:
Date:
i
i
山东科技大学硕士学位论文 摘要
摘 要
随着 Internet 的快速发展,Web 上的信息量越来越大,为了帮助人们在浩如烟海 的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的 需求越来越专业化、精确化和个性化,Google 等通用搜索引擎暴露出诸多问题。如何 让用户方便、快捷地找到自己需要的信息,成为一个亟待解决的问题。个性化的垂直搜 索引擎能有效地解决了上述问题,正成为人们从互联网上查找信息的一个重要工具。
本文首先介绍了搜索引擎的发展历史、垂直搜索和个性化信息服务的研究现状, 接着深入探讨了构建搜索引擎的核心技术,包括网页抓取技术、信息抽取技术、中文分 词和索引技术等。然后又通过与通用搜索引擎进行对比,简要介绍了构造垂直搜索引擎 需要注意的问题。
本文在分析垂直搜索特点和研究其关键技术的基础上,主要做了以下工作:
(1) 提出了一种构建个性化用户兴趣模型的方法。在构建个性化用户兴趣模型的过 程中,利用用户兴趣树表示用户兴趣,从用户的日常浏览行为中不断挖掘用户兴趣,并 给出了用户兴趣模型的表示和更新机制。
(2) 提出了一种改进的基于 VSM 的垂直搜索检索模型。本文在传统的基于 VSM 的 检索模型的基础上,根据垂直搜索的特点,探讨适合垂直搜索引擎的排序算法,并提出 了一种改进的基于 VSM 的垂直搜索检索模型及其性能评测方法。经实验验证,该方法 具有较高的查准率和查全率。
(3) 设计并实现一个用于抓取工作职位信息的网络爬虫系统 JobSpider。在本文最 后,通过引入一个关于工作职位搜索的实例项目,给出了其基于 Agent 的系统模型的基 本架构,设计并实现一个用于抓取职位信息的网络爬虫系统 JobSpider。经实验验证, 该爬虫系统的具有较好的性能。
关键词:垂直搜索引擎;向量空间模型;用户兴趣模型;网络爬虫
山东科技大学硕士学位论文Ab
山东科技大学硕士学位论文
Abstract
ii
ii
Abstract
With the rapid development of internet, resources on the web are increasingly rich. In order to help people find information in the vast internet, search engines came into being and have been developed rapidly. However, people’s information demands become much more specialized, accruate and personalized. Thus, a number of problems have been exposed in general search engi
您可能关注的文档
- 个人-组织匹配、员工满意度与员工离职意愿的关系研究-企业管理专业论文.docx
- 肝部CT图像中肿瘤的分割方法研究-信号与信息处理专业论文.docx
- 个人主义-集体主义对中美商务谈判影响的比较分析-外国语言文学;英语语言文学专业论文.docx
- 个人主义集体主义对校园背景下的交际风格的影响——以中国和意大利为例外国语言学与应用语言学专业论文.docx
- 个人主义集体主义对团队创造力的影响研究-企业管理专业论文.docx
- 个人主义思想对当代大学生价值取向的研究思想政治教育专业论文.docx
- 个人主义之伦理解析-马克思主义理论与思想政治教育专业论文.docx
- 个人—组织契合度、自我效能感对职业成功影响的研究-企业管理专业论文.docx
- 个人住房抵押贷款保险分析-金融学专业论文.docx
- 个人住房抵押贷款违约风险分析及对策研究——以某国有商业银行为例工商管理专业论文.docx
文档评论(0)