- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
V
V
HYPERLINK \l _bookmark0 5.6 本章小结37
参考文献错误!未定义书签。38
HYPERLINK \l _bookmark1 致谢 …………………………………………………………………………………………...41
HYPERLINK \l _bookmark2 个人简历 在学期间发表的学术论文与研究成果 42
PAGE
PAGE 10
第一章 绪论
搜索引擎作为网络信息查询的主要工具,它从全文检索技术发展过来,经过十多年的 发展,越来越靠近用户的需求。目前,搜索引擎技术已经成为一个热门的研究和开发的热 点方向之一。搜索引擎的出现,联通了 Internet 上绝大部分的信息资源,并为用户提供了信 息导航和信息搜索服务,让大多数用户可以方便地访问有用的资料,已广泛受到用户和开 发商的认可。
1.1 研究背景
随着 Internet 技术的飞速发展,使得信息资源在网络中有一个爆炸性增长的趋势,例如, 在 2005 年,Google 查询的网页数量已到达 60 亿[1]。百度所能搜索的中文网页数量已经超
过 8.0 亿[2]。这么多丰富的知识给我们带来方便的同时,也暴露出一些需要解决的问题。如 何在这样的一个环境中找到我们所需要的知识,并从中提取有价值的知识,已经成为当前 搜索引擎、人工智能、数据挖掘和知识管理等研究领域的重要课题。因此,许多搜索引擎 应运而生。
搜索引擎是以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织 和处理,并为用户提供信息检索服务[3]。由于网络中的信息处理不断更新中,这样使得搜 索引擎已经难以提供高品质,全面和及时更新的信息搜索服务。现在社会已经进入了“数 据爆炸”和“信息丰富,知识贫困”的社会[4]。如何提供优质的搜索结果给用户,已经成 为搜索引擎有关技术的发展之一。
以谷歌和百度为代表的搜索引擎已经被广大用户所熟知。有基于关键字、多功能性、 和通用性等特点。然而,用户对于一个查询请求返回几百万,甚至上千万的 HTML 文档, 用户需要花费大量的时间来查询所需要的信息和有价值的信息,用户也面临着“信息迷失” 和“资源过载“等方面的问题[5]。信息迷失就是用户在复杂的 Internet 网状结构上迷失了方 向。信息超载是由于 Internet 提供的信息广泛、复杂等特点。互联网上的信息太复杂,具有 不稳定性和变化快的特点。因此,用户在面对一个复杂的网络空间,和信息的海洋,用户 经常感到无从下手,不知道应该怎么样获取自己所需要的内容。传统的搜索引擎没有考虑 用户的背景、年龄和性别等方面的信息。不同的用户检索同样的一个关键词返回的都是同 样的结果,这样使得传统搜索引擎不能反映用户的个性化需求。因此,个性化搜索引擎技 术已经成为当前研究的重点之一。
个性化搜索引擎就是针对用户的不同需求时,根据用户背景和其用户群喜好主动为用 户推荐满足用户潜在兴趣的资源。如果 A 是程序员,而 B 是一位喜欢喝咖啡的老人,他们 搜索“Java”关键字。程序员想要找的是关于 Java 方面的程序、书籍、视频之类的,老人 则想要找到是咖啡。对此,我们认为两者的需求不同,而现有的搜索引擎在输入相同关键 字“Java”时,返回的结果是没有区别的。搜索引擎没有判断这些信息是否真的符合用户 所需,没有考虑用户的背景、爱好等属性。
个性化搜索引擎需要建立用户兴趣模型,分析用户爱好。并把用户感兴趣的资源,和
对用户有用的信息提交给用户。它能够自动学习、更新用户兴趣等能力,从而能够为用户 提供个性化服务。在当今这个开放的信息服务市场环境里,用户的需求已经成为搜索引擎 不断发展的动力,各个行业都已“以用户为中心”作为自己的服务理念。
1.2 研究意义
根据第 26 次中国互联网发展状况统计报告,截至 2010 年 6 月底,中国网民规模达到
4.2 亿,突破了 4 亿关口,互联网普及率攀升至 31.8%,较 2009 年底提高 2.9 个百分点。宽 带网民规模为 36381 万,使用电脑上网的群体中宽带普及率已经达到 98.1%。农村网民规 模达到 11508 万,占整体网民的 27.4%,半年增长 7.7%。搜索引擎的应用是用户获取信息 的主要渠道之一,使用率达到 76.3%,并有上升的趋势[6]。
搜索引擎经历了目录式搜索引擎,全文搜索引擎,元搜索引擎三个阶段这三个发展阶 段。
目录式搜索引擎也称为按主题检索搜索引擎,它将信息按照不同的类别分类。用户一
般采用按层浏览目录,从上到下逐步求精的方法来查找合适的信息直到找到具体的信息。 机器人搜索引擎也称为按关键字查询的搜索引擎,首先它利用一个叫 spider 的程序把 Internet 上的网页抓取下来,然后对其数据库中的网页进行查找。元搜
您可能关注的文档
- 基于序列二次规划算法的电力系统综合无 功优化-电力系统及其自动化专业论文.docx
- 基于异业联盟的工行黑龙江分行信用卡业务发展策略研究-工商管理专业论文.docx
- 基于语料库的达沃斯论坛汉英口译语篇分析-英语语言文学专业论文.docx
- 基于相关性理论的操作风险度量模型分析-技术经济及管理专业论文.docx
- 基于循环经济的山西焦化企业发展战略研究-企业管理专业论文.docx
- 基于同仁堂分拆上市财务效应的案例研究-会计学专业论文.docx
- 基于位运算的关联规则挖掘算法问题研究-计算机软件与理论专业论文.docx
- 基于现代大学治理理论的独立学院教育质量保障体系研究-公共管理专业论文.docx
- 基于循环经济的产业结构调整研究(1)-管理科学与工程专业论文.docx
- 基于循环经济的产业结构调整研究-管理科学与工程专业论文.docx
- 基于增权理论的海岛社区参与旅游研究旅游管理专业论文.docx
- 基于语类教学法的高中英语议论文写作教学策略研究-教育专业论文.docx
- 基于双线性对的数字签名方案的研究-基础数学专业论文.docx
- 基于心理契约的家族企业职业经理人的激励研究-管理学、企业管理专业论文.docx
- 基于用例的软件成本估算分析-计算机应用技术专业论文.docx
- 基于双边市场理论的视频网站定价模型研究产业经济学专业论文.docx
- 基于政府监管的出口企业质量安全保证能力评价研究-公共管理专业论文.docx
- 基于语义分析的汉语短语识别方法分析-计算机软件与理论专业论文.docx
- 基于语料库的英语中动结构副词研究-英语语言文学专业论文.docx
- 基于战略的上海市路灯管理中心人力资源规划工商管理专业论文.docx
原创力文档


文档评论(0)