基于用户兴趣模型的个性化搜索引擎研究与分析-计算机应用技术专业论文.docxVIP

基于用户兴趣模型的个性化搜索引擎研究与分析-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
V V HYPERLINK \l _bookmark0 5.6 本章小结37 参考文献错误!未定义书签。38 HYPERLINK \l _bookmark1 致谢 …………………………………………………………………………………………...41 HYPERLINK \l _bookmark2 个人简历 在学期间发表的学术论文与研究成果 42 PAGE PAGE 10 第一章 绪论 搜索引擎作为网络信息查询的主要工具,它从全文检索技术发展过来,经过十多年的 发展,越来越靠近用户的需求。目前,搜索引擎技术已经成为一个热门的研究和开发的热 点方向之一。搜索引擎的出现,联通了 Internet 上绝大部分的信息资源,并为用户提供了信 息导航和信息搜索服务,让大多数用户可以方便地访问有用的资料,已广泛受到用户和开 发商的认可。 1.1 研究背景 随着 Internet 技术的飞速发展,使得信息资源在网络中有一个爆炸性增长的趋势,例如, 在 2005 年,Google 查询的网页数量已到达 60 亿[1]。百度所能搜索的中文网页数量已经超 过 8.0 亿[2]。这么多丰富的知识给我们带来方便的同时,也暴露出一些需要解决的问题。如 何在这样的一个环境中找到我们所需要的知识,并从中提取有价值的知识,已经成为当前 搜索引擎、人工智能、数据挖掘和知识管理等研究领域的重要课题。因此,许多搜索引擎 应运而生。 搜索引擎是以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织 和处理,并为用户提供信息检索服务[3]。由于网络中的信息处理不断更新中,这样使得搜 索引擎已经难以提供高品质,全面和及时更新的信息搜索服务。现在社会已经进入了“数 据爆炸”和“信息丰富,知识贫困”的社会[4]。如何提供优质的搜索结果给用户,已经成 为搜索引擎有关技术的发展之一。 以谷歌和百度为代表的搜索引擎已经被广大用户所熟知。有基于关键字、多功能性、 和通用性等特点。然而,用户对于一个查询请求返回几百万,甚至上千万的 HTML 文档, 用户需要花费大量的时间来查询所需要的信息和有价值的信息,用户也面临着“信息迷失” 和“资源过载“等方面的问题[5]。信息迷失就是用户在复杂的 Internet 网状结构上迷失了方 向。信息超载是由于 Internet 提供的信息广泛、复杂等特点。互联网上的信息太复杂,具有 不稳定性和变化快的特点。因此,用户在面对一个复杂的网络空间,和信息的海洋,用户 经常感到无从下手,不知道应该怎么样获取自己所需要的内容。传统的搜索引擎没有考虑 用户的背景、年龄和性别等方面的信息。不同的用户检索同样的一个关键词返回的都是同 样的结果,这样使得传统搜索引擎不能反映用户的个性化需求。因此,个性化搜索引擎技 术已经成为当前研究的重点之一。 个性化搜索引擎就是针对用户的不同需求时,根据用户背景和其用户群喜好主动为用 户推荐满足用户潜在兴趣的资源。如果 A 是程序员,而 B 是一位喜欢喝咖啡的老人,他们 搜索“Java”关键字。程序员想要找的是关于 Java 方面的程序、书籍、视频之类的,老人 则想要找到是咖啡。对此,我们认为两者的需求不同,而现有的搜索引擎在输入相同关键 字“Java”时,返回的结果是没有区别的。搜索引擎没有判断这些信息是否真的符合用户 所需,没有考虑用户的背景、爱好等属性。 个性化搜索引擎需要建立用户兴趣模型,分析用户爱好。并把用户感兴趣的资源,和 对用户有用的信息提交给用户。它能够自动学习、更新用户兴趣等能力,从而能够为用户 提供个性化服务。在当今这个开放的信息服务市场环境里,用户的需求已经成为搜索引擎 不断发展的动力,各个行业都已“以用户为中心”作为自己的服务理念。 1.2 研究意义 根据第 26 次中国互联网发展状况统计报告,截至 2010 年 6 月底,中国网民规模达到 4.2 亿,突破了 4 亿关口,互联网普及率攀升至 31.8%,较 2009 年底提高 2.9 个百分点。宽 带网民规模为 36381 万,使用电脑上网的群体中宽带普及率已经达到 98.1%。农村网民规 模达到 11508 万,占整体网民的 27.4%,半年增长 7.7%。搜索引擎的应用是用户获取信息 的主要渠道之一,使用率达到 76.3%,并有上升的趋势[6]。 搜索引擎经历了目录式搜索引擎,全文搜索引擎,元搜索引擎三个阶段这三个发展阶 段。 目录式搜索引擎也称为按主题检索搜索引擎,它将信息按照不同的类别分类。用户一 般采用按层浏览目录,从上到下逐步求精的方法来查找合适的信息直到找到具体的信息。 机器人搜索引擎也称为按关键字查询的搜索引擎,首先它利用一个叫 spider 的程序把 Internet 上的网页抓取下来,然后对其数据库中的网页进行查找。元搜

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档