个性化索要素.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
个性化索要素

摘要 本文针对目前搜索引擎存在的不足,分析了个性化搜索引擎的发展现状;探讨了个性化研究的基本问题,深入分析了建立个性化服务的关键技术,并提出了基于内容过滤的个性化搜索引擎的设计思路。 关键词:个性化;搜索引擎;基于内容过滤;Goolgle API 一、研究背景 互联网已经成为我们生活中不可缺少的一部分,产生这种结果的原因就是搜索引擎的诞生。中国互联网络信息中心(CNNIC)发布的“2007年中国搜索引擎市场调查报告”中显示,44.71%的网民经常使用(每天多次使用)搜索引擎。可见它在互联网用户的网络使用中起到了举足轻重的作用。但从另一方面,我们可以看到,目前搜索引擎仍然存在不少局限性。 二、传统搜索引擎的不足 搜索引擎随着技术的进步,功能不断升级,传统搜索引擎日益暴露出以下问题: (1) 搜索的精度差。人们由于年龄、性别、职业、学历、爱好等的不同,各自感兴趣的领域也随之不同,而目前传统搜索引擎不能体现用户的信息需求个性;且由于中文 关键字一词多义的特性,使得搜索返回的结果中常常包含着许多无关的信息,用户只能亲自从大量的反馈信息中提取自己所需的信息,浪费了用户大量的时间与精 力。 (2)有限的查询方式。现在的搜索引擎基本都采用“一个搜索适用所有用户”的模型。用户想要获得自己所需的信息,只有在搜索引擎中键入关键字才能得到,导致查询请求的表达能力有限。不同的用户提交相同的关键字进行查询时,搜索引擎返回的结果相同。 (3)搜索的覆盖面有限。虽然现在广泛应用的各个搜索引擎都保存有极大的信息量,但是相对整个Internet的信息量而言仍然很小。据权威统计,目前搜集网页最多的搜索引擎AltaVista也只能达到信息量的40%左右。因此用户经常采用多个搜索引擎进行查询,以提高检索的查全率。 三、个性化搜索引擎的提出 传统搜索引擎的工作流程,通常是通过robot或spider爬取、下载Internet上的文档,进行过滤、分词、转换等处理工作。然后对文档信息进行预处理和形式化描述,抽取特征并进行索引。 个性化搜索引擎就是在传统搜索引擎的基础进行功能改进和扩展,其工作流程如图所示。 (1)用户向搜索引擎递交关键字查询。 (2)利用公共API接口搜索得到初步结果集,此初步结果集并不马上反馈给用户,而是继续进一步到后台处理。 (3)将初步结果集自动存储到数据库,计算初始化Rank值,形成结果集描述。 (4)从数据库分别提取用户模型以及结果集描述,为下一步过滤提供数据。 (5)信息过滤可分为内容过滤、协作过滤两部分。分别将用户模型和结果集描述、用户模型和其他用户模型进行匹配,对于匹配成功的结果,增加其Rank值。 (6)得到新的Rank值,按值的大小进行排序、分页、输出个性化结果集,显示给用户。 (7)用户还可在浏览个性化搜索结果集后,并对其进行评价打分,对于不好的结果可删除。 (8)用户模型由用户信息初步建立,利用Web日志挖掘、用户评价,以及其他途径完善用户模型。 要实现上面所述的个性化搜索引擎工作流程,涉及到三个关键技术: (1)Web信息资源描述与信息获取 Web信息资源描述必须尽量准确,信息的获取要尽量满足用户的需求,对于个性化搜索引擎来说,如果再自行建立一个信息索引库,费时、费力,在广度和深度上肯定都不及现有搜索引擎。所以笔者建议个性化搜索引擎可直接利用现有Google API接口,直接调用公共搜索引擎的数十亿索引库。 (2)用户个性化模型描述与构建 用户个性化模型首先要与信息描述相一致,这样才能进行匹配过滤。其次模型的构建要全面,如上面2.2中所述,用户个性化模型可从四方面进行构建,他们可分为显示建立和隐式构建。显示构建包括用户主动提供信息,对个性化结果集的评价,隐式构建包括Web日志挖掘及其他途径。通过这些方法将不断更新、优化用户模型,确切的描述用户需求。 (3)个性化信息匹配过滤 这是输出结果前的最后一个关键步骤,信息过滤分基于内容过滤和协作过滤。内容过滤,对初步结果集的每一条记录与用户模型进行匹配,当某条搜索结果与用户兴趣相匹配时,增加该搜索结果的Rank值。协作过滤,选择和该用户模型相仿的其他用户模型,对于两者的差别与结果集进行匹配,增加匹配结果的Rank值,此方法得到的是该用户可能感兴趣的内容。 3.1? Web信息的获取与存储 要建立个性化搜索引擎,首先要对Web信息进行信息获取与资源描述。Google作为当前信息搜索的第一大提供商,它的信息索引库是相当庞大的,目前国内许多的搜索信息实际上也是使用了Google的索引库。因此,笔者建议通过Google API技术从Google服务商获取原始的Web信息,再对其进行描述存储。获取信息的工作流程如图所示。 使用API获取信息可细化为三个步骤。 (1)设置参数初始值 在搜索前,先设定

文档评论(0)

ybcm963 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档