个性化索要素.docVIP

下载本文档

3
0
约1.89万字
约 5页
2017-06-15 发布于河南
举报
版权申诉

个性化索要素.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

个性化索要素

摘要本文针对目前搜索引擎存在的不足，分析了个性化搜索引擎的发展现状；探讨了个性化研究的基本问题，深入分析了建立个性化服务的关键技术，并提出了基于内容过滤的个性化搜索引擎的设计思路。关键词：个性化；搜索引擎；基于内容过滤；Goolgle API 一、研究背景互联网已经成为我们生活中不可缺少的一部分，产生这种结果的原因就是搜索引擎的诞生。中国互联网络信息中心（CNNIC）发布的“2007年中国搜索引擎市场调查报告”中显示，44.71%的网民经常使用(每天多次使用)搜索引擎。可见它在互联网用户的网络使用中起到了举足轻重的作用。但从另一方面，我们可以看到，目前搜索引擎仍然存在不少局限性。二、传统搜索引擎的不足搜索引擎随着技术的进步，功能不断升级，传统搜索引擎日益暴露出以下问题：（1）搜索的精度差。人们由于年龄、性别、职业、学历、爱好等的不同，各自感兴趣的领域也随之不同，而目前传统搜索引擎不能体现用户的信息需求个性；且由于中文关键字一词多义的特性，使得搜索返回的结果中常常包含着许多无关的信息，用户只能亲自从大量的反馈信息中提取自己所需的信息，浪费了用户大量的时间与精力。（2）有限的查询方式。现在的搜索引擎基本都采用“一个搜索适用所有用户”的模型。用户想要获得自己所需的信息，只有在搜索引擎中键入关键字才能得到，导致查询请求的表达能力有限。不同的用户提交相同的关键字进行查询时，搜索引擎返回的结果相同。（3）搜索的覆盖面有限。虽然现在广泛应用的各个搜索引擎都保存有极大的信息量，但是相对整个Internet的信息量而言仍然很小。据权威统计，目前搜集网页最多的搜索引擎AltaVista也只能达到信息量的40%左右。因此用户经常采用多个搜索引擎进行查询，以提高检索的查全率。三、个性化搜索引擎的提出传统搜索引擎的工作流程，通常是通过robot或spider爬取、下载Internet上的文档，进行过滤、分词、转换等处理工作。然后对文档信息进行预处理和形式化描述，抽取特征并进行索引。个性化搜索引擎就是在传统搜索引擎的基础进行功能改进和扩展，其工作流程如图所示。（1）用户向搜索引擎递交关键字查询。（2）利用公共API接口搜索得到初步结果集，此初步结果集并不马上反馈给用户，而是继续进一步到后台处理。（3）将初步结果集自动存储到数据库，计算初始化Rank值，形成结果集描述。（4）从数据库分别提取用户模型以及结果集描述，为下一步过滤提供数据。（5）信息过滤可分为内容过滤、协作过滤两部分。分别将用户模型和结果集描述、用户模型和其他用户模型进行匹配，对于匹配成功的结果，增加其Rank值。（6）得到新的Rank值，按值的大小进行排序、分页、输出个性化结果集，显示给用户。（7）用户还可在浏览个性化搜索结果集后，并对其进行评价打分，对于不好的结果可删除。（8）用户模型由用户信息初步建立，利用Web日志挖掘、用户评价，以及其他途径完善用户模型。要实现上面所述的个性化搜索引擎工作流程，涉及到三个关键技术：（1）Web信息资源描述与信息获取 Web信息资源描述必须尽量准确，信息的获取要尽量满足用户的需求，对于个性化搜索引擎来说，如果再自行建立一个信息索引库，费时、费力，在广度和深度上肯定都不及现有搜索引擎。所以笔者建议个性化搜索引擎可直接利用现有Google API接口，直接调用公共搜索引擎的数十亿索引库。（2）用户个性化模型描述与构建用户个性化模型首先要与信息描述相一致，这样才能进行匹配过滤。其次模型的构建要全面，如上面2.2中所述，用户个性化模型可从四方面进行构建，他们可分为显示建立和隐式构建。显示构建包括用户主动提供信息，对个性化结果集的评价，隐式构建包括Web日志挖掘及其他途径。通过这些方法将不断更新、优化用户模型，确切的描述用户需求。（3）个性化信息匹配过滤这是输出结果前的最后一个关键步骤，信息过滤分基于内容过滤和协作过滤。内容过滤，对初步结果集的每一条记录与用户模型进行匹配，当某条搜索结果与用户兴趣相匹配时，增加该搜索结果的Rank值。协作过滤，选择和该用户模型相仿的其他用户模型，对于两者的差别与结果集进行匹配，增加匹配结果的Rank值，此方法得到的是该用户可能感兴趣的内容。 3.1? Web信息的获取与存储要建立个性化搜索引擎，首先要对Web信息进行信息获取与资源描述。Google作为当前信息搜索的第一大提供商，它的信息索引库是相当庞大的，目前国内许多的搜索信息实际上也是使用了Google的索引库。因此，笔者建议通过Google API技术从Google服务商获取原始的Web信息，再对其进行描述存储。获取信息的工作流程如图所示。使用API获取信息可细化为三个步骤。（1）设置参数初始值在搜索前，先设定