- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
个性化索要素
摘要
本文针对目前搜索引擎存在的不足,分析了个性化搜索引擎的发展现状;探讨了个性化研究的基本问题,深入分析了建立个性化服务的关键技术,并提出了基于内容过滤的个性化搜索引擎的设计思路。
关键词:个性化;搜索引擎;基于内容过滤;Goolgle API
一、研究背景
互联网已经成为我们生活中不可缺少的一部分,产生这种结果的原因就是搜索引擎的诞生。中国互联网络信息中心(CNNIC)发布的“2007年中国搜索引擎市场调查报告”中显示,44.71%的网民经常使用(每天多次使用)搜索引擎。可见它在互联网用户的网络使用中起到了举足轻重的作用。但从另一方面,我们可以看到,目前搜索引擎仍然存在不少局限性。
二、传统搜索引擎的不足
搜索引擎随着技术的进步,功能不断升级,传统搜索引擎日益暴露出以下问题:
(1) 搜索的精度差。人们由于年龄、性别、职业、学历、爱好等的不同,各自感兴趣的领域也随之不同,而目前传统搜索引擎不能体现用户的信息需求个性;且由于中文 关键字一词多义的特性,使得搜索返回的结果中常常包含着许多无关的信息,用户只能亲自从大量的反馈信息中提取自己所需的信息,浪费了用户大量的时间与精 力。
(2)有限的查询方式。现在的搜索引擎基本都采用“一个搜索适用所有用户”的模型。用户想要获得自己所需的信息,只有在搜索引擎中键入关键字才能得到,导致查询请求的表达能力有限。不同的用户提交相同的关键字进行查询时,搜索引擎返回的结果相同。
(3)搜索的覆盖面有限。虽然现在广泛应用的各个搜索引擎都保存有极大的信息量,但是相对整个Internet的信息量而言仍然很小。据权威统计,目前搜集网页最多的搜索引擎AltaVista也只能达到信息量的40%左右。因此用户经常采用多个搜索引擎进行查询,以提高检索的查全率。
三、个性化搜索引擎的提出
传统搜索引擎的工作流程,通常是通过robot或spider爬取、下载Internet上的文档,进行过滤、分词、转换等处理工作。然后对文档信息进行预处理和形式化描述,抽取特征并进行索引。
个性化搜索引擎就是在传统搜索引擎的基础进行功能改进和扩展,其工作流程如图所示。
(1)用户向搜索引擎递交关键字查询。
(2)利用公共API接口搜索得到初步结果集,此初步结果集并不马上反馈给用户,而是继续进一步到后台处理。
(3)将初步结果集自动存储到数据库,计算初始化Rank值,形成结果集描述。
(4)从数据库分别提取用户模型以及结果集描述,为下一步过滤提供数据。
(5)信息过滤可分为内容过滤、协作过滤两部分。分别将用户模型和结果集描述、用户模型和其他用户模型进行匹配,对于匹配成功的结果,增加其Rank值。
(6)得到新的Rank值,按值的大小进行排序、分页、输出个性化结果集,显示给用户。
(7)用户还可在浏览个性化搜索结果集后,并对其进行评价打分,对于不好的结果可删除。
(8)用户模型由用户信息初步建立,利用Web日志挖掘、用户评价,以及其他途径完善用户模型。
要实现上面所述的个性化搜索引擎工作流程,涉及到三个关键技术:
(1)Web信息资源描述与信息获取
Web信息资源描述必须尽量准确,信息的获取要尽量满足用户的需求,对于个性化搜索引擎来说,如果再自行建立一个信息索引库,费时、费力,在广度和深度上肯定都不及现有搜索引擎。所以笔者建议个性化搜索引擎可直接利用现有Google API接口,直接调用公共搜索引擎的数十亿索引库。
(2)用户个性化模型描述与构建
用户个性化模型首先要与信息描述相一致,这样才能进行匹配过滤。其次模型的构建要全面,如上面2.2中所述,用户个性化模型可从四方面进行构建,他们可分为显示建立和隐式构建。显示构建包括用户主动提供信息,对个性化结果集的评价,隐式构建包括Web日志挖掘及其他途径。通过这些方法将不断更新、优化用户模型,确切的描述用户需求。
(3)个性化信息匹配过滤
这是输出结果前的最后一个关键步骤,信息过滤分基于内容过滤和协作过滤。内容过滤,对初步结果集的每一条记录与用户模型进行匹配,当某条搜索结果与用户兴趣相匹配时,增加该搜索结果的Rank值。协作过滤,选择和该用户模型相仿的其他用户模型,对于两者的差别与结果集进行匹配,增加匹配结果的Rank值,此方法得到的是该用户可能感兴趣的内容。
3.1? Web信息的获取与存储
要建立个性化搜索引擎,首先要对Web信息进行信息获取与资源描述。Google作为当前信息搜索的第一大提供商,它的信息索引库是相当庞大的,目前国内许多的搜索信息实际上也是使用了Google的索引库。因此,笔者建议通过Google API技术从Google服务商获取原始的Web信息,再对其进行描述存储。获取信息的工作流程如图所示。
使用API获取信息可细化为三个步骤。
(1)设置参数初始值
在搜索前,先设定
您可能关注的文档
- 业绩是以调出来的.doc
- 两个运但相互静止的电荷的吸引问题.doc
- 两面三正解.doc
- 两面人Microsoft Word 文档.doc
- 两汉经的发展和丝绸之路.ppt
- 两面成.doc
- 两面垂的性质.ppt
- 丧葬用的正确写法.doc
- 严格执考核促进规范执法.doc
- 个人劳防护用品的正确使用.ppt
- 2025年天津市冷链物流基地配套道路建设可行性研究报告.docx
- 2025年天津市母婴护理会所专业化服务升级路径可行性研究报告.docx
- 2025年成都市私立医院医美抗衰中心创建可行性研究报告.docx
- 2025年成都市淡化海水在城市道路清洗领域的应用可行性研究报告.docx
- 2025年上海市环卫厨余垃圾生物处理技术应用可行性研究报告.docx
- 2025年天津市花西子针对户外运动妆容的可行性.docx
- 2025年上海市生物发电于秸秆炭化还田协同发电的可行性研究.docx
- 2025年天津市物造纸在可降解农用地膜领域的应用可行性研究报告.docx
- 2025年天津市无人值守充电站智能运维可行性研究报告.docx
- 2025年天津市竹荪种植连作障碍防治技术可行性研究报告.docx
文档评论(0)