搜索引擎中搜索果组织的研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎中搜索果组织的研究.pdf

摘要 摘要 搜索引擎是信息网络时代人们不可缺少的获取信息的重要工具,人们通过 输入查询来获取搜索结果,从而从网络上的离散海量数据中获取想要的信息。 然面当前搜索引擎返回的结果数量庞大,人们要获取想要的信息仍然比较困难。 用户的需求是以最快的速度获得与查询最相关并且最权威的网页信息。围绕这 两个需求高效的组织查询结果是搜索引擎亟需解决的问题。本文就是在这样的 技术背景下展开研究,研究对象是两种主要的搜索结果组织技术:网页排序和 搜索结果聚类。 首先,以Web挖掘的三个方面Web内容挖掘、Web结果挖掘和Web使用 挖掘为主线,对主流网页排序算法PageRank,HITS及其派生算法进行了详细 综述,并提出网页排序算法的发展趋势,即综合使用网页的多方面信息用于排 序、结合Web使用信息设计个性化的排序算法。 在PageRank框架下,综合使用网页内容和链接结构信息,修改经典的随机 访问模型,提出扩展的PageRank算法来解决用户对搜索结果的相关性和权威性 两方面需求。修改后的随机访问模型,增强了网页权威性和内容相关性在权值 分配中的重要性。最终开发了网页排序算法实验平台,验证了算法的有效性, 相同条件下可以获得比PageRank更好的排序结果。 中文网页信息处理时中文分词是必不可少的重要步骤之一,针对基于字典 的中文分词算法对歧义词和未登录词分词效率低的问题,提出基于字典和后缀 数组的分词算法,实验表明本算法可以有效提取高频未登录和歧义的词和短语。 对传统的聚类算法和文本聚类算法进行了综述性研究,指出用于搜索结果 聚类算法的特别要求,实时性,即高效性,和能够准确的提取聚类描述。 最后,提出基于关联规则挖掘的搜索结果聚类算法,将网页集看作事务集, 将网页中的每个词看作事务项进行关联规则挖掘。最后将此聚类算法用于设计 开发的元搜索引擎系统,实验结果表明此算法可以有效地进行网页聚类,可以 较容易地提取较准确的聚类描述,并且容易实现层次聚类。 关键词:网页排序,搜索结果聚类,中文分词,元搜索引擎 II Abstract Ininformation isoneofthe is most tools,which age,searchengine important forthe information.Usersretrieveinformationfrom indispensablepeopleretrieving discreetand datainnetwork tosearch the huge bysubmiRingqueries engine.But numberofsearchresultsistoo to in browser.Usersmust alotoftime large spend ordertofindoutthe information.Howto thesearchresults very organize effectively SOthat1.Lsers and Can mostrelevantmost informationwantinthe get authority they is

文档评论(0)

chengben002424 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档