基于大规模中文搜索引擎的搜索日志挖掘.pdfVIP

基于大规模中文搜索引擎的搜索日志挖掘.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 第25卷第6期 计 算 机 应 用 研 究 Vo1.25No.6 2008年 6月 ApplicationResearchofComputers Jun.2008 基于大规模 中文搜索引擎 的搜索 日志挖掘冰 陈红涛,杨放春,陈 磊 (北京邮电大学 交换与智能控制研究中心,北京 100876) 摘 要 :从 中英文用户的搜索习惯差异 的角度 出发 ,引入 中文分词技术对 中文搜索引擎的搜索 日志进行 了分 析。重点分析 了用户输入搜索词的一些规律 ,包括选择的语言、搜索词的长度和频率、高级搜索技巧的使用以及 搜索词的修改情况 ;还提 出了用户提交搜索词的模型,给出了历史搜索词对搜索结果的影响因子算法。 关键词:搜索引擎;数据挖掘;搜索 日志;分词 中图分类号 :TP391 文献标志码:A 文章编号 :1001—3695(2008)06—1663.03 Miningquerylogoflarge—scaleChinesesearch engine CHEN Hong-tao,YANG Fang—chun,CHEN Lei (SwitchingIntelligenceControlCenter,BeifingUniversityofPostsTelecommunications,Beijing100876,China) Abstract:Thispaperfocusedonanalyzingthequerylogoflarge—scaleChinesesearchengine.Itconcernedthedifferencesof searchinghabitsbetween ChineseandEnglish users。andappliedaChinesesegmentationtechnology in someexperiments. Thenpresentedsomestatisticalanalysisresultsincludingtheusinglanguage,thelengthandfrequencyofquery words,theuti— lizationofadvancedsearchtechniques,andthemodificationofquery words.Additionally,describedamodelofquery words modification,andpresentedthecomputationoftheimpactfactorsofallquery wordswithinasession. Keywords:searchengine;datamining;query log;segmentation 词,给出了用户搜索行为模型,通过计算历史查询词对搜索结 O 引言 果的影响改善搜索引擎的结果。 随着互联网信息的急剧膨胀 ,搜索引擎 已经成为互联网用 1 数据对象及相关工具介绍 户必不可少的助手。目前几大主要的搜索引擎都采用如下的 工作原理:用户输入搜索关键字,搜索引擎将关键字与预先存 1.1 搜索 日志 储的网页倒排文档进行匹配;然后按照一定的算法输出网页 本文选择 Sogou搜索引擎提供的2006年 8月搜索 日志进 URL集合。这种简单地采用搜索关键字匹配的方法往往无法 行分析。该 日志 已经对原始数据进行了清理 ,去除了无效搜 反映用户的真实需求。因此 ,对用户

文档评论(0)

ewtoiu + 关注
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档