基于群体特征的智能检索的研究与实现.docVIP

基于群体特征的智能检索的研究与实现.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于群体特征的智能检索的研究与实现.doc

基于群体特征的智能检索的研究与实现 1  引言 现代人对信息把握的正确性和全面性提出了越来越高的要求 , 开发性能更加优越的网络信息检索工具便成了当务之急 , 对于网络信息检索的智能化发展趋势的研究也成为了必需之举。 伴随着计算机智能化研究的不断发展 , 具有适应性和学习性特征的智能检索技术也正从试验阶段过渡到实际应用。目前 , 搜索引擎(search engine) 与人工智能(artificial intelligent)已经成为网络信息检索的关键技术与核心思想。智能检索可以通过对检索内容相关性的自动学习 , 来提高检索结果的查全率和查准率。[1] 然而,目前关于智能检索的研究,主要存在着以下几个问题: (1)目前的大部分搜索引擎,对于一个给定的提问,返回同样的结果,不能结合每个用户的意图而为其量身定制。 (2)有人提出构建个人兴趣模型,以此为基础,结合用户新的提问,推理出最能代表用户意图的类别,把该类别作为检索时的背景信息指导检索工具的搜索[2]。但却面临着信息量庞大,运行一段时间后,系统无法承受的问题。另外,对历史信息有效性的认定,也存在一定的困难。 要想解决这些问题,可以将神经网络与搜索引擎技术相结合,利用 *** 的算法,得出 ***的曲线,这样,日复一日数据搜集,不会造成系统的承受困难,只会得出越来越精确的曲线 用户对象特征智能分析 可立即得到的对象特征 客户ip所能反映的一系列特征值 所在地域(重要属性,引擎返回值优先考虑同地域搜索项) Internet接入服务提供商 动态ip还是固定ip 进一步可得此用户使用何种设备接入,是手机等嵌入式设备还是x86兼容计算机或者苹果mac。 通过外网ip和本机ip对比可得是否在防火墙后,可大致判断客户所在位置,家里,办公室,户外,或者网吧 通过ip和guest 代理列表对比可获得是否使用代理访问,可判断用户上网是否习惯隐藏自己 客户浏览器 版本结合ip可得客户所用操作系统,确定其接入设备配置,模糊判断客户的经济状况及上网习惯 插件支持 浏览器本身是否支持script,activex,java 是否禁用script,activex,java 可判断客户性格是否谨慎小心 http头中Referer项可判断客户从哪里跳转到此引擎,若为空则可以反映出客户对此引擎的信任度 客户查看网页快照还是直接打开网页,或者先快照后网页,此处可大致反映出是否查询到了目标, 先快照后网页,90%可能找到目标,可以修正目标关键词权值及目标用户特征权值 只网页,50%可能找到目标,可以修正目标关键词权值及目标用户特征权值 只快照,20%可能找到目标,可以修正目标关键词权值及目标用户特征权值 查看后收藏(需插件支持)100%找到目标可以修正目标关键词权值及目标用户特征权值,有一些知名搜索引擎,让客户安装一些XX工具条,可能也为获取搜索后浏览器动作,此时,引擎本身对客户动作不可知,必须借助插件进行辅助动作检测收集 查看后在此页面中点击翻页动作(需插件支持)100%找到目标可以修正目标关键词权值及目标用户特征权值,同样需要客户端浏览器插件收集此类动作信息 通过用户注册或填写用户体验调查问卷得到的对象特征 这里的信息是比较精确有效的,但需要用户配合,所以可能采取以下两种方式 正统方式取得用户信息 在搜索前或搜索后或在搜索页面上不影响视线并比较显著的位置上提示用户填写调查问卷,调查问卷可参考心理学相关问卷获取用户性格爱好特性权值,获取用户性别年龄工作领域等人群分类权值 用户注册以获取个性化搜索服务,此时,可专为客户建立性格爱好特征权值数据集,以后可不断更新此数据集,可通过不断的更新判断此客户最新的状态,比如心情如何等 其他方式取得用户信息 正常渠道客户可能不愿意配合调查问卷或者不能忍受注册登录,我们可以采取其他的方式获取客户信息,很多知名搜索网站的外延服务很有可能都是为搜索引擎服务来获取搜索信息的。 博客 客户写博客所反映的分类信息以及其关键字可调整客户本身的性格分析参数,专业参数 客户博客整体色调配置可反映出一段时间的客户心情,以及客户性格分析参数 客户博客模版选择,或者自己修改模版反映出客户性格参数,自己修改模版的话首先反映客户计算机操作水平,动手能力 小游戏 客户喜欢玩哪种游戏,各种游戏玩多长时间,是否作弊,可分析出性格,计算机水平,时间分配,结合其他参数可大概估计出其专业方向 知识,知道等 客户回答的问题或者提出的问题暴露出该客户的专业方向或者熟悉方向以及极其重要的水平权重值,可作为引擎优化时的判断依据,其回答或提问的方式还可判断出其“网络性格”(此处网络性格和现实性格有可能完全不同)其值可作为性格权重的调整参数 社区 客户喜欢提问,回答问题还是潜水可以分析客户网络性格 客户喜欢迋哪些板块,可推客户

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档