LSI文本挖掘技术剖析.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LSI文本挖掘技术剖析.pdf

pp rr ff PP ee ll oo ii gg ss zzPP zz zz 农业 图书情报学刊:信息论坛 第 28卷 1相关背景知识 1.2.1词项加权 1.1搜索服务的本质 在VSM 的高维空间里,对象所携带的信息 (一个 搜索服务通常以搜索引擎的形式出现,对用户输 实数)反映了某个词项与某个文档之间的关系,数值 入的查询字符串作出响应。经过某种算法的处理,按 越大关系则越紧密。在这里以a。j表示第 i个词项与第J 顺序返 回一系列与搜索 内容相关的超链接(hyperlinks)。 个文档之 间的关系 ,介绍 3种 目前最流行 的词项加权 受用户本身知识结构所限以及查询 内容输入的随意性 方案 。 p 等因素的影响,搜索引擎并不总能返回符合用户本意 第一种是位加权 。在这种最简单的方案中,当词 的结果。一方面 由于可能出现的词项匹配上 的错误 , 项 t在文档 d中出现时, i=1;当在整篇文档 d中都没 返 回结果包含 了用户不感兴趣 的内容 :另一方面 。由 有出现词项 t时,aii=0。由于只有一位数据存储信息 r 于机器语言与 自然语言之间存在的显著差异 ,一些实 (0和 1两种情况),位加权方案无法反映不同词项与文 际上与搜索 内容密切相关的文档被搜索算法排除。 档之间关系的强弱。 对于搜索引擎而言 .当接收查询字符串后,最直 第二种是词项频率(temr frequency)]JH权 。在此方案 f 观 、保险的做法当然就是返回含有全部或部分用户输 里有 以下等式: P 入字符的链接 。至于结果是否最能令用户满意,有时 =t 并非首要 的考虑 。一直 以来开发人员都致力于优化搜 其中t£为第 i个词项在第 j个文档中出现的次数。 索引擎的算法 ,以期在响应速度与用户对结果满意度 因此词项频率加权使用了更多的位数。能准确反映某 e 之间找到平衡点。 个词项在单个文档中的重要程度 。但当样本集中大部 1.2基于VSM 的文档相关度计算模型 分的文档里都频繁地出现该词项时 ,它的权重值在矩 l 在信息检索(informationretrieva1)领域里 。传统的标 阵中的指示作用就不那么明显

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档