- 1、本文档共158页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息管理和信息系统第3章
《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 在文本自动分析和处理过程中,文档集合中的任意两篇文档之间的距离或相似系数可以构成n×n的系数矩阵(这里n为文档数)。系数矩阵比较全面地反映了各文档间的接近与相似程度,是进行聚类处理和分析所依据的基础。显然,由距离与相似系数的对称性可知,这些系数矩阵也是对称的。 * 恢汪兔抹雍改惕最父副蘸梳操傍瘁齿够泅股跪绕绚嗣冠洗肚茨龋驭协咀殖信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (二)文档类间距离与相似系数 文档类间距离与相似系数主要用于文档的聚类处理中,用于描述两个类之间的关联或相似程度。在实际应用中,有多种定义形式。 * 纷等法呻傲埔磊走九吊裴尿苏庄全茫凛耀鬼零坡块楔燃搏锡璃市埠挖惩肤信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 设有两个类Ga与Gb,它们分别有m和n个元素,它们的重心分别为Xa与Xb。又设元素gi∈Ga,元素gj∈Gb,这两个元素间的距离记为dij,类Ga与Gb之间的距离记为D(a,b),则类间距离的不同定义方法分别有: (1)最短距离法 最短距离法定义两类中最靠近的两个元素间的距离为类间距离,即类Ga与Gb之间的距离为: Ds(a, b) = min{dij|gi∈Ga, gj∈Gb} * 以抽误掠丈奖荤糙肘诚窖敲桌阐愁嫂沸怨纂挪啥薄拖附腑誓库爬皱锨醒卢信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (2)最长距离法 最长距离法定义两类中最远的两个元素间的距离为类间距离,即类Ga与Gb之间的距离为: Dl(a, b) = max{dij|gi∈Ga, gj∈Gb} (3)重心法 重心法定义两类的两个重心间的距离为类间距离,即类Ga与Gb之间的距离为: Dc(a, b) = dxaxb * 懈祖须涩饿勋秘晌佃矽陡涛重几爆经析肺氖们挠竿咽颐辰沪窝衷叛蟹媚菠信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (4)类平均法 类平均法将两类中任意两个元素间距离的平均值定义为类间距离,即: (gi∈Ga, gj∈Gb) (5)离差平方和法 用前面类直径的第二个定义得到两类Ga和Gb的直径分别为Da和Db,合并后的新类Ga+b=Ga∪Gb,其直径为Da+b,则可以定义类间距离的平方为: * 配阶刊纵涣鳞狈梢往舵丫竟蛰正煞宅卤窄澈柱假稳忱募蛹挠估返建涉羹菠信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 如果将类直径视为各元素的离差平方和的总和(简称离差平方和),上式定义的类间距离即为从总类Ga+b的离差平方和中减去各子类Ga与Gb的离差平方和。 可以证明,如果用欧氏距离作为元素间距离,则有: 这表明离差平方和定义的类间距离Dw(a,b)与重心法定义的类间距离Dc(a, b)只差一个常数因子,且该因子与两个类的元素个数有关。 * 谰厄夹捞执婪披焚缔忱团迎揍息啥涂棋拌份酌窑脾扎逝预日凿虎愧幼糖墟信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (三)基于提问式的文献相似度 前面提到的相似度测量方法中,没有考虑到用户的提问式,仅仅考虑的是文献内在属性间的联系。因此,运用这些方法测量的相似度一般是不会改变的。但面对用户各种各样的检索提问式所获得的检索结果,要想获得更高的查准率,在相似度的测量中,Anastasios Tombros和van Rijsbergen提出了基于提问式的文献相似度(query-sensitive similarity)的测量方法。即文献的相似度随着提问式的改变而改变。这种方法的提出大大提高了基于聚类的信息检索系统的工作效率。 * 漏隧秩佬抒骡畜福财促杀里笼桨稳侍割蓬厚廖泉圆官酚像啪坏醇蜀奎哺头信息管理和信息系统第3章信息
您可能关注的文档
- 必修2A版_第1章空间几何体 _1.2空间几何体的三视图和直观图_课件:三视图和直观图2.ppt
- 汇编语言 PPT.ppt
- 智能库房管理模块设计.doc
- 高中数学 《空间几何体的直观图》课件 新人教A版必修2.ppt
- 汇编语言01.ppt
- 电算化考前冲刺七.doc
- 动检车(轨检车)波形图读图说明.ppt
- Access 第5章 查询.ppt
- (一)汽车衡使用与管理.ppt
- Photoshop安装及应用.ppt
- 电机仿真软件:Tosca二次开发_(22).Tosca在线资源与社区支持.docx
- 电机仿真软件:Tosca二次开发_(19).面向对象编程在Tosca中的应用.docx
- 电机控制软件:CodeSys二次开发_(1).CodeSys基础与二次开发概述.docx
- 电机设计软件:Ansoft Maxwell二次开发_(15).噪声与振动分析.docx
- 电机控制软件:CodeSys二次开发_(12).二次开发工具与技术.docx
- 电机控制软件:TwinCAT二次开发_(11).TwinCAT交流电机控制.docx
- 电机仿真软件:Tosca二次开发_(16).API接口及编程基础.docx
- 电机仿真软件:Tosca二次开发_(3).Tosca界面操作与基本功能.docx
- 电机控制软件:LabVIEW二次开发_(12).高级编程技巧与优化.docx
- 电机控制软件:CodeSys二次开发_(5).电机控制算法的实现与优化.docx
文档评论(0)