第五节 信息整序法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析原理介绍 相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论) 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣可参考《应用多元分析》(第二版)王学民 相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离 这里不详细介绍这种聚类度量方法 聚类分析原理介绍 变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量 连续变量,如长度、重量、速度、温度等 有序(Ordinal)尺度变量 等级变量,不可加,但可比,如一等、二等、三等奖学金 名义(Nominal)尺度变量 类别变量,不可加也不可比,如性别、职业等 凝聚的方法 一开始将每个对象作为单独的一组,然后根据同类相近,异类相异的原则,合并对象,直到所有的组合并成一个,或达到一个终止条件为止。 分裂的方法 一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件。 定义:对给定的数据进行层次的分解 等级聚类法(hierarchical method) 广泛采用的类间距离: 最小距离法(single linkage method) 极小异常值在实际中不多出现,避免极大值的影响 广泛采用的类间距离: 最大距离法(complete linkage method) 可能被极大值扭曲,删除这些值之后再聚类 广泛采用的类间距离: 类平均距离法:类间所有样本点的平均距离 该法利用了所有样本的信息,被认为是较好的系统聚类法 广泛采用的类间距离: 重心法(centroid hierarchical method) 类的重心之间的距离 对异常值不敏感,结果更稳定 广泛采用的类间距离 离差平方和法(ward method) D2=WM-WK-WL 即 对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。 Cluster K Cluster L Cluster M 自动分类 原理:根据一个已被分好类的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。 自动标引 自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。 换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。 自动标引的原理 齐夫定律: 高频词:传递信息能力弱 中频次:传递信息能力强 低频词:传递信息能力极强 西文信息自动标引技术 1、抽取关键词 遇空格取词; 确定关键词,舍去非用词; 累积词频,分析关键词; 2、分析确定标引词 绝对词频 相对词频 赋予权重 中文信息自动标引技术 中文自动标引所遇到的首要问题是词的切分。现在国内大部分自动标引方法只能依据字(词)典匹配,最多再加上一些构词模式或规则来进行词切分。 分词的必要性 物 理 学 physics products … price image body theory barber science understand reason school study credit student subject 物理学 physics physicist … … evidence 6 × 5 × 5 = 150 : 2 中文词语分析的主要难点: 歧义 交叉歧义(86%): 结合成分子时 组合歧义(14%): 这个人手上有痣; 我们缺人手 全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过 未登录词问题 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导 (1)词典标引法 主题词表法 关键词词典法 部件词典法 词典切分组词法 (2)单汉字标引法 (3)语法分析标引法 (4)神经网络分词法 中文自动分词的主要方法: 本章小结 Page ? * Page ? * Page ? * Page ? * 信息组织学 主讲:杨力 西南石油大学经济管理学院 第五章 信息整序法 ★ 本章重点 ★ 分类法 分类标引 主体法 主题标引 关键词语言的原理与类型 自动标引技术 5.1 分类法与分类标引 信息资源分类具有以下特征 通过类目索引提供从字顺角度查找类目的途径 从一定角度出发组织和解

文档评论(0)

00625 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档