网站大量收购独家精品文档,联系QQ:2885784924

词语的分类和聚类.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
词语的分类和聚类

词语的分类和聚类 内容提要 1、词语的分类:定义、举例、分类的实现 2、词语聚类: (1)词聚类的定义 (2)词聚类技术的作用 (3)词聚类的分类 (4)词聚类方法 (5)词聚类实现 (6)词聚类在线演示 (7)相关文章阅读 词语的分类 词语分类:以领域特征明显的词和短语作为聚类对象,在分类系统的大规模层级分类语料库中,利用独创的文本分类的特征提取算法进行词语的领域聚类,通过控制词语频率的影响,分别获取领域通用词和领域专类词。 分类词表总共15大类,224个三级小类,如“房产”、“汽车”、“科技_数码_视频_数字电视”、“房产_家居家装_家具”。 见分类词表 中文词分类算法 词分类的实现: 第一步——上下文概念 一个词在一文章中,它前后出现的每个词,即为它的上下文 ,在这里只统计每个词前后各一个的上下文, 例:“迈向 充满 希望 的 新 世纪”,如果想找“充满”的上下文,只统计到“迈向”和“希望”就可以了。 如果词的上下文有重复,则累计到该词上下文对应的数量里 如:充满 迈向:3 希望:6 信心:1 5.1、得到词的上下文流程图 返回 取出-word-上下文集合,得到word的-after-词-before词 是否是第一个词 Y N 以word为key,上下文为value放入map 是否已经存在词-word-的上下文 N Y -after-词-before词是否存在于上下文 N Y 把-after-词-before词加入word的上下文-次数:1 把-after-词加入word的上下文-次数:1 文章开头的一个词 出现次数+1 从-wordArr-中依次取词word 把-after-词-before词加入word的上下文-次数:1 得到词的上下文流程图 词分类的实现: 第二步——相似度的计算 对每两个词的上下文进行比较,如果它们的 上下文有相同的词,数字,字母,符号,则相 似度值大于0,用公式计算 如果没有相同的上下文内容,则直接判断相似度为0 公式: a*b/(词1所有上下文的次数的平方和的开方) +(词2…) 相似度: 0~1 5.2、相似度的算法 Key value Word1 (不重复) 上下文集合list Word2 上下文集合list …… …… 所有词上下文集合map 上下文: 出现次数 a QQ: 出现次数 b …… 上下文: 出现次数 x 上下文集合list(map的value) 相似度计算公式:分子/分母(计算公式是用户给定的) 分子:相同上下文出现次数的乘积 (例:b*xx ) [是以个累加的过程] 分母:sqrt(a*a+b*b+…+x*x)+ sqrt(aa*aa+bb*bb+…+xx*xx) 上下文: 出现次数 aa 上下文: 出现次数 bb …… QQ: 出现次数 xx 词分类的实现: 第三步—— 分类算法 例: ①.迈向和迈进相似度:0.8, 迈向和迈出相似度0.7, 迈向和走向相似度:0.9, 则取它们之间相似度最高的 迈向、走向, 把迈向存到数组 ②.走向、奔向 相似度最高:0.78 把走向和奔向存到一起 ③.0.780.9, 所以把走向加入到 迈向所在的文件里 所以 这里咱们需要用的是: 词与词的 最大相似度 即 根据最相近的词分类 分类算法 ④.当进行到当前相似度 大于 前面的那个相似度时, 把类分开 如: 奔向和奔去的相似度为0.8, 大于 走向和奔向的相似度0.78。 把迈向,走向归为一类, 把奔向和奔去归为一类。 每分好一个类 就写到 一个记事本文件 详细流程图 原始文本 5、系统的整体流程分析 从文本中取词 得到最大相似度 得到每个词的上下文 分类算法 得到分类文件 整体流程图 1.词聚类定义 聚类就是按照事物的某些属性、特征,把事物聚集成类,使类间的相似性尽量小,类内的相似性尽量大。 词语聚类定义1:即将一个给定的词wi 分到某个词类ci 中去。它是语音识别、智能信息检索等领域的一个重要的自然语言处理问题.根据词语的分布环境进行聚类是目前常采用的一种研究方法。 词聚类定义2:就是对某种语言的某个特定领域术语集中的相关词语进行聚类。 2、词聚类技术的作用 词聚类技术的一个重要应用就是改善信息检索系统的人机交互效率。由于人们对信息源的内容不完全知道, 所以不可能直接检索到信息。人们总是根据信息的一些相似模式来找相关信息的。 比如, 当用户面对一个内容不熟悉的数据库时, 往往为提出合适的查询

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档