统计学习框架中文新词检测方式统计教学论文.doc

统计学习框架中文新词检测方式统计教学论文.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学习框架中文新词检测方式统计教学论文.doc

统计学习框架中文新词检测方式统计教学论文 1引言 词语是语言信息自动处理的基本单位。为使处理过程顺利地进行,必须对大量产生的新词进行检测和识别。新词检测在句法分析、词典编纂、机器翻译以及舆情监测等领域都有着重要应用。与印欧语言不同,中文没有特定符号来表示词语边界,因此任何相邻中文字符都有构词的可能性;且书面语中没有字符形态变化,这都给中文新词自动检测带来了巨大障碍。目前在中文新词自动检测的研究中,主要有基于单字散串和基于高频重复模式方法。因后者具有能有效地识别新造词、对语料依赖程度小、适应能力强以及召回率高等特点[1],近年来受到了广泛关注,也取得了较多研究成果。 2相关研究 基于高频重复模式的新词检测包含2个基本步骤,即高频重复模式的提取和候选新词的过滤。前者从语料中提取重复模式,构造候选新词集合;后者对候选新词集合中的非词垃圾字串进行过滤,以提取新词。目前大量研究都集中在候选新词的过滤方面。刘挺等[2]使用滑动窗口来提取局部重复模式,构造候选词集合,然后应用经验函数来检测新词,研究表明,该方法能有效提高中文分词效果;郑家恒等[3]使用递增的n-gram模型提取重复模式,在此基础上使用手工编制的提取和过滤规则(包括常用构词规则、特殊构词规则和互斥性字串过滤规则)从互联网语料中提取新词;邹刚等[4]在文献[3]方法的基础上,使用正则表达式来表示过滤规则,实现任意长度新词的检测;崔世起等[5]将新词结构分成了不同的组成形式,如1+1、1+2、2+1、1+1+1等(其中1+1表示由2个单字构成的2字词,1+2表示由1个单字和1个双字词构成的3字词),并针对不同的组成结构采用特定的处理方法。LuoShengfen等[6]针对2字串,将多种字串的内部统计特征,包括出现频率、互信息、色子系数等9种特征组成了一个加权词语抽取模型,配合左右熵来进行词语抽取;罗智勇等[7]以支持向量机(SVM)为统计模型,使用左右熵、似然比和相关频率比作为特征进行武侠小说中新词的检测;贺敏[8,9]在重复模式提取的基础上,应用外部环境和内部特征相结合的方法来检测新词,研究中主要使用了上下文邻接分析、位置成词概率和双字耦合度,达到了较好的新词检测效果。目前的新词检测研究主要集中在新特征的挖掘和使用上,但因没有可靠模型的指导,特征选择还存在一定的盲目性;对特征的使用一般也仅限于单个特征或类型相似特征的简单组合,尚未考虑将语言知识特征和统计特征等不同类型特征进行有效整合,以实现组合特征的综合作用和更好的新词检测效果。本文在候选新词集合基础上,根据概率论的相关原理,提出一种新词检测的形式化描述模型,用于建立特征和新词检测结果之间的有效联系,并提出在新词检测中应用统计模型作为框架,以有效地整合新词的语言知识和统计这两种不同类型的特征,改进和提高新词检测效果。 3基于统计学习框架的新词检测方法 3.1新词检测的形式化描述在已经取得重复模式(候选新词)集合的前提下,新词检测的任务就转化为以重复模式的各种有效特征作为判别标准。判断其是否是新词的过程,实际是在可用特征的基础上对候选新词进行标注的过程。根据概率论的相关理论,候选新词标记t的最大似然估计可表示为t=argmaxt{新词,非新词}P(t|候选新词)(1)其中候选新词的标记结果集合为{新词,非新词}。该式可进一步转化为t=argmaxt{新词,非新词}P(候选新词|t)P(候选新词)=argmaxt{新词,非新词}P(候选新词|t)(2)新词本身具有未知性,候选新词本身和标记之间没有先验知识,也就是说候选新词同标记t之间的条件概率是未知的。如果是已知的,那么这个词就不能称之为“候选新词”了。为了解决这个问题,考虑对候选新词进行本质特征的分解,这样即可通过本质特征与标记t之间的关系来求解候选新词整体与标记之间的关系。但前提是,分解出来的特征要能充分体现候选新词的本质特性。在具体处理时,可用本质特征的集合来代表候选新词。这样候选新词与标记t之间的关系就转化为本质特征与标记t之间的关系,实际上是在候选新词的本质特征与标记t之间建立起了有效的联系。根据以上的论述,新词检测过程可进一步描述为t=argmaxt{新词,非新词}P(FS|t)(3)式中,FS表示能代表候选新词的本质特征集合。若根据上式对候选新词的特征和标记进行训练,因特征之间关系复杂,难以直接进行特征的训练和标注。为了解决特征之间的独立性问题,考虑应用有效的统计框架处理以上模型。鉴于条件随机域模型(CRF)在自然语言处理领域的广泛应用,并且不要求所用特征之间具有独立性,因而非常适合以上模型的求解,可用之有效地整合能代表候选新词的各类本质特征。 3.2条件随机域模型(CRF)条件随机域是一种无向图模型,对于确定

您可能关注的文档

文档评论(0)

sjatkmvor + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档