统计学习框架中文新词检测方式统计教学论文.doc

下载文档 降价啦

3
0
约5.48千字
约 8页
2016-03-21 发布于安徽
举报
版权申诉
保障服务

统计学习框架中文新词检测方式统计教学论文.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

统计学习框架中文新词检测方式统计教学论文１引言词语是语言信息自动处理的基本单位。为使处理过程顺利地进行，必须对大量产生的新词进行检测和识别。新词检测在句法分析、词典编纂、机器翻译以及舆情监测等领域都有着重要应用。与印欧语言不同，中文没有特定符号来表示词语边界，因此任何相邻中文字符都有构词的可能性；且书面语中没有字符形态变化，这都给中文新词自动检测带来了巨大障碍。目前在中文新词自动检测的研究中，主要有基于单字散串和基于高频重复模式方法。因后者具有能有效地识别新造词、对语料依赖程度小、适应能力强以及召回率高等特点［１］，近年来受到了广泛关注，也取得了较多研究成果。２相关研究基于高频重复模式的新词检测包含２个基本步骤，即高频重复模式的提取和候选新词的过滤。前者从语料中提取重复模式，构造候选新词集合；后者对候选新词集合中的非词垃圾字串进行过滤，以提取新词。目前大量研究都集中在候选新词的过滤方面。刘挺等［２］使用滑动窗口来提取局部重复模式，构造候选词集合，然后应用经验函数来检测新词，研究表明，该方法能有效提高中文分词效果；郑家恒等［３］使用递增的ｎ－ｇｒａｍ模型提取重复模式，在此基础上使用手工编制的提取和过滤规则（包括常用构词规则、特殊构词规则和互斥性字串过滤规则）从互联网语料中提取新词；邹刚等［４］在文献［３］方法的基础上，使用正则表达式来表示过滤规则，实现任意长度新词的检测；崔世起等［５］将新词结构分成了不同的组成形式，如１＋１、１＋２、２＋１、１＋１＋１等（其中１＋１表示由２个单字构成的２字词，１＋２表示由１个单字和１个双字词构成的３字词），并针对不同的组成结构采用特定的处理方法。ＬｕｏＳｈｅｎｇｆｅｎ等［６］针对２字串，将多种字串的内部统计特征，包括出现频率、互信息、色子系数等９种特征组成了一个加权词语抽取模型，配合左右熵来进行词语抽取；罗智勇等［７］以支持向量机（ＳＶＭ）为统计模型，使用左右熵、似然比和相关频率比作为特征进行武侠小说中新词的检测；贺敏［８，９］在重复模式提取的基础上，应用外部环境和内部特征相结合的方法来检测新词，研究中主要使用了上下文邻接分析、位置成词概率和双字耦合度，达到了较好的新词检测效果。目前的新词检测研究主要集中在新特征的挖掘和使用上，但因没有可靠模型的指导，特征选择还存在一定的盲目性；对特征的使用一般也仅限于单个特征或类型相似特征的简单组合，尚未考虑将语言知识特征和统计特征等不同类型特征进行有效整合，以实现组合特征的综合作用和更好的新词检测效果。本文在候选新词集合基础上，根据概率论的相关原理，提出一种新词检测的形式化描述模型，用于建立特征和新词检测结果之间的有效联系，并提出在新词检测中应用统计模型作为框架，以有效地整合新词的语言知识和统计这两种不同类型的特征，改进和提高新词检测效果。３基于统计学习框架的新词检测方法３．１新词检测的形式化描述在已经取得重复模式（候选新词）集合的前提下，新词检测的任务就转化为以重复模式的各种有效特征作为判别标准。判断其是否是新词的过程，实际是在可用特征的基础上对候选新词进行标注的过程。根据概率论的相关理论，候选新词标记ｔ的最大似然估计可表示为ｔ＝ａｒｇｍａｘｔ｛新词，非新词｝Ｐ（ｔ｜候选新词）（１）其中候选新词的标记结果集合为｛新词，非新词｝。该式可进一步转化为ｔ＝ａｒｇｍａｘｔ｛新词，非新词｝Ｐ（候选新词｜ｔ）Ｐ（候选新词）＝ａｒｇｍａｘｔ｛新词，非新词｝Ｐ（候选新词｜ｔ）（２）新词本身具有未知性，候选新词本身和标记之间没有先验知识，也就是说候选新词同标记ｔ之间的条件概率是未知的。如果是已知的，那么这个词就不能称之为“候选新词”了。为了解决这个问题，考虑对候选新词进行本质特征的分解，这样即可通过本质特征与标记ｔ之间的关系来求解候选新词整体与标记之间的关系。但前提是，分解出来的特征要能充分体现候选新词的本质特性。在具体处理时，可用本质特征的集合来代表候选新词。这样候选新词与标记ｔ之间的关系就转化为本质特征与标记ｔ之间的关系，实际上是在候选新词的本质特征与标记ｔ之间建立起了有效的联系。根据以上的论述，新词检测过程可进一步描述为ｔ＝ａｒｇｍａｘｔ｛新词，非新词｝Ｐ（ＦＳ｜ｔ）（３）式中，ＦＳ表示能代表候选新词的本质特征集合。若根据上式对候选新词的特征和标记进行训练，因特征之间关系复杂，难以直接进行特征的训练和标注。为了解决特征之间的独立性问题，考虑应用有效的统计框架处理以上模型。鉴于条件随机域模型（ＣＲＦ）在自然语言处理领域的广泛应用，并且不要求所用特征之间具有独立性，因而非常适合以上模型的求解，可用之有效地整合能代表候选新词的各类本质特征。３．２条件随机域模型（ＣＲＦ）条件随机域是一种无向图模型，对于确定