基于规则与统计方法的中文新词识别_.docVIP

下载本文档

10
0
约3.35千字
约 7页
2018-06-01 发布于江西
举报
版权申诉

基于规则与统计方法的中文新词识别_.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于规则与统计方法的中文新词识别* 韩艳，姚建民苏州大学计算机科学与技术学院，苏州 215006 hanyan@, jyao@ 摘要: 新词识别是中文信息处理领域中的一个难点，也是自然语言处理、信息检索和机器翻译等领域的一项基础研究。本文提出了基于概率统计技术和规则方法相结合的概念抽取方法,并且在实验的基础上得出基于规则和基于统计的方法如何组合从而得到更高的效果,。整个识别的过程是在做好词性标注的基础上识别的。实验主要是识别二元组，三元组，四元组。关键词：新词检测；规则；互信息；频度比；语料库 Abstract： The research of unknown Chinese words is a problem of Chinese Information Processing and it is also a basic research in fields of NLP, IR and MT. The paper gives the method based on statistic techniques and rules for new word discovery via analyzing the various combinations of current techniques. The identification process is on the basis of the whole speech tagging. Keywords： New word Detect；Rules；MI(mutual information)；Frequency Ratio; Corpus 引言随着社会的发展，新词语的不断出现已经成为现代汉语词汇的主要趋势和基本特色。而对新词语的研究对中文信息处理有很大的意义。目前，新词语的识别也是主要基于两种方法：基于规则和基于统计。基于规则和基于统计各有利弊，可以互相补充，从而使得新词检测获得更好的效率。基于规则的方法，其核心是根据语言学原理和知识制定一系列共性规则和个性规则，以处理自动分析中遇到的各种语言现象【1】, 该方法根据新词的用字规律和上下文特征，观察未登录词与标志位置的关系以及单词的左右结构，总结出适合绝大多数未登录词的识别规则，将规则应用于汉语文本的处理过程，从而识别新词，主要是用了词性标注。 [基于统计的方法主要通过学习一些现成的语料库然后通过统计的手段对词语进行过滤，频度比是常用的，然后在两个碎片之间用了互信息，在最后的识别中用频度比和互信息进行过滤。二者都各有优缺点，基于统计的方法不受领域限制，速度很快，容易实现，符合当前自然语言处理面向大规模实用语料的发展趋势，但质量较差；基于规则的方法通过专家们共同制定的规则可以获得高质量的知识，但是规则都是针对特定领域制定的，灵活性较差【1】。但是我们把两者结合起来却能得到拥有两者优点的效果，何乐而不为呢。]本段要简要总结统计方法，你现在写的内容是实验设计部分，应该在后面叙述。通常学术论文的结构是：1、绪论，介绍为什么要做本课题。2、相关研究，介绍别人怎么做这个课题。3、我们的方法，介绍我们采取的方法，以及我们的方法和别人方法比优势何在。4、实验设计，包括测试语料库等。5、结果和分析，详细探讨实验结果。6、结论本文在分析前人研究结果基础上，通过实验对基于规则与基于统计的方法进行不同顺序的组合，并且对不同组合的实验结果进行比较。下面我将对不同的方案以及各自的实验结果进行罗列。相关工作你的引言部分也写了相关工作的内容总结，稍显条理不清。建议引言重点写新词抽取的意义，相关工作在这里写。 (郑，2002)完全采用规则的方法识别新词;【2】 (chen，2003)在识别数字时间人名等新词时利用了语言学触发规则; (Wu,2000)是在规则中加入了统计信息以提高新词总体的识别效果; (贾,2004)提出采用基于概率统计技术和规则方法的新词识别方法; (周,2004)中新词识别方法,首先大规模处理网页,对于切分后的网页内容,用重复串查找寻找新词语; (li,2004)主要研究了两种类型的新词:NW11(由两个汉字组成)和NW21(由一个二字词后跟一个单字组成). 新词抽取的混合方法从目前的新词抽取结果来看，基于规则的方法能够……，但存在着……的缺点。而基于统计的方法有……的优点。因此我们在实验设计中采用了规则和统计相结合的方法，从而争取最好的识别效果。下面我们分别介绍规则部分、统计部分以及混合新词抽取的实验设计。 3.1 新词语构词分析及抽取规则根据目前的研究和我们的探索，新词语的构词方法可以从常规构词法和特殊构词法两个方面进行分析。而不同长度、不同词性的新词又有不同的特性。分别列举实例如下表。表格1 新词抽取的