295_文言信息的自动抽取：基于统计和规则的尝试.pdf

下载文档 降价啦

18
0
约1.32万字
约 11页
2016-03-18 发布于山西
举报
版权申诉
保障服务

295_文言信息的自动抽取：基于统计和规则的尝试.pdf

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

295_文言信息的自动抽取：基于统计和规则的尝试

文言信息的自动抽取：基于统计和规则的尝试1 2 1,2 2 虞宁翌，饶高琦，荀恩东（1 北京语言大学语言科学院，北京市 100083；2 北京语言大学信息科学学院，北京市 100083）摘要：文言信息的自动抽取有利于语言监测和语料库构建。同时本文的计算研究也验证了语言学界关于汉语文白系统连续性的自省结论。本文将从混合语料中标注文言文的问题视为短文本分类的问题进行处理。使用基于规则和基于统计的方法对文言文、白话文本进行分类。基于规则的方法中，本文考虑文言常用虚词和句式的影响。在基于统计的分类方法中，本文对N-gram 、朴素贝叶斯、最大熵、决策树模型的性能进行了研究。结果表明监测虚词系统的一元语言模型的F 值达到了0.98 。关键词：文言标注，文本分类，规则模型，统计模型 An Attempt to Ancient Chinese Extraction based on Statistical and Rule based Methods 2 1,2 2 YU Ningyi , RAO Gaoqi , XUN Endong (1Faculty of Language Sciences, Beijing Language and Culture University; 2College of Information Sciences, Beijing Language and Culture University, Beijing 100083) Abstract: The automatic extraction of ancient Chinese benefits language monitoring and corpus construction. The computational research in this paper also help to confirm the conclusion on Chinese evolution as a continuum. This paper regards the ancient Chinese tagging in mixed corpus as a task of short text classification . We research both rule and statistic based methods. For rule based methods, the paper considers the effect from function words and constructions in ancient Chinese. For statistical methods, we conduct experiments on N-gram, Naive Bayes, Maximum Entropy, and Decision Tree. The unigram model over performs others in F value of 0.98. Key Words: ancient Chinese tagging, text classification, rule based model, statistic based model 1 引言中国语言由古代文言文到现代白话文经过了近三千年的发展演变。排除字形的变化，语言本身在词汇、语法和篇章层面都产生了巨大变化，但却不失其连续性。这一特点使得在大时间跨度上研究汉语特征变化成为重要课题。对书面语进行文言/白话标注有助于对语言进行历时性的描写，分析语言风格，了解汉语书面语的发展情况。同时也方便对文言、白话混杂语料的分类和加工。传统的语言学自省的方法有其固有的主观、高成本和缓慢的局限性。在文言、白话分类标注这一问题中引入自然语言处理的成熟方法和模型，结合专家自省知识，则有助于克服以上问题。本文研究中发现的特征和方法反过来又可以深化对汉语演变作为一个连续统的认识，因而具有一定的理论价值。本文的研究在一定程度上验证了