- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
295_文言信息的自动抽取:基于统计和规则的尝试
文言信息的自动抽取:基于统计和规则的尝试1
2 1,2 2
虞宁翌 ,饶高琦 ,荀恩东
(1 北京语言大学语言科学院,北京市 100083;2 北京语言大学信息科学学院,北京市 100083)
摘要:文言信息的自动抽取有利于语言监测和语料库构建。同时本文的计算研究也验证了语言学界关于汉
语文白系统连续性的自省结论。本文将从混合语料中标注文言文的问题视为短文本分类的问题进行处理。
使用基于规则和基于统计的方法对文言文、白话文本进行分类。基于规则的方法中,本文考虑文言常用虚
词和句式的影响。在基于统计的分类方法中,本文对N-gram 、朴素贝叶斯、最大熵、决策树模型的性能进
行了研究。结果表明监测虚词系统的一元语言模型的F 值达到了0.98 。
关键词:文言标注,文本分类,规则模型,统计模型
An Attempt to Ancient Chinese Extraction based on Statistical and Rule
based Methods
2 1,2 2
YU Ningyi , RAO Gaoqi , XUN Endong
(1Faculty of Language Sciences, Beijing Language and Culture University; 2College of
Information Sciences, Beijing Language and Culture University, Beijing 100083)
Abstract: The automatic extraction of ancient Chinese benefits language monitoring and corpus construction. The
computational research in this paper also help to confirm the conclusion on Chinese evolution as a continuum. This
paper regards the ancient Chinese tagging in mixed corpus as a task of short text classification . We research both
rule and statistic based methods. For rule based methods, the paper considers the effect from function words and
constructions in ancient Chinese. For statistical methods, we conduct experiments on N-gram, Naive Bayes,
Maximum Entropy, and Decision Tree. The unigram model over performs others in F value of 0.98.
Key Words: ancient Chinese tagging, text classification, rule based model, statistic based model
1 引言
中国语言由古代文言文到现代白话文经过了近三千年的发展演变。排除字形的变化,语
言本身在词汇、语法和篇章层面都产生了巨大变化,但却不失其连续性。这一特点使得在大
时间跨度上研究汉语特征变化成为重要课题。对书面语进行文言/白话标注有助于对语言进
行历时性的描写,分析语言风格,了解汉语书面语的发展情况。同时也方便对文言、白话混
杂语料的分类和加工。
传统的语言学自省的方法有其固有的主观、高成本和缓慢的局限性。在文言、白话分类
标注这一问题中引入自然语言处理的成熟方法和模型,结合专家自省知识,则有助于克服以
上问题。本文研究中发现的特征和方法反过来又可以深化对汉语演变作为一个连续统的认
识,因而具有一定的理论价值。本文的研究在一定程度上验证了
您可能关注的文档
- 《中国社会经济史研究·明清东南区域的平原与山区的经济专辑》.pdf
- 【出国购物用餐英语完全手册】.doc
- 【东方着名哲学家评传】越南卷、犹太卷.pdf
- 【哈佛商学经典译丛】服务利润链.pdf
- 【弘仁ipo资讯】2013年第一批保荐代表人培训主要内容整理稿-并购专题 .pdf
- 【欧洲大陆哲学系列】尼采的哲学.pdf
- 【牛津手册系列】维特根斯坦.pdf
- 【尚友制造】北美商学院就业大揭密系列----university of oklahoma.pdf
- 【桑桑】qq空间加人小方法.doc
- 【斯诺克教程】各种台球杆法下母球与目标球分离角和母球线路详解.pdf
- 冀教版二年级下册数学第五单元 四边形的认识 测试卷及完整答案.docx
- 冀教版二年级下册数学第五单元 四边形的认识 测试卷及参考答案【完整版】.docx
- 冀教版二年级下册数学第五单元 四边形的认识 测试卷及完整答案(网校专用).docx
- 冀教版二年级下册数学第五单元 四边形的认识 测试卷及1套完整答案.docx
- 冀教版二年级下册数学第五单元 四边形的认识 测试卷及答案(网校专用).docx
- 甘肃省2024年《一级注册建筑师之建筑物理与建筑设备》考试题库附参考答案(黄金题型).docx
- 甘肃省2024年《一级注册建筑师之建筑物理与建筑设备》考试必背100题完整题库含答案【综合题】.docx
- 甘肃省2024年《一级注册建筑师之建筑物理与建筑设备》考试必背100题内部题库附参考答案(轻巧夺冠).docx
- 甘肃省2024年《一级注册建筑师之建筑物理与建筑设备》考试必背100题题库及参考答案(能力提升).docx
- 甘肃省2024年《一级注册建筑师之建筑物理与建筑设备》考试必背100题题库及参考答案(能力提升).docx
文档评论(0)