语言文字应用（2002年第1期）pp77-84-中国语言文字网.docVIP

下载本文档

8
0
约1.1万字
约 6页
2017-01-19 发布于天津
举报
版权申诉

语言文字应用（2002年第1期）pp77-84-中国语言文字网.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语言文字应用（2002年第1期）pp77-84-中国语言文字网

语言文字应用（2002年第1期）pp77-84 统计语言模型能做什么？黄昌宁（微软亚洲研究院，北京100080） [摘要]20年来中文信息处理取得了巨大成绩，这是有目共睹的。当前摆在学界面前的一个重要任务是确立全局的战略目标，并尽快在一些社会急需的发展方向上取得实质性的突破。为此，首先要澄清某些认识，比如中文信息处理是不是一定要在汉语理解的基础上推进？对于解决中文信息处理的一些急需课题来说，究竟什么方法是最适用的？本文首先对国内外自然语言处理的历史作了一个简短的回顾，说明从小规模受限语言处理走向大规模真实文本处理，是一个不可抗拒的历史潮流。并通过一些具体的实例来说明：统计语言模型能解决什么问题？它为什么在一些有可比评测的课题上连连胜出？藉此阐明，具有统一测试数据和统一计分方法的可比评测是推动科学技术进步的有力杠杆。我们应当拿起这个武器。 [关键词]中文信息处理，统计语言模型 [中图分类法] H08 [文献标识码] A [文章编号] 1003-5397(2002)01-0077-08 What Can We Do with Statistical Language Models? Huang Changning Abstract: Obviously Chinese information processing (CIP) has got outstanding achievement in the past two decades. The most important task of the community is to establish the strategy objective of CIP, and make essential break-through on certain development directions urgently needed by the society as soon as possible. For the purpose, we want to clarify some remarks first. For example, is it necessary to push forward CIP research based on Chinese language understanding? For those urgently needed CIP projects, what is the most appropriate approach? The paper makes a brief survey on the international history of natural language processing (NLP) first, and points out that the moving from small scale restricted NLP to large scale running text processing is an uncontrollable trend. And then through some concrete examples the paper describes what kind of tasks can be solved by statistical language models (SLM), and why they always outperform than their competitors under comparable evaluations. The comparable evaluation with uniform testing data and scoring method is a powerful lever for achieving progress of science and technology. Let’s arm ourselves with such a weapon. Key words: Chinese information processing; statistical language model 一大规模真实文本处理从50年代初机器翻译课题的提出算起，自然语言处理的研发历史至少也有五十年了。了解这段历史的同行，大概都知道我们的研究目标是怎样从小规模受限语言处理走向大规模真实文本处理的。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的第13届国际计算语言学大会（Coling’90）。理由其实很简单，因为那些只有几百词条和数十条语法规则的受限语言分析系统，通常被业内人