- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言系统国内外发概展况
语言系统国内外发展概况 △
国家科技部中药基础数据库项目课题组
尹爱宁 张汝恩
随着信息技术的发展,21世纪将逐步形成了全球范围内数字化系统。信息专业性领域限定的弱化,促使各行业信息专业化程度有明显上升趋势。由此,各行业对于信息技术的需求与依赖更加突出。为满足行业信息化的发展,信息标准化与信息基础性研究成为行业的焦点。如何用智能化的手段处理海量信息(包括文字、图像、语音等)已成为一个十分紧迫的问题。将信息转变为知识、将信息基础设施发展为知识基础设施是21世纪的重要科研方向。重点解决:数据发掘、文本挖掘、知识发现、Internet网上海量信息的智能化检索和网上软件机器人等。
为了实现数据挖掘与知识的发现,信息技术的普及化与自然化是必备的。如何建立自然人机界面与和谐的人机环境,对于计算机技术与自然语言的处理和专家支持系统都提出了更高的要求。因而建立语言系统,搭建语言系统支撑平台,是完成自然语言处理的关键。
目前,在信息技术竞争中,已将自然语言处理与本体论语言系统作为重点。
1.自然语言系统:
自然语言是指人们日常生活中所使用的语言,如汉语、英语等,它是千百年来在社会生活中自然形成的语言。计算机的程序设计语言如PASCAL、C等则是由人工设计而成的语言,故称为形式语言。
自然语言处理(natural language processing,简称NLP)也称为自然语言理解,是语言信息处理的一个重要分支。所谓语言信息处理,在我国就是中文信息处理。它是指用计算机对包括汉语(字)的形、音、义等信息及词、句子。篇章的输入、输出、存储和识别、分析。理解、生成等多方面的加工处理。其中,自然语言处理侧重于研究计算机对于句子、篇章的处理。
计算机要理解和处理自然语言,必须像人一样具有词法、句法、语义和语用等6个层次的知识。它们是:①语音学层次,是关于对声音的识别、理解与合成;②形态学层次,涉及对各种词形和词的可识别部分的处理,如前、后缀、复合词等;③词汇学层次,其重点是对全词操作和词汇系统的控制;④句法层次,它与语言结构单元的鉴别有关,具体而言就是对输入的单词序列进行分析,看它们能否构成合法句子,如果能给出相应的合法句子结构;⑤语义层次,相对自然语言文本意义的识别、理解和表示,它涉及各级语言单位(单词、词组、
句子、句群)所包含的意义及其在语言使用过程中所产生的意义;⑥语用学层次,这是△国家科技部科技基础性工作专项资金项目(2001DEA30039)
对涉及上下文和语言交际环境以及背景意义和联想意义的语义分析。由于自然语言处理侧重于句子、篇章,因而句法分析、语义分析、语用分析3方面便构成了自然语言处理研究内容的基础部分。
自然语言处理研究在电子计算机问世之初就开始了,并于 50年代初开展了机器翻译试验。到了60年代乔姆斯基的转换生成语法得到广泛的认可,生成语法的核心是短语结构规则,分析句子结构的过程就是利用规则自顶向下或自底向上的句法树生成过程国外在1963年就建成了早期的自然语言理解系统,而我国直到1980年才建成了两个汉语自然语言理解模型,比国外起步晚了17年。八十年代中期,在国际新一代计算机激烈竞争的影响下,自然语言理解的研究在国内得到了更多的重视,自然语言理解和人机接口列入了新一代计算机的研制规划,研究单位增多了,研究队伍也壮大了。中国科学院声学研究所、清华大学等单位成立了自然语言理解处理实验室。
由于汉字系统的特殊性,因而对自然语言处理的国内处有着很大的差异。英语有26个字母;中文44908个汉字 (根据《中华大字典》)。 英语起源于5世纪,有一千五百年历史,《牛津英语词典》,收词四十万多条。 汉语六千多年历史,《中山大词典》,收词六十多万条,比英语多 50%。因此实现自然语言的处理需求支撑条件之一是语言系统建设。
2.语言系统:
语言系统被认为是知识工程的一种技术。以往构造知识库的技术是局限性的。直到最近,一个新的基本知识模型的技术出现了。例如欧州的KADS项目(wielinga, 1983)、美国的 PROTEGE项目,日本的MULTIS项目,都来源于(clancey 1985)最新的知识工程化技巧,来自于任务本体(task ontology )的想法。任务本体(task ontology)是作为使用词汇和概念构造知识工程系统单元的理论。因而语言系统建立被称为本体论。
On本体论是一个哲学上的概念,用于描述事物的本质。在近一、二十年来,本体论已被计算机领域所采用,用于知识表达、知识共享及重用。许多学科和研究都在使用“本体”这个术语,但存在不同的定义。
在工程研究中,从知识共享的角度来说,Ontology作为一种概念化的说明,采用框架系统对客观存在的概念和关系的描述。它是通用意义上的“概念定义集”,是关于“种类”(kind)
您可能关注的文档
- 电子产品的广策告划.doc
- 词语解释句子缩句句扩.doc
- 电子产品结构计设过程.doc
- 电子产品设计范规案例.doc
- 词隐性意义对语用意形义成的价值.doc
- 电子信息产业人才需调求查报告.doc
- 电子信息学院学教计划.doc
- 译员主体性在歌曲我个有梦歌词翻译中的体现.doc
- 电子信息工程专业主学干科.doc
- 译林版四年级下册b4.1.doc
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
文档评论(0)