- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(应用语言学考试整理
名词解释
(中文)自动分词:
①自动分词是中文信息处理的基础技术之一,是中文词处理阶段的主要任务之一。
②分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
④在把汉语输入计算机时,计算机接受和存储的是一个个字串,要让计算机自动分出词,就是要把一个个字串变成一个个词串,具体的做法是在每一个词的前后加上空格。
“从小学电脑……” →→ “ 从 小 学 电脑 ……”
⑤中文自动分词大体分为基于字符串匹配的分词方法,基于理解的分词方法,基于统计的分词方法等。
2、汉语语音识别输入:
①汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,抽取汉字的语音特征,实现对汉语语音的自动识别。
②其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。
③语音识别输入的优点主要有输入速度快,工作强度低,使用最方便。
3、语言学习:
所谓语言学习(Language Learning)就是在儿童习得母语之后,在正式的场合(如课堂)里进行的获得第二语言或外语的过程,这个过程有成有败,和语言习得不同。
4、语言习得:
心理语言学家认为,每个人的母语都是在他1岁半至6岁之间,随着发育成长而在周围环境的作用下自然获得的,这就是语言习得(Language Acquisition)。
5、语言能力:
语言能力,即“语言”,指的是在人的大脑中形成的一种能够按照本族语的语言规则把声音和意思联系起来的能力,是一套使用语言的规则。
6、语言文字的地位规划:
语言文字的地位规划和本体规划是语言规划的两方面内容。
语言文字的地位规划指的是某一国家或地区中,某种语言或文字与其他的语言或文字在地位上的关系,就是决定某种语言或文字在社会交际中的地位。
这种规划,一般要借助于政治的力量来进行,因此,它相当于语言学家诺依斯图蒲里的“政治法”。
语言文字的地位规划主要包括两方面的内容:1)决定某种语言在社会交际中的地位2)决定某种文字在社会交际中的地位。也就是说,语言文字的地位规划包括确定国家共同语的语言标准和文字形式、文字的地位规划。
7、语言文字的本体规划:
语言文字的地位规划和本体规划是语言规划的两方面内容。
语言文字的本体规划,指在某一语言或文字内部其自身的普及推广以及标准化和规范化的问题,这是语言文字本体内部的关系问题,也就是语言文字本体的改造和完善。
在语言文字的本体规划中,需要保护语言文字本体的纯洁和健康,需要对语言文字本体进行精雕细刻的培育,因此,诺依斯图蒲里把它叫做语言规划中的“培育法”。
语言文字的本体规划主要包括三方面的内容: 1.共同语的推广和规范化2.文字规范和标准的制定3.科学技术术语的标准化。
8、语言政策:
指人们有意识、有目的地影响语言文字功能作用所采取的各种行政性的措施,具体地说,就是一个国家、一个民族或一个地区规定的语言文字所应遵循的方向、原则以及为此而提出的工作任务。
9、汉字存储:
汉字存储有两层意思:
一是指汉字内部码、交换码等汉字代码的存储,这与汉字的数据结构有关;
二是指汉字字形的存储,它与汉字字形库(简称汉字库)设计有关。
汉字存储的关键在于字形描述。所谓字形描述就是将人可以认读和书写的字形表示成可供计算机存诸和处理的信息的加工过程。汉字字形描述是中国计算语言学的一项基础研究。
10、未登录词:
未登录词(unlisted / unknown words)是指词表未收因而机器不认识的词。
词表应当有一定规模(一般是几万词);极而言之,如果词表为空,文本中的每一个词都成了未登录词。另一方面,未登录词本质上是不可穷尽登录的:人名、地名几乎可以看成是无限的,新词也在不断地产生。
为了识别未登录词,人们采取扩充词表的方法,但更好的方法有待寻找。
11、儿童语言发展:
儿童语言发展又称语言获得,是指儿童对母语的产生和理解能力的获得(主要是指对口头语言中的说话和听话能力的获得)。
儿童语言发展包括儿童语音、词汇。语法,以及语用的发展。
儿童语言的发展具有连续性、阶段性,同时,这些阶段的出现又具有一定的顺序性。
儿童语言发展研究已成为一门横跨多门学科的交叉性学科,它和哲学、教育学、发展心理学、社会心理学、神经生理学等都有相当密切的关系。另外,它还对语言教学具有相当大的影响,包括母语教学和外语教育。
二、简答:
1、计算语言学发展的四个阶段:
(1)汉字的信息处理:汉字属性的统计与研究;汉字编码理论与技术;汉字常用字表和通用字表的制定;汉字字形库的研究,等等。
(2)词语的信息处理:汉语分词规范,汉语总词表,词频统计;汉语自动分词系统,分词质量评估软件;汉语词类划分规范,带有词性标注
文档评论(0)