第七回 人文的基因 艺术的巡礼.docx

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七回 人文的基因 艺术的巡礼

第七回人文的基因艺术的巡礼?我们所能经历的最美好的事情是神秘事物,它是所有真正艺术和科学的源泉。?——阿尔伯特·爱因斯坦??古今中外,人文社会科学没有一个非常明确的范围,但大体上语言、文学、艺术、哲学、逻辑、历史、政治、经济、管理等可算为人文社会科学。其中,哲学、逻辑、政治、经济、管理等学科与统计学的关系之密切是众所周知的。本回仅粗略谈谈统计学与语言文学之间的联系。在一些人眼中,统计学与语言文学似乎在人类文明的两极。一个是理性思维,一个是形象思维,互不搭界。其实,这是一种偏见,统计学与语言文学之间,不论从历史与现实考察,还是从形式与内容来看,都有着深刻的关联。数据是最简练的语言,统计学和数学中的公理、定义、定理是最无歧义的语法。因而,统计是语言文学所能达到的最高境界。早在19世纪中期,就有人提出用数量分析的方法研究语言现象了。1847年,俄国数学家布涅雅可夫斯基(1804-1889)提出了用概率论进行语法、词源和语言历史的比较研究。1894年,瑞士语言学家索绪尔(1857-1913)指出:“在基本性质方面,语言中的量和量之间的关系可以用数学公式有规律地表达出来。”在上篇故事中,我们也曾提到,俄国数学家马尔可夫(1856-1922)在对俄语言字母序列的研究中,提出了马尔可夫随机过程理论,促进了统计学与语言文学研究的结合。随着科学技术、商业贸易和外交活动的发展,科技文献浩如烟海,国际间贸易和交流日益频繁,人类的语言障碍就显得越来越突出了。人们从事文献检索、信息加工、资料翻译的工作量日益加大。计算机的发明和应用,解决了这些繁琐而沉重的工作。为了能让计算机进行机器识别、自动检索、语言翻译等信息处理,必须对语言学中各种概念用定量技术进行严格的分析,建立语言的统计模型,采用数据分析的语言描述语言现象。同时,计算自身的发展,如汉字系统、人机对话、通讯技术中的信息数据化等,也提出了用统计学研究语言文学的需求。另一方面,19世纪以来,多元统计、非参数统计、数理逻辑、定型数据分析、模糊统计等众多统计学分支的兴起,也为用统计方法研究语言文学提供了技术支持。关于统计学与语言文学的联系,有很多有趣的故事,舍去一些铺垫转承等一些虚的东西,捡一些干货来说,统计学与语言文学的联系主要体现在以下几个方面:第一,语言具有随机性在文学作评中,语言符号的出现是不确定的。例如,老舍先生的《骆驼祥子》一书的总字数为107360字,但不同的汉字数仅为2413个。其中,“的”字出现的频率最高,为4.12%,其次是“他”字,频率为2.40%,这与一般文字材料高频汉字的排序不同。“的”字的高频出现,反映了口语化的老北京方言,“他”字的高频,表明老舍小说中用的是第三人称。这都说明了老舍作品的特点。此外,“祥”字出现778次,“虎”字出现220次,“妞”字出现174次,它们出现频率偏高与作品内容有关。语言虽具有随机性,但语言符号出现的分布是有规律的。老舍先生用2413个汉字便写出了一部传世之作。那么,一个人学习一种语言,需要掌握多少词汇或字,才能顺利进行阅读和交谈呢?哪些是常用的基本词汇,哪些是一般词汇,过去是依靠语言学家的经验主观确定的,现在多采用概率统计的方法得出。汉字是一个十分庞大的字符集,《康熙字典》收字超过56000个,要从众多汉字中挑选出最常用的汉字,是一项工作量巨大的工程。我国最早用字频统计选取基本词汇的是著名教育家陈鹤琴,1928年他编写了《语体文应用字汇》。1946年,四处省教育科学院根据陈鹤琴的《语体文应用字汇》和其它文献资料,编写了《常用字选》,选出了最常用汉字2000个。1952年,教育部公布了一个《常用字表》,收集常用汉字2000个.1964年经过精简分开,实收常用汉字减至1968个。1985年,我国完成了“现代汉语词频统计”的课题研究,编制出13种字频统计表。1986年,国家语言文字工作委员会根据对大量的文字资料的统计处理,先后编制了《现代汉语常用字表》和《现代汉语通用字表》,分别收字3500个和7000个。通过检验和实际使用,证明了这两个表的收字是合理适用的。第二,语言有规律性语言符号的出现虽是随机的,但在大量使用时可以呈现出统计规律性。这种规律性不仅表现在此字频显示的词汇式汉字出现的规律,还能描述出作家的写作风格。每位作者都有自己独特的风格,文如其人,除了作品的内容以外,遣词造句的习惯等语言特点也形成作品风格的重点特征。这种风格在数量上的表现就每位作者不同作品语言特点的规律性和不同作者语言特点的差异性。在18世纪末期,一些期刊上署名为Federalist的12篇文章的真正作者是谁,曾引起长期争议。有人认为文章的作者是英国政治家哈密尔顿,有人认为是英国第四任总统麦迪逊。1964年,两位英国统计学家用统计方法开始对其进行考证。开始,用“平均句长”对哈密尔

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档