大数据云计算互联互通背景下的当代在线汉语-程度、行为与悬疑表达的语义摆度.docxVIP

大数据云计算互联互通背景下的当代在线汉语-程度、行为与悬疑表达的语义摆度.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

??

?

??

大数据云计算互联互通背景下的当代在线汉语

程度、行为与悬疑表达的语义摆度

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

周静,杨海明

[摘要]当代在线汉语近年来有不少的发展变化,从大数据云计算互联互通背景讨论三个问题:大数据与语言学反思;当代在线汉语与大数据;具象化、扩张与悬疑表达。在这三个方面统计静态语料库、动态在线数据的总词频、实际观察频次,从云计算基础上看预期搭配频次、理论预期与实用比差、互为信息值以及活力对数值等数据背后的语义摆度,揭示当代在线汉语的程度、行为和悬疑表达背后的语言运用规则、倾向与可能性。

[关键词]大数据;云计算;互联互通;在线汉语;语义摆度

[作者简介]周静,广州暨南大学华文学院华文教育系主任,教授,博士;杨海明,广州暨南大学华文学院汉语系教授,博士,广东广州510610

[中图分类号]#H0-05[文献标识码]A[文章编号]1004-4434(2017)03-0008-06

朦胧的大数据概念出现时间已经不短了(AlvinToffler,1980),但正式提出则是近十来年的事(apacheorgHUTCH,2005)①。但短短的十来年,人们对于数据的天量挖掘和海量运用,不仅获得了出人意料的回报,同时也标志着大数据时代的到来。虽然在人文科学领域大数据的运用稍显迟到,但并未缺席,很多学者以敏锐的眼光抓住苗头进行研究并取得了丰硕成果。

今天人们所说的大数据已不是传统意义上的以数字为主要载体的信息。大数据信息几乎囊括了从数字到真实视频以及三维动画的全部信息格式。大数据(BigData)有数据量大(Volume)、信息类型多(Variety)、价值密度低(Value)、处理时效高(Velocity)、在线(Online)等特点。而云计算(cloudcomputing)有搜索访问方便、加工处理高效、储存安全、提取快捷、空间巨大等特点。在二者互联互通背景下,利用大数据来进行人文社科领域的量化研究,正在成为一种趋势。语义摆度(semanticstransfer)是指跨越认知域的语义投射,本文只涉及三个方面:(1)抽象程度的具象化(很好:巨好、超好、爆好);(2)行为对象的扩大化(吃饭:吃人、吃单)[1];(3)悬疑结构的信息溢出(overflow)与覆盖(contain)(谁:尴尬了谁、方便了谁、火了谁)[2]。本文拟在前人研究基础上,从大数据云计算互联互通角度讨论与语义摆度相关的三个问题。

一、大数据与语言学反思

(一)大数据与当代汉语

从大数据角度看,宇宙的本质是物质,物质的本质是信息,信息的本质是数据[3]。既然语言的本质是符号、是系统,那么符号系统的本质是什么?还是数据。因为语言的三大要素语音、语义、语法最终都体现为数据。特别是当代在线汉语有涉及面广、来源复杂、类型多样、语义摆度幅度大等特点。这就构成了当代在线汉语有多样化和不确定性(uncertainty)的特点。尽管如此,汉语并非不可知,正如我们可以用分析一滴海水的分子结构的方法去了解整个海洋水分子的结构一样,也可以通过大数据、云计算、互联互通,去发现词语搭配的预期出现频次、理论与运用差比、互为信息值、词语搭配活跃对数值等,从而窥见当代汉语运用的一些核心信息。因为从大数据角度看,语言运用最终都体现为数据,结合云计算和互联互通,监测与分析这些数据就可从一个全新的角度去突破,从观察监测到的大数据出发,排除当代在线汉语的不确定性,最终揭示其基本规律、发展趋势和个体倾向。

(二)语言学界的反思

传统的语言研究多集中于语法单位、词类划分、句子分析、语用特点等。功能语法学则集中在研究语言的概念功能、人际功能和语篇功能。认知语言学认为语法规则是人类认知客观世界规则的体现。构式语法重在研究语素、词、短语、句子的组成规则上。语用研究则是结合语境研究人们是如何进行语言活动的。随着这些研究的深入,儿童母语习得,儿童或成年人的二语习得、语言使用、计算机自然语言处理,语言规划、语言生态以及开发语言资源等的研究也在展开。

语言学家从传统角度研究的方法到结果都进展缓慢,而计算语言学从计算机、数学、逻辑学角度研究则突飞猛进。现在基于大数据统计方法的语言处理系统效率越来越高,成了该领域的主流,因此基于传统语言规则的处理方法被许多学者摈弃。目前,大数据、云计算、互联互通兴起,信息网络化、网络终端个人化、信息发布自媒体化已经成为常态,这促使人们进行语言学的反思。

20世纪IBM负责机器翻译的FrederickJelinek说过一句名言:我每解雇一位语言学家,我的系统表现都会有所改善。这是对语言学家的全盘否定,为什么会是这样?人们现在说“大数据就是力量”“大数据就是财富”,循此思路,人们只要研制出语法检查程序(grammar

文档评论(0)

137****7707 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档