大数据时代的汉语研究应对_张平pdf.doc

大数据时代的汉语研究应对_张平pdf.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代的汉语研究应对 张 平 彭海燕 摘 要: 大数据时代对汉语研究提出了新的要求,语言是人类最为重要的交流思想、传递信息的工具,研究好自 然语言这一工具是我们打开大数据宝藏必备的钥匙。从语言大数据的机器自动提取与分析来看,汉语研究应该 从汉语的实际使用出发,面向语言大数据的处理,进行更为全面地观察,揭示更为精细的使用规则,描写更为细致 的语义特征和语义关系,探索新的汉语语义知识表述理论体系。 关 键 词: 语言大数据; 汉语研究; 汉语使用规则; 汉语语义知识表述理论体系 DOI:10.16059/j.cnki.cn43-1008/c.2015.03.029 大数据正以前所未有的广度和深度影响着这 想象仅凭人力能够完成有史以来如此浩瀚的大数 个时代,诸多基于大数据分析的系统让我们的生活 据提取和分析工作。为大数据服务的语言研究,一 变得更加便利。价格预测系统帮助我们购买到便 定是面向机器的。面向机器的语言研究,发端于机 宜的商品,异常交易报警系统保护信用卡的安全, 器翻译系统研发的需要。上个世纪七八十年代,概 流行病监测系统及时预报疾病感染的区域等等,大 念依存理论、扩展转移网络、广义短语结构语法、中 数据为我们开启了一扇扇从纷繁复杂的现象中寻 心词短语结构语法等在小规模的语言实例训练中 求事物相关性的大门。从顾客网络购物的海量记 表现突出,给机器在理解自然语言的基础上进行翻 录里,商家可以通过统计分析,了解不同人群的喜 译带来了希望②。但是,这些基于有限规则的系统 好,为他们定制个性化的服务①。大数据背后蕴藏 并不能很好地处理各种纷繁复杂的真实语料。随 着价值惊人的信息,这些信息的载体,有数字、有图 着互联网的迅猛发展,大规模的语言数据成为了重 片,更有自然语言。语言是人类最为重要的交流思 要的研究资源。一部分机器翻译研究者抛开对语 想、传递信息的工具,研究好自然语言这一工具是 言结构的分析和归纳,声称不需要特定语言学家的 我们打开大数据宝藏必备的钥匙。 翻译系统通过对海量数据的统计,构建起统计机器 一 面向机器的语言研究背景 翻译模型,并为社会用户提供了切实的网络翻译服 务。尽管基于统计的翻译系统在工程上以更易于 大数据的力量必须借助于机器才能实现,无法 开发的优势领先于基于规则的系统,但每一个用过 作者简介: 张平,博士,湖南大学中国语言文学学院副教授 / 彭海燕,湖南大学中国语言文学学院硕士研究生。( 湖南 长沙, 410082) 基金项目: 教育部人文社科规划青年基金项目( 12YJC740139) ①维克托·迈尔·舍恩伯格、肯尼思·库克耶: 《大数据时代: 生活、工作与思维的大变革》,杭州: 浙江人民出版社,2013 年。 ②冯志伟: 《自然语言处理的形式模型》,北京: 中国科学技术出版社,2010 年。 139 google 和有道翻译的用户都不会对其翻译效果表 示十分的满意。不少研究者仍希望通过对自然语 言进行面向机器的深入探索,从根本上突破机器翻 译的难题。伴随着大数据时代的来临,语言数据的 机器提取与分析对语言研究提出了更多的要求。 詹卫东从计算语言学的发展过程中得到启发,认为 大数据时代的汉语研究,首先应该更加注重语言工 程的研究和开发,以提高汉语大规模语言资源的数 量、类型及易获得性,因此,汉语语言资源建设应努 力实现语言范畴形式化、语言数据专项化和语言知 识可视化; 其次,汉语语言学的研究应更加开放、更 具多元化视角、更加注重多学科的交叉和融合①。 除了詹文指出的两大宏观方向外,从语言大数 据的机器自动提取与分析本身来看,汉语研究还应 该关注汉语的计量单位和汉语的结构化这两个方 面的问题。获取语言大数据的根本目的,在于挖掘 具有统计学意义的语言大数据背后有价值的信息。 对超大规模语言材料进行计量统计是语言大数据 处理的前提,而汉语的结构化,尤其是语义知识的 结构化是训练机器自动理解语言大数据所承载的 语义信息的基础。 二 对超大规模语言材料进行计量统计的汉 语研究应对 语言是一套音义结合的符号系统,语言信息主 要以语义知识的形式存在。这一特点决定了服务 于语言大数据提取与分析的汉语研究首先要从作 为音义结合体的各语言单位计量统计入手。要进 行语言单位的计量,最为基础的语言研究任务是对 它们进行划分和定性。以往谈语言单位,主要是语 素、词、短语、句子、语段、语篇等。在汉语中,句子、 语段和语篇由于形式上有明显的分隔标记,句子可 以依靠句号、问号

文档评论(0)

dashewan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档