- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
莫言作品语言特色计算机分析方法
莫言作品语言特色计算机分析方法
摘 要:本文运用计算机软件方法,实现对莫言若干篇作品的自动处理,分析他遣词用句的文学特色,尝试计算机软件和数据库技术在文学领域的应用。
关键词:莫言;词频分析;文本处理
0 引言
文本分词处理是情报学、信息技术研究的重要方向和应用领域,目前对于英文文本处理的技术比较成熟,而中文表达方式在结构上与英文有着巨大的差异,中文文本中的词语的用法变化多端,需要深入地研究。诺贝尔文学奖得主莫言(1955-),原名管谟业,生于山东高密县,中国当代著名作家。香港公开大学荣誉文学博士,青岛科技大学客座教授。他自1980年代中以一系列乡土作品崛起,充满着“怀乡”以及“怨乡”的复杂情感,被归类为“寻根文学”作家。其作品深受魔幻现实主义影响,写的是一出出发生在山东高密东北乡的“传奇”。莫言在他的小说中构造独特的主观感觉世界,天马行空般的叙述,陌生化的处理,塑造神秘超验的对象世界,带有明显的“先锋”色彩[1]。我们通过计算机从定性的角度研究莫言的语言特色,从而提高人们欣赏莫言、欣赏文学、热爱中华民族文化的水平。
开发计算机处理语言文本软件,就是通过计算机技术进行定量的分析,能更准确地反映作家的写作技巧和语言驾驭能力,总结知名作家的艺术发展之路。本文选取莫言的代表作品5篇以上,进行分词后保存到数据库,进行聚类分析,最后选取一定的高频词结合作品的情节分析它们的特色所在。
1 文本选取及处理
1.2 文本选取
本文选取莫言不同时期的五部具有代表性的作品《红高粱》、《檀香刑》、《丰乳肥臀》、《生死疲劳》和《蛙》进行分析。1981年莫言发表了人生的第一部作品《春夜雨霏霏》。至今莫言共发表了80多篇短篇小说、30部中篇小说、11部长篇小说,出版过5部散文集、一套散文全集、9部影视文学剧本,以及两部话剧作品。
如图1,莫言作品时期间隔明显。莫言是我国新一辈极具活力的作家之一。早期的作品描写童年记忆的乡村世界,表现独特的生命体验。中期受拉美魔幻现实主义的影响,构造独特的主观感觉世界,塑造神秘的超??的对象世界,给人以“先锋”色彩。而后进入新的探索期,激情勃发,画面五彩斑斓,语言充满进攻型,反叛语言[2]。本文进行分析研究的五部作品是莫言不同时期的作品,一部是早期的,一部是中期的,其余三部是新时期的。
1.2 技术方法
运用计算机语言VB和VC开发出一款中文语言文本处理软件,定量的分析莫言作品中语言特色;使其具备对选中的文本进行分词处理及将处理好的词汇导入数据库表,并统计词频;然后利用SQL server 2005和Excel 2010中分类、排序和汇总等功能对数据进行对比分析等处理。
1.3 文本处理
文本处理分为两个部分。第一,将将不同格式的莫言小说的电子文档转为统一的.txt文件格式,运用自编文本处理软件将电子文档进行分词处理,并导入SQL server 2005和Excel 2010中,使其满足分类、排序和汇总等功能将数据处理为所需形式。第二,人工结合计算机分析的结果将每部作品中出现频率高的字、词提取出来,利用Excel 2010进行对比分析。并与莫言所生活的环境和所处时期进行对比,得出其语言的用语特色。
2 软件设计
软件设计可分为两个部分工作。
第一,准备工作。在处理数据前先对词频分析和如何词频分析进行了研究。现在较为成熟的词频分析为英文的词频分析,因为英文每个单词之间都有空格符间隔,易于进行提取单词处理。而现在较为成熟的中文分词软件是AnalyzerTest和中科院张华平博士的分词软件,而这两款分词软件都有一些欠缺。AnalyzerTest的分词效果稍差些,速度和准确性有待提高;张华平博士的分词处理软件的可操作性不高,使用方法繁琐。因此,本文力求克服上述软件的缺点,就如何实现并提高中文分词的效率和如何提高软件的可操作性方面进行了重点改进。软件设计侧重于两个方面:(一)基于字符串的分词方法,这种方法主要是提高对长字符串的提取。现行的中文分词软件对超过两个字的长字符串的分词效果差,这样对文章分析的破坏性很大。本文着力提高对字符串的提取效果,对文本处理意义很大。(二)基于统计的分词方法,特别关注对叠词的提取。叠词在文章分析过程中很容易改变原意。
第二,编写程序,文本分词处理。本文的特点是以助词、语气词、标点符号等特殊字词为标志来实现分词处理,应用中预期效果很好。
文本处理的程序运行流程如图2所示。在实际应用中如果仅仅利用上述的特殊字词为标志来处理文本的话,那么产生的结果会有较大的失真现象。例如若以助词“的”为特征词来做分词处理,那么如果出现“有的放矢”这个词,软件就会将“的”剔除,变成“有”和“放矢”这两个词。使分词的效率
文档评论(0)