台语语料处理技术报告-白话字台语文网站.DOC

台语语料处理技术报告-白话字台语文网站.DOC

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
台語語料處理技術報告 基於對應語料庫的語言研究 杜海倫 謝婉婷 簡介 語料庫語言學是近30年發展起來的分支科學,主要任務和目標是:以電腦儲存足量的真實語料,對這些語料做各種代有研究目的的標注,利用研制的檢索工具對標注語料作方便快捷的搜尋和分析,用以研究語言事實和特徵。 雙語對應語料庫可供兩種或兩種以上語言作對比研究,可以為翻譯研究者提供素材,也可為雙與詞典的編簒提供更多可挑選的語料,是一個令人興致勃勃的研究領域。雙語平行對應,就是兩種語言經過翻譯後的對應;有單向的對譯,如從英語譯成漢語,英語是原語,漢語是譯語;有雙向的對譯,即從英語譯成漢語,和從漢語譯成英語,英語與漢語的語料裡均既有原語又有譯語。 雙語語料庫的具有單語語料庫所不具備的價值,但創建雙語語料庫較單語語料庫困難:1. 雙語對應的語料不及單語的豐富;2. 要尋找合適的對譯文本,不能收翻譯的過於生硬或隨意的譯本;3. 語料選材要考慮代表行並確保可比性;4. 雙語是否對應(尤其在句子層級的對應),需要花費更多力氣做檢查與校對。 本文以雙語對應語料庫(漢語以字為單位,英語以詞為單位)做下列各種對應考察,並在之後的章節討論發現的語文現象: 英漢語句對應考察 英漢語中“體”的分布考察 英漢語致使結構對比 漢語把字句特點、分布及英譯問題 英漢語被動語句的特點與機器翻譯處理 英漢語動結結構對比與語料考察 日對漢對比的語料與考察與研究模式 英漢語句對應考察 本章討論以下語句對應問題: 英漢對譯在語句層面的對應比例 不同類型文本或不同翻譯方向的文本其對應比例有無特點? 英漢互譯後的文本在文字量上有何變化? 作者以其自行研制的雙語語料庫,分為漢譯英文學語料、漢譯英非文學語料、英譯漢文學語料、英譯漢非文學語料,共四個子庫,分析以上問題 英漢、漢英語句對應問題 以雙語對應語料庫做抽樣統計(漢譯英文學語料取14篇、漢譯英非文學語料取15篇、英譯漢文學語料與英譯漢非文學語料各取17篇;每篇不足一萬字詞者取完本,超過則隨機取其章節),得到漢語對英語的語句對應比為1:1的頻率最高 (在四個子庫的頻率分布如下表1),其次為1:2和2:1,這三者的總和佔全部對應語句的90%以上,而1:2句對多於2:1,1:3句對多於3:1。 表1 ? 漢譯英 英譯漢 ? 文學類 非文學類 文學類 非文學類 範圍 54%~82% 64%~91% 70%~97% 71%~94% 平均 63.3% 80.2% 81.9% 84.7% 分析以上結果: 1:1的句對比例相當高,可見句子不失為翻譯的一個主要轉換單位。 中英文句子在斷句, 標點上的差異是影響1:1對應比例以及導致中文一句對多句英文現象較多的主要原因。英文在句法上較嚴格,中文則多流水句,以句號斷句的完整句子中常含有多個小句。如: 你說笑話也得有個分寸, 以後不許你開口 Your joking can go too far. From now on, you’re to keep your mouth shut. 譯者行文習慣是簡潔或冗長,也會影響語句對應比例。 譯文受原文影響程度有差異。漢語譯者翻譯時多參照原文句式,英語譯者則較依從英語表達的習慣;此外譯者在翻譯較嚴肅的文本時較會參照原文句式,故非文學類1:1句對比的出現頻率較高。 英漢、漢英互譯文本的文字量變化 兩種語言互譯後通常會涉及原文文本與譯文文本的文字量變化。英語與漢語的平均字詞量對應比為1:1.6 (亦即一個英文詞約為1.6個中文字),而作者自雙語語料庫中抽查550萬字詞的統計結果,互譯文本的文字量對應比例則為表2。 由表2可發現,漢譯英時,一個漢字會翻成1/1.41=0.71(文學類)或1/1.33=0.75(非文學類)個英文詞,但根據平均字詞量,一個漢字約等於1/1.6=0.625個英文詞,故漢譯英時會呈文本擴增特點;同樣的,英譯漢時,一個英文詞譯出的漢字數均高於平均值1.6,因此英譯漢也有文本擴增的特性! 表2 ? 漢譯英 英譯漢 ? 文學類 非文學類 文學類 非文學類 考察語料數(萬字詞) 150 100 170 130 平均 1:1.41 1:1.33 1:1.79 1:1.72 Blum-Kullka(1986)認為,譯者對原文進行解釋的過程,有可能使目標語文比原文本冗長。 英漢語中“體”的分布考察 本章應用FLOB (英國英語,Hunt, Sand Siemund,1998) ,Frown (美國英語,Hunt, Sand Skandera,1999)和LCMC (漢語,McEnery Xiao Forthcoming, HYPERLINK http://www.ling.lancs.ac.uk/corplang/lcmc http://www.

您可能关注的文档

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档