
  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。

Web as corpus I Great potential of Web as Corpus 网络语料的巨大潜力 从一道选择题开始:网友提问 (2009-04-03 14:08:46) 梧桐树下(553575272) 各位C友 请帮忙看看 As my exams are coming next week, I’ll take advantage of the weekend to _____ on some reading.    A catch up    B clear up    C make up    D pick up  What would you do? 我的方法 1. 设计google检索表达式: “take advantage of * * to * up on * reading” 2 结果请见: take advantage of * * to * up on * reading II. Why web as corpus? What is corpus? A simple definition: Collection of texts.简答说文本集合就叫做语料库。Web pages are mainly collection of texts, so web can be regarded as a kind of corpus. 语言的用法往往遵循“有很多其它人(native speaker)这么用,我也可以这么用” What does a corpus contain? Conventional usage of a language.语料库中蕴含了一种语言的习惯用法 How to access a structure in a corpus?如何从语料库中查找一个特定的结构呢? Through a computer-based tool. So google can be regarded as that kind of tool for searching a certain language structure from the web. 只有通过计算机工具来实现。google本来是一个信息搜索工具,我们将它作为从网络上获取特定语言结构的搜索工具。 Search for collocation of English words 通过google检索英语词项的搭配。搭配是外语学习中一个非常重要的内容。 比如上面例中的 As my exams are coming next week, I’ll take advantage of the weekend to _____ on some reading.    A catch up    B clear up    C make up    D pick up  常量[take advantage of] 变量[the weekend变量都用*代替] 常量[to] 变量[*] 常量[up]常量[on] some 常量[reading]. 在google中整个当作一个短语(phrase as a google operator )来搜索,用*替换所有变量,用半角双引号括起来: take advantage of * * to * up on * reading 作为短语搜索和不作为短语搜索的区别 比如English grammar和the grammar of English 是“bigger variance” 还是“larger variance” ?统计学中的“更大的方差” 是”interested on” 还是”interested in” “interested to”? 请比较各自的频率优势,一般频率高者为首选 Many translators have made studies on the idioms translation. conducted studies Site restrict search限定网络语料来源。Why do we need site restrict search?网络资源千差万别,质量良莠不齐。 site:限定搜索某个特定网站如:Chinese twitter Site:edu限定某一类网站:请比较校训的说法school metto 和university metto 美国大学网站上的用法;比较中国大学网站上的用法:school metto和university metto III. Partial Parallel Texts of English and Chinese英汉局部对应语料 1.汉英词汇对照表 ... 动


laolingdao1a + 关注


