言语读书会20160529林宸升素材.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
常用语料库使用方法和技巧 以CCL语料库为例 CCL语料库中还提供了“模式查询”,用于检索特定的模式。比如“爱V 不 V”、“有 X V X”等构式。此时,为了与文本中的字母进行区分,要求匹配的变量字符用括号括起来。比如查找构式“爱V 不 V”,其对应的查询表达式为“爱(V)不(V)”。 模式查询 常用语料库使用方法和技巧 以CCL语料库为例 V的长度也可以指定,比如: 查询表达式为“爱(V,=3)不(V)”,表示要求V的长度为3; 查询表达式为“爱(V,5)不(V)”,表示要求V的长度不超过5; 查询表达式为“爱(V,2-5)不(V)”,表示要求V的长度介于2-5之间。 模式查询 *经过试验,发现此时只允许=X,X,X,X-X的表达形式,不允许=X和=X的表达形式 常用资源库使用方法和技巧 以中国知网为例 中国知网的“专业检索表达式语法”页面(/ kns/help/help.aspx?helpType=zhuanyeurl=help_yufa.htm)详细介绍了在知网上构造专业检索式的方法。可使用的符号如下: *,同CCL的空格,如TI(题名)=杂交*水稻; 专业检索表达式语法 常用资源库使用方法和技巧 以中国知网为例 +,同CCL的|,如:TI=杂交+水稻 -,表示只包含前一检索词而不包含后一检索词,如:TI=杂交-水稻; ,表示精确匹配,如:AU(作者)=袁隆平; %,表示查询检索词或其一部分,如:TI%杂交水稻; 专业检索表达式语法 常用资源库使用方法和技巧 以中国知网为例 BETWEEN (数字1,数字2)为年度阶段查询,如:YE(发表年份) BETWEEN (2000,2013)。 除此之外,知网搜索还包括SEN、NEAR、PREV、AFT、PRG、$等搜索符号。 专业检索表达式语法 常用搜索引擎使用方法和技巧 以Google为例 常用的检索符号: +或或空格或AND,搜索结果同时包含两个检索词,如语言学+索绪尔 -或NOT ,搜索结果只包含前一检索词而不包含后一检索词,如语言学 -索绪尔 |或OR,搜索结果包含两个检索词中的至少一个,如:语言学|索绪尔; 搜索符号 常用搜索引擎使用方法和技巧 以Google为例 “” ,精确搜索检索词,如:”索绪尔语言学”; (),在使用多种符号时用以调整搜索条件的优先级,如:(语言学 符号学)|索绪尔; *,通配符,表示一个任意字符(包括汉字),如:*绪尔语言学。 搜索符号 常用搜索引擎使用方法和技巧 以Google为例 命令是指由一个指定的命令项加上英文冒号所构成的指令,用来检索含有特定内容限制的网络数据,和CCL语料库中的author:、name:等搜索表达式类似。常用的检索命令包括以下几种: 1. site:命令,用来在某一网址下搜素某检索词,如:索绪尔 site:,此检索命令可用来查找电子书; 搜索命令 常用搜索引擎使用方法和技巧 以Google为例 filetype:命令,用来搜索属于某种文件类型的文件,如:索绪尔 filetype:ppt;related: 命令,用来搜索与指定页面相关的其他网页,如:related:ccl.pku. ; intitle:命令,用来搜索网页标题中包含某检索词的页面,如:intitle:索绪尔; inurl:命令,用来搜索网址中包含某检索词的页面,如:inurl:.gov。 搜索命令 第四部分 语料库的研究应用领域 某个词的词频统计 多个词的词频比较 词语在不同语体(语域)中出现的倾向性分析 词语间的倾向性搭配(同现)情况及比较分析 离合词的离合程度研究 第四部分 语料库的研究应用领域 各种句型的出现频率及典型特征分析 某词语出现频率的历时变化研究 某词语或结构的语源考察 语法化不同发展阶段考察 对外汉语中确定表述的合理性程度以及偏误分析 第五部分 自建语料库 确定目的或主题 搜索或录入相关资源数据 进行必要的处理,制成生语料库 对生语料库中的文字作加标处理 进行人工校正 余论:英语语料库简介 余论:英语语料库简介 名称:BNC(英国国家语料库,British National Corpus) 简介:是牛津英语词典、朗文当代英语词典等词典所依据的主要语料库资源之一,也是英语语料库中最为出名和收词量最大的在线语料库之一。 由牛津出版社、朗文出版公司、钱伯斯-哈罗普出版公司、牛津大学计算机服务中心、兰开斯特大学英语计算机中心以及大英图书馆等机构联合研制,于1994年上线。 其来源广泛,涵盖20世纪后期至今的当代英式英语,资源达1亿词,包括口语(10%)和书面语(90%),包括了4124篇英语文本材料,在加标上则采用了三级加标方式。 网址:/bnc/ 余论:英语语料库简介 名称:COCA(当代美国英语语料库,Corpus of Con

文档评论(0)

502992 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档