言语读书会20160529林宸升研究.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
常用语料库使用方法和技巧 以CCL语料库为例 CCL语料库中还提供了“模式查询”,用于检索特定的模式。比如“爱V 不 V”、“有 X V X”等构式。此时,为了与文本中的字母进行区分,要求匹配的变量字符用括号括起来。比如查找构式“爱V 不 V”,其对应的查询表达式为“爱(V)不(V)”。 模式查询 常用语料库使用方法和技巧 以CCL语料库为例 V的长度也可以指定,比如: 查询表达式为“爱(V,=3)不(V)”,表示要求V的长度为3; 查询表达式为“爱(V,5)不(V)”,表示要求V的长度不超过5; 查询表达式为“爱(V,2-5)不(V)”,表示要求V的长度介于2-5之间。 模式查询 *经过试验,发现此时只允许=X,X,X,X-X的表达形式,不允许=X和=X的表达形式 常用资源库使用方法和技巧 以中国知网为例 中国知网的“专业检索表达式语法”页面(/ kns/help/help.aspx?helpType=zhuanyeurl=help_yufa.htm)详细介绍了在知网上构造专业检索式的方法。可使用的符号如下: *,同CCL的空格,如TI(题名)=杂交*水稻; 专业检索表达式语法 常用资源库使用方法和技巧 以中国知网为例 +,同CCL的|,如:TI=杂交+水稻 -,表示只包含前一检索词而不包含后一检索词,如:TI=杂交-水稻; ,表示精确匹配,如:AU(作者)=袁隆平; %,表示查询检索词或其一部分,如:TI%杂交水稻; 专业检索表达式语法 语料库与 语言研究线上资源 语言研究所 林宸昇 主要内容 语料库基本概念 常用语料库及线上资源简介 各类常用线上资源的使用方法及技巧 语料库的研究应用领域 自建语料库 第一部分 语料库基本概念 语料库的分类: 分词、加标与否; 生语料库、有标记语料库、树库 语料库:特定目的和普遍目的 主要问题:分词错误;标记错误 三类语料库 生语料库示例:北大CCL语料库 三类语料库 有标记语料库示例:北语DCC语料库 三类语料库 树库示例:中研院中文剖析树系统 语料库中可能出现的两大问题 标记错误: “新加坡/ns 客人/n ……批评/v :/w ‘/w 你们/r 为什么/r……任/v 其/r 杀/v 掉/v 吃掉/v ?/w ’/w ” 分词错误: “解放大道路面积水情况” 第二部分 常用语料库及线上资源简介 四类 语料库 现代汉语语料库 名称:北语动态流通语料库(DCC) 所属机构:北京语言大学国家语言资源监测与研究中心 网址: 类型:现代汉语书面语(报刊) 现代汉语语料库 名称:人民日报切分/标注语料库 所属机构:北京大学计算语言学研究所 网址:/icl_res(需要下载) 类型:现代汉语书面语(报刊) 现代汉语语料库 名称:现代汉语平衡语料库 所属机构:台湾中央研究院语言学研究所 网址:.tw/SinicaCorpus 类型:现代汉语书面语(综合) 现代汉语语料库 名称:利兹大学现代汉语语料库 所属机构:英国利兹大学翻译研究中心 网址:http://corpus.leeds.ac.uk/query-zh.html 类型:现代汉语书面语(综合) 现代汉语语料库 名称:媒体语言语料库 所属机构:中国传媒大学国家语言资源监测与研究有声媒体中心 网址:/RawPub 类型:现代汉语口语(广播电视) 现代汉语语料库 名称:北京口语语料查询系统 所属机构:北京语言大学语言研究所 网址:/yys/6_beijing/6_beijing_chaxun.asp 类型:现代汉语口语 现代汉语语料库 名称:中文句结构树资料库 所属机构:台湾中央研究院语言学研究所 网址:.tw/treesearch 类型:现代汉语综合(树库) 古代汉语及近代汉语语料库 名称:近代汉语标记语料库 所属机构:台湾中央研究院语言学研究所 网址:http://early_.tw/ 类型:近代汉语 古代汉语及近代汉语语料库 名称:上古汉语标记语料库 所属机构:台湾中央研究院语言学研究所 网址:http://old_.tw/ 类型:古代汉语(上古) 现代及古代汉语语料库 名称:CCL语料库 所属机构:北京大学中国语言学研究中心 网址::8080/ccl_corpus/ 类型:现代汉语及古代汉语 现代及古代汉语语料库 名称:BCC语料库 所属机构:北京语言大学大数据与语言教育研究所 网址: 类型:古代汉语、现代汉语及其他语言学资源 现代及古代汉语语料库 名称:语料库在线 所属机构:教育部语言文字应用研究所计算语言学研究室 网址: 类型:现代汉语、古代汉语、词性标注 对外汉语语料库 名称:HSK动态作文语料库 所属机构:北京语言大学大数据与语言教育研究所 名称:对外汉语教学语料库 名称:汉字偏误标注的汉语连续性中介

文档评论(0)

502992 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档