基于语料库工作.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * 中文信息处理--基于语料库的工作 * 标注集 General definition: Tags can be represented as a vector: (c1,c2,...,cn) Thought of as a flat list T = { ti }i=1..n with some assumed 1:1 mapping T ? (C1,C2,...,Cn) English tagsets: Penn treebank (45) (VBZ: Verb,Pres,3,sg, JJR: Adj. Comp.) Brown Corpus (87), Claws c5 (62), London-Lund (197) * 中文信息处理--基于语料库的工作 * 其它语言的标注集 Differences: Larger number of tags categories covered (POS, Number, Case, Negation,...) level of detail presentation (short names vs. structured (“positional”)) Example: * * * * * * 所谓系统型语料库就是依据事先确定的选材原则和比例选取语料的语料库,这类语料库强调语料选取的系统性,均匀性和合理性,力求具有广泛的代表性,以真实反映一个特定语种或特定范围的语言事实全貌.如英国的BNC语料库,美国的Brown语料库,以及由英国Lancaster大学倡仪,由挪威Oslo大学完成的LOB语料库 专用型语料库如美国为研究儿童心理语言学而建立的CHILDES语料库,为珍藏人文科学重要著作和资料而建立的北美人文科学语料库等,都属于专用型语料库. * * 最具代表性的文本语料库是于1964年公布于世,其后又经过多次修订的Brown University Standard Corpus of Present-Day American English.它是以1961年美国出版物为对象,规模达100万句, 又于1978年推出了以英式英语为对象的LOB语料库(Lancaster/Oslo-Bergen Corpus of Birmingham), 以口语为对象的具有代表性语料为LLC语料((London-Lund Corpus of Spoken English).它由50万句的口语型英式英语构成 * COBUILD Corpus 是80年代第一个以词典编撰为应用背景构建的大规模语料库,是英国Birmingham大学与Collins出版社合作的结果,规模达到2000万词级。语料库名称也是两家单位的首字母 缩写(Collins Birmingham University International Language Database)。 Longman语料库建于80年代,由三个大语料库构成,规模达到5000万词级。包括LLELC语料库(Longman/Lancaster英语语料库)、LSC语料库(Longman口语语料库)和LCLE (Longman英语学习语料库)。该语料库的主要目标之一是编撰英语学习词典,为外国人学习英语服务。 * ACL/DCI美国计算语言学学会数据采集计划 ,其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。 Upenn treebank 美国Pennsylvania大学80年代末90年代初开始发起了树库计划,对百万词级的语料进行句法结构标注。该项目由Pennsylvania大学计算机系M.Marcus主持,到1993年,完 成了对近300万英语词的句子的基本法结构标注。 LDC语言数据联合会 (Linguistic data Consortium): 设在美国宾州大学,实行会员制,有163 个语料库 (包括Text的以及 speech的),共享语言资源。 * * * * * * * * * * * * * * * * * * * * 中文信息处理--基于语料库的工作 中文信息处理--基于语料库的工作 基于语料库的工作 张宇 * 中文信息处理--基于语料库的工作 * 大纲 什么是语料库 语料库的发展简史 语料库建设中处理的问题 数据标注 * 中文信息处理--基于语料库的工作 * 什么是语料库 语料库,英文为Corpus 存储语言材料的仓库 现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本. * 中文信息处理--基于语料库的工作 * 关于语料库的三点基本认识 语料库中存放的是在语言的实际使用中真实出现过的语言材料; 语料库是以电子计算机为载体承载语言知识的基

文档评论(0)

beautyeve + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档