语料库技术第二讲.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语料库建设技术 Corpus construction Technologies 陕西师范大学外国语学院 张霄军 Andyzxj2@126.com 内容 Content 语料库设计( Design a Corpus) 目的( purpose) 框架( frame) 比较( comparison) 元数据( Meta-data) 采集( collection) 标准( criteria) 内容 Content 语料流程( procedures) 求入( inputting) 加工( annotating) 使用( utilizing) 管理与维护( management and renew) 管理( management) 维护( renew) 语料库设计 Design a Corpus 任何语料库研究均开始于语料库的建立,语料库的设 计及选材几乎控制以后所要做的一切基于语料库的研 究工作,研究结果的好坏只与语料库的建设质量有关。 (John Sinclair, 1991) Only those who have first-hand knowledge of his work can fully appreciate that the compilation of a corpus( with proper attention to quality, design criteria and so on) always takes twice as long as one thought, and sometimes ten times as effort (Leech, 1998) 语料库设计师面临的最基本的问题是:这个语料库所 采集的语言数据是否能真正代表了某种期望的语言或 者语体。( Kennedy,1998) 语料库设计:目的 Design a Corpus: purpose 用途:通用语料库、专用语料库; 通用语料库设计的目的:能够满足语料库的各 种应用功能;能够在通用语料库基础上开发专 用语料库。(示例:国家现代汉语语料库) 公州∥mm由 户0中席工风C凹 口季/n运出/争 会门 /中燕知二/m递关 v sbf*/ns a Lies/ Jr把/t 热,面们A人视 枚/ 云门 语料库设计:目的 Design a Corpus: purpose 专用语料库设计的目的 示 二式 以青钥铭文拓片为记录单位的“金文语料库”(张再兴,2002 金文语料库 全球华语语料库 语料库设计:目的 Design a Corpus: purpose IIML文及 语科后动的杰 还斗脚机器 监控语料库的语料处 加了香乎 图国 还料为、控中 齿料标T 性点梨黑融 报可能:1 新评幽艰学 调向学东 我们的项目:面向计算机辅助翻译的平行语料库建设 语料库设计:框架 Design a Corpus: frame 语料:来源、规模、样本、维护 加工:深度、内容 存储:原则、工具 检索:功能 语料库设计:框架 Zipfs law (1935) Design a Corpus: frame 词的出现频率有很大的不平衡 性——即使是数十亿词次的语料 语料来源 库极少数高频词的出现次数就 已覆盖了其总词次数的绝大部分 文本语料的来源 词总数的大约一半的词在这个 语料库中却只出现次 语音语料的来源 多模态语料的来源 of, is, up, by ■语料规模: en, any, most Zipfs law: f X r=k Zipfs law(1935) f:词频,r:词频的顺序,k:常数 (少数高频词占据绝大部 Rank(R)ITerm Frequency(FI RF(106) 分语料库,这是造成“数据 稀疏”的主要原因。) pp30~33 that 0.038 语料库设计:框架 Design a Corpus: frame 语料的规模: 单语语料库的规模(举例: space的译法) 平行语料库的规模(举例:平行语料库先天不足) 语料样本的规模 为了代表样本的文档范畴,样本规模在2000 5000词次左右已经足够大了。( Biber,1993)

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档