自建学习者语料库.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自建学习者语料库

自建学习者语料库 王立非 philipw@126.com 提纲: Why use a corpus? Why use electronic text? To study knowledge of language through specimens of language use: naturally-occurring data ... Accessibility Speed: can be analyzed more quickly Accuracy: for some tasks, processing e-text is more accurate than eye scan 种类: A. by medium: printed, electronic text, digitized speech, video (e.g. for ASL), mixed C. language variables: monolingual vs. multilingual (CHILDES database) original vs. translations (parallel) native speaker vs. learner (e.g. corpora of learner compositions) Taxonomies of corpora D. language states: synchronic vs. diachronic (e.g. Brown vs. Helsinki Diachronic corpus) E. Plain vs. annotated 语料库分层结构: 建口语库流程: 口语库建设流程: 口语库结构: 语料命名: 三类标注: 文本头标注: 文本头标注: 口语特征标注: 语法错误标注: 建书面语库 Annotation of corpora Automatic tagging and manual tagging A. Header mark-up B. Part-of-speech tagging C. Syntactic annotation (parsed corpora) D. Pragmatic annotation E. Rhetorical information F. Discourse structure 文本头标注: 词性(POS)自动赋码: Corpus is the mainstream! -- G. Leech * * 语料库的定义/种类/规模 建库原则/设计 建设口语库 建设书面语库 文本头标注 Bodies of natural language material (whole texts, samples from texts, or sometimes just unconnected sentences), which are stored in machine-readable form. What is a corpus? Voice data is also corpus! 5-10万词(小型) 100万词(中型) 5000万词(大型) 1亿词(特大型) 语料库规模: 学习者语料库设计 语言 学习者 媒介 年龄 风格 性别 话题 母语 技术性 地区 任务环境 其他外语 语言水平 学习环境 实际经验 语料库设计应考虑(Granger 2003): 语料库设计: 学习者语料库 口语子库 笔语子库 已 附 码 未 附 码 未 附 码 已 附 码 筛选样本。 将录音磁带上的口语原声转录进计算机。 对数码语音文件命名。 对数码语音文件的音质进行检测。 对小部分音质差的语音重新转录。 组织人工逐一听抄录音。 将听抄文字内容输入电脑。 对文本文件命名。 标注语法错误。 对部分口语特征进行标注。 语音文件与文字文件配对检验。 第一次校对。 第二次校对。 抽检语音和文字样本。 将文字(WORD)文件格式转换为纯文本(TEXT)文件格式。 对纯文本文件进行切分。 对每条切分过的文本语料进行文本头标注。 对语料库进行统计分析。 将部分语

文档评论(0)

pangzilva + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档