基于语料库的工作_4.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语料库的工作张宇*1中文信息处理--基于语料库的工作 大纲什么是语料库语料库的发展简史语料库建设中处理的问题数据标注1/24/2021中文信息处理--基于语料库的工作2 什么是语料库语料库,英文为Corpus存储语言材料的仓库现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本.1/24/2021中文信息处理--基于语料库的工作3 关于语料库的三点基本认识语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;1/24/2021中文信息处理--基于语料库的工作4 语料库示例1/24/2021中文信息处理--基于语料库的工作5北京大学计算语言所富士通人民日报标注语料库样例:历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 1 50分/t 。/w ……[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w 语料库的分类1/24/2021中文信息处理--基于语料库的工作6生语料库/熟语料库生语料库就是未经加工的,没有任何切分,标注标记的原始语料库熟语料库就是指经过加工,带有切分,标注标记的语料库系统型语料库/专用型语料库系统型语料库就是依据事先确定的选材原则和比例选取语料的语料库专用型语料库就是指专门服务于某个特定目的的语料库单语种语料库/多语种语料库 语料库发展简史第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代-)1/24/2021中文信息处理--基于语料库的工作7 第一代语料库Brown语料库LOB语料库LLC语料库百万词级以语言研究为导向1/24/2021中文信息处理--基于语料库的工作8 第二代语料库COBUILD语料库Longman语料库千万词级词典编纂-应用导向1/24/2021中文信息处理--基于语料库的工作9 第三代语料库ACL/DCI语料库The Association for Computational LinguisticsData Collection InitiativeUPenn树库LDC( Linguistic Data Consortium )超大规模(上亿词级)标准编码体系深度标注/多语种NLP应用1/24/2021中文信息处理--基于语料库的工作10 语料库建设中处理的问题文本生文本标注文本语料库建设中处理的问题低级格式问题标记化:什么是一个词?词法句子1/24/2021中文信息处理--基于语料库的工作11 低级格式问题垃圾格式由于语料库的来源复杂,语料库中可能存在无法处理的各种各样的格式或内容,他们是没有用处的,需要过滤掉。文档页眉、分隔符、排版代码、表和图表如果数据来源于OCR,会引入错误识别的问题1/24/2021中文信息处理--基于语料库的工作12 标记化:什么是一个词非词语分界的空格data base – database, 9365 1873 –ew York, San Francisco如果和连字符一起出现,问题就更加复杂了?the New York – New Haven Railroad– 习惯搭配形成的词Work out– I couldn’t work the answer out.1/24/2021中文信息处理--基于语料库的工作20 标记化:什么是一个词1/24/2021中文信息处理--基于语料库的工作21电话号码国家电话号码国家0171 378 0647UK+45 43 48 60 60Denmark(44.171 830 1007)UK95-51-279648Pakistan+44 (0) 1225 753678UK+411/284 3797Switzerland01256 468661UK(94-1) 866854Sri Lanka(202) 522-2239USA+49 69 136-2 98 05Germany1-925-225-3000USA33 1 34 43 32 36France212.995.5402USA++31-20-5200161The Netherlands

文档评论(0)

151****1054 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档