成熟,已经可以轻易的从网上采集大规模的网.pdfVIP

成熟,已经可以轻易的从网上采集大规模的网.pdf

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
成熟,已经可以轻易的从网上采集大规模的网

计算语言学 第 讲上词典和语料库 2 · 刘群 中国科学院计算技术研究所 liuqun@ 中国科学院研究生院2003~2004学年第二学期课程讲义 内容提要:词典 • 词典与词典编纂 • 人读词典与机读词典 • 词典检索算法 • 应用之一:汉语新词语发现 • 应用之二:词汇语义相似度计算 2 词典与词典编纂的研究 • 词典学lexicology – Theory and description of lexical information • 计算词典学computational lexicology – formal modelling of lexical information • 词典编纂学lexicography – Construction of dictionaries (databases, handbooks) • 计算词典编纂学computational lexicography – construction and production of dictionaries using electronic publishing 3 内容提要:词典 • 词典与词典编纂 • 人读词典与机读词典 • 词典检索算法 • 应用之一:汉语新词语发现 • 应用之二:词汇语义相似度计算 4 机读词典与人读词典 • 人读词典(Human Readable Dictionary) – 格式不规范 – 数据完整性和一致性不好 – 非结构化 • 机读词典(Machine Readable Dictionary) – 格式规范 – 数据完整性和一致性较好 – 结构化 5 人读词典(demo ) • 金山词霸 story 中古英语storie 古法语estoire 拉丁语historia n -ries (1)故事,小说;传闻;轶事 Please read us a story! 请给我们读个故事! (2) 谎话,假话 (3) (书籍、电影、戏剧等的)情节 (4) (报刊、杂志文章的)素材,题材 6 机读词典的分类 • 按信息类型分类 – 语法词典 – 语义词典(包括同义词典) – 双语词典 – … … • 按领域分类 – 通用词典 – 专业词典(术语词典) – 专名词典 – … … 7 汉语语法信息词典 • 开发单位:北京大学计算语言学研究所 • 参考文献: – 俞士汶等(1998)《现代汉语语法信息词典详解》,清华大学出版 社、广西科学技术出版社1998年版

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档