《中文文本信息处理》第一章 概论.ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理的原理与应用 应用领域(续3) 文档分类(Document Categorization) 也叫文本自动分类(Text Categorization/Classification),即利用计算机系统对大量的文档按照一定的分类标准(如根据主题或内容划分等)实现自动归类。 应用:图书管理、内容管理和信息监控等。 举例: 复旦文本分类 系统SVMCLS 中文文本信息处理的原理与应用 应用领域(续4) 信息过滤(Information Filtering) 利用计算机系统自动识别和过滤那些满足特定条件的文档信息。 应用:网络有害信息过滤、信息安全等。 中文文本信息处理的原理与应用 应用领域(续5) 问答系统(Question-answering System) 通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。 问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统(Man-computer Dialogue System)。 应用:人机对话系统、信息检索等 中文文本信息处理的原理与应用 自然语言处理 基本概念 发展历程 应用领域 发展趋势 中文文本信息处理的原理与应用 自然语言处理的新趋势 在COLING2002会议上,许多专家提出自然语言处理研究的发展方向: 基于规则和基于统计的研究方法的结合 自然语言理解在语义网中广泛应用 逐渐形成国际标准 中文文本信息处理的原理与应用 由搜索文字到搜索图文,甚至多媒体,语义本体是它的一种实现方式 中文文本信息处理的原理与应用 主要内容 课程背景 课程目的和课程安排 自然语言处理 中文信息处理 相关研究机构及学术会议 中文文本信息处理的原理与应用 中文信息处理 中文信息处理的研究起步较晚(80年代) 中文信息处理研究的主要障碍: 汉字输入问题?已解决 分词问题?一定程度上解决 句法分析问题?一定程度上解决 语义分析问题?仍然很困难 中文文本信息处理的原理与应用 中文信息处理的成就 1992语料库:第一个服务于语言学研究的汉语语料库,仅包含生语料,没有切分和标注,但可以检索。 1992-分词标准:中国内地颁布了第一个分词国家标准《GB13715-信息处理用现代汉语分词规范》。 1993-词典:完成并发布了中文知识信息处理(CKIP)词典的第一个版本(带有词性集合和基于信息的格语法词干角色)。 1994-语料库:先秦名著汉语料库在台湾“中研院”完成。 中文文本信息处理的原理与应用 中文信息处理的成就(续1) 1995语料库:台湾“中研院”语料库完成(1.0版本,100万词),这是第一个标注的汉语平衡语料库。 1996年,第一本论文集《中文自然语言处理》出版,并完成了网上的“中研院”语料库,这是第一个可以用WWW方式检索的汉语语料库。 1997年5月,由香港开发的LIVAC中文共时语料库在网上发布。同年,第一本根据语料库编纂的汉语词典出版(The Dictionary of Nominal Classifiers in Chinese)。 中文文本信息处理的原理与应用 中文信息处理的成就(续2) 1998年,知网发布,这是第一个完整的汉语和英汉词汇知识库。 1999年,第二本论文集《汉语计量与计算研究》(邹嘉彦、黎邦洋、陈伟光、王士元编)计算语言学专集出版.香港城市大学语言资讯科学研究中心。 2000年7月,北京大学发布词表,两个汉语树库同时发布:宾州汉语树库和台湾研究院树库。同年,第38届计算语言学协会年会首次在香港召开,含一个中文处理的专题研讨会。 中文文本信息处理的原理与应用 中文信息处理的成就(续3) 2001年,正式批准建设ACL SigHAN,第一个关于中文处理的国际组织。同年,北京大学在网上发布了一年的人民日报标注语料。根据LIVAC中文共时语料库建立了中文报纸名人录,并在网上发布。 2002年,第19届COLING会议首次在台北召开。第2届SigHAN中文处理专题研讨会与第41届ACL会议一起在札幌召开。会上报告了第一次汉语分词竞赛的结果。同年,正式发布了谢清俊智能汉字编码系统(解决了遗漏汉字问题),LIVAC中文共时语料库也已达到1亿字。 中文文本信息处理的原理与应用 主要内容 课程背景 课程目的和课程安排 自然语言处理 中文信息处理 相关研究机构及学术会议 中文文本信息处理的原理与应用 国外研究机构 Standford University/MIT/Carnegie Mellon University John Hopkins University The University of Southern California The Universit

您可能关注的文档

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档