- 1、本文档共77页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理课件第一章概论
中文文本信息处理的原理与应用 应用领域(续3) 文档分类(Document Categorization) 也叫文本自动分类(Text Categorization/Classification),即利用计算机系统对大量的文档按照一定的分类标准(如根据主题或内容划分等)实现自动归类。 应用:图书管理、内容管理和信息监控等。 举例: 复旦文本分类 系统SVMCLS 中文文本信息处理的原理与应用 应用领域(续4) 信息过滤(Information Filtering) 利用计算机系统自动识别和过滤那些满足特定条件的文档信息。 应用:网络有害信息过滤、信息安全等。 中文文本信息处理的原理与应用 应用领域(续5) 问答系统(Question-answering System) 通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。 问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统(Man-computer Dialogue System)。 应用:人机对话系统、信息检索等 中文文本信息处理的原理与应用 自然语言处理 基本概念 发展历程 应用领域 发展趋势 中文文本信息处理的原理与应用 自然语言处理的新趋势 在COLING2002会议上,许多专家提出自然语言处理研究的发展方向: 基于规则和基于统计的研究方法的结合 自然语言理解在语义网中广泛应用 逐渐形成国际标准 中文文本信息处理的原理与应用 由搜索文字到搜索图文,甚至多媒体,语义本体是它的一种实现方式 中文文本信息处理的原理与应用 主要内容 课程背景 课程目的和课程安排 自然语言处理 中文信息处理 相关研究机构及学术会议 中文文本信息处理的原理与应用 中文信息处理 中文信息处理的研究起步较晚(80年代) 中文信息处理研究的主要障碍: 汉字输入问题?已解决 分词问题?一定程度上解决 句法分析问题?一定程度上解决 语义分析问题?仍然很困难 中文文本信息处理的原理与应用 中文信息处理的成就 1992语料库:第一个服务于语言学研究的汉语语料库,仅包含生语料,没有切分和标注,但可以检索。 1992-分词标准:中国内地颁布了第一个分词国家标准《GB13715-信息处理用现代汉语分词规范》。 1993-词典:完成并发布了中文知识信息处理(CKIP)词典的第一个版本(带有词性集合和基于信息的格语法词干角色)。 1994-语料库:先秦名著汉语料库在台湾“中研院”完成。 中文文本信息处理的原理与应用 中文信息处理的成就(续1) 1995语料库:台湾“中研院”语料库完成(1.0版本,100万词),这是第一个标注的汉语平衡语料库。 1996年,第一本论文集《中文自然语言处理》出版,并完成了网上的“中研院”语料库,这是第一个可以用WWW方式检索的汉语语料库。 1997年5月,由香港开发的LIVAC中文共时语料库在网上发布。同年,第一本根据语料库编纂的汉语词典出版(The Dictionary of Nominal Classifiers in Chinese)。 中文文本信息处理的原理与应用 中文信息处理的成就(续2) 1998年,知网发布,这是第一个完整的汉语和英汉词汇知识库。 1999年,第二本论文集《汉语计量与计算研究》(邹嘉彦、黎邦洋、陈伟光、王士元编)计算语言学专集出版.香港城市大学语言资讯科学研究中心。 2000年7月,北京大学发布词表,两个汉语树库同时发布:宾州汉语树库和台湾研究院树库。同年,第38届计算语言学协会年会首次在香港召开,含一个中文处理的专题研讨会。 中文文本信息处理的原理与应用 中文信息处理的成就(续3) 2001年,正式批准建设ACL SigHAN,第一个关于中文处理的国际组织。同年,北京大学在网上发布了一年的人民日报标注语料。根据LIVAC中文共时语料库建立了中文报纸名人录,并在网上发布。 2002年,第19届COLING会议首次在台北召开。第2届SigHAN中文处理专题研讨会与第41届ACL会议一起在札幌召开。会上报告了第一次汉语分词竞赛的结果。同年,正式发布了谢清俊智能汉字编码系统(解决了遗漏汉字问题),LIVAC中文共时语料库也已达到1亿字。 中文文本信息处理的原理与应用 主要内容 课程背景 课程目的和课程安排 自然语言处理 中文信息处理 相关研究机构及学术会议 中文文本信息处理的原理与应用 国外研究机构 Standford University/MIT/Carnegie Mellon University John Hopkins University The University of Southern California The Universit
您可能关注的文档
- 上半年银行间市场运行报告.pdf
- 三网融合产业发展与大学生的创新创业.ppt
- 上海市上海市住宅物业服务分等收费管理暂行解读讲座.ppt
- 上海少儿读物读者市场调查报告.pdf
- 上海市重点学科汇报答辩科学技术史.ppt
- 下半年教育科工作计划定版.doc
- 上海常住居民健康体检现状和社会需求.ppt
- 下沙中学数学七年级下周末讲义五.doc
- 上海汇天然农业科技公司发展战略研究.pdf
- 不锈钢为什么要加镍.pdf
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
最近下载
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf
- 造血干细胞移植的护理干预.pptx
- 布料车岗位安全规程.pptx
- YDT 5178-2017 通信管道人孔和手孔图集.docx VIP
- 精品解析:【区级联考】上海徐汇区2019届九年级学习能力诊断(二模)数学试题(解析版).pdf VIP
- 精品解析:广东省佛山市南海区,三水区2022-2023学年九年级上学期数学期末考试(原卷版).pdf VIP
- 一种护筒导向架结构.pdf VIP
- 老旧小区雨污分流改造要点与难点分析.docx VIP
- 鞍钢宪法及后福特主义.pdf
- 精品解析:广东省广州市2022-2023学年九年级上学期期末数学考前模拟试题(三)(解析版).pdf VIP
文档评论(0)