- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
会计学第1页/共103页一.信息与自然语言处理二.自然语言处理的主要研究方向三.下一代信息检索研究四.自然语言处理的未来思考一.信息与自然语言处理第2页/共103页(一)语言是信息的载体(二)自然语言处理的概念及其研究方法(三)中文信息处理的特殊问题及所做工作(四)当前研究的特点一.信息与自然语言处理第3页/共103页(一)语言是信息的载体 信息同能源、材料一起构成经济发展与社会进步的三大战略资源。信息技术正在推动和改变人类的生产、生活甚至是思维方式。 信息是无形的,但它可以用语言来表达。语言是信息的载体,语言是文化的支柱,语言是人类思维、沟通与交流的工具。语言技能是一种人力资本。语言与经济、文化、教育,与社会发展和人类进步有着紧密的关系。一.信息与自然语言处理第4页/共103页 中国中文信息学会是一个学术性的群众组织。学会的学术研究内容是利用计算机对中文的音、形、义等语言文字信息进行加工和操作,包括对字、词、短语、句子、篇章进行输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等。它是语言学、计算机科学、认知科学、数学等多学科交叉的边缘学科。 自然语言处理是计算机应用的一个分支,是人工智能的一部分,但计算机技术和人工智能技术又都从属于信息技术。一.信息与自然语言处理第5页/共103页(二)自然语言处理的概念及其研究方法 1.概念 自然语言处理通常是指用计算机对人类自然语 言进行的有意义的分析与操作。 字 编码(机内码、输入码) 词 分词、词性标注、词义消岐 自然语言 句法分析 处理 句子 语义分析 语用分析 段落与篇章 话语结构分析一.信息与自然语言处理第6页/共103页 2.研究方法 ⑴基于规则 人工获取语言规则 ⑵基于统计 通过对大规模语料库的统计分析,实现对自然语言的处理 3.处理过程 语言问题→形式化表示(模型)→算法转换→程序编制→机器运行→结果输出→系统评测一.信息与自然语言处理第7页/共103页(三)中文信息处理的特殊问题及所做工作 1.特殊问题 ⑴句子中单词的切分; ⑵时态、语态、语气等没有严格的形式标记; ⑶句子成分的省缺及指示代词的频繁出现; ⑷语言资源的缺乏及其规范化问题。一.信息与自然语言处理第8页/共103页2.所做工作⑴理论、方法与技术研究 结合汉语特点,引进国外技术⑵实验和应用系统的研制开发 包括汉字处理、中文文本处理、中文语音处理、少数民族语言处理等⑶资源建设 词典和语料库等⑷评测 国内:863 国际:SIGHAN(分词)、NIST(机器翻译)、TREC(信息检索)等一.信息与自然语言处理第9页/共103页(四)当前研究的特点 ⒈使用语料库处理大规模真实文本; ⒉使用机器学习的方法自动获取语言知识; ⒊使用统计数学(概率统计)的方法来分析语言数据; ⒋以语言知识为核心的多种方法融合。二.自然语言处理的主要研究方向第10页/共103页(一)基础与共性技术(二)机器翻译(三)信息检索(四)社会计算二.自然语言处理的主要研究方向第11页/共103页(一)基础与共性技术 1.汉字处理技术 ⑴汉字编码 ⑵汉字输入 ⑶汉字输出 2.词法分析 词是组成句子的基本单元。词法分析是要先将构成句子的字符串变成词串;然后再给句子中的每个词加上句法范畴标记(有时还需加上语义范畴标记)。 二.自然语言处理的主要研究方向第12页/共103页⑴汉语自动分词 最大匹配法 最大概率法⑵英语的词形还原⑶词性标注 词性(part-of-speech)是词汇基本的语法属性,也称之为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。标注的重点是解决兼类词和确定未登录词的词性问题。 二.自然语言处理的主要研究方向第13页/共103页⑷词义标注(Word Sence Disambiguation,WSD) 重点是解决如何确定多义词在具体语境中的义项问题。对于多义词来说,一个词可以表达一个以上的意义,但它在具体的语境当中,意思往往是确定的。 标注过程中,通常是先确定语境,再明确词义。二.自然语言处理的主要研究方向第14页/共103页 3.句法分析 句子的结构分析,即找出句子所包含的句法单位以及这些单位之间的句法关系。有浅层句法分析和完全句法分析之分。 词的构成和变化规律称为词法;句子和短语的构成规则成为句法;语法研究的是语言结构的规律。狭义的语法等同于句法,广义的语法应为词法、句法、语义与语用的总称。二.自然语言处理的主要研究方向第15页/共103页 句法结构的形式化描述方法通常有两种:句法结构树、依存关系图。前者描述了句子的组成成分及各个成分之间的结构关系,后者则描述了句子中词与词的依存关系。 任何句子都由关键成分(
您可能关注的文档
最近下载
- 医疗器械相关标准-TGBC17-2024 检验检测机构常用化学试剂储存管理规范&TGBC19-2024 检验检测机构危险化学品安全管理规范.pdf VIP
- 铜陵铜化集团招聘考试题目.pdf
- 爱尔兰-性能研究申请.pdf VIP
- 呼吸道感染患者的呼吸护理.pptx VIP
- 物流管理控制程序 (一).pdf VIP
- 医疗器械体系文件- 风险管理控制程序(参考模板)&采购控制程序(参考模板).pdf VIP
- 智能世界2035报告.pdf
- 丹麦-制造商报告医疗器械事故.pdf VIP
- 关于第一类医疗器械备案有关事项的公告.docx VIP
- 2025中盐盐穴综合利用股份有限公司招聘(7人)笔试模拟试题及答案解析.docx VIP
文档评论(0)