信息组织中的自然语言应用培训课件.pptx

信息组织中的自然语言应用培训课件.pptx

  1. 1、本文档共194页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 信息组织中的自然语言应用;本节内容;一、自然语言的演化与发展 ;检索语言的演化与发展;检索系统中检索语言的应用变化;二、自然语言的优缺点; 优点;缺点;结 论;三、自然语言与自然语言处理 ;(一)自然语言处理;Cont.;语言学上对语言的层次划分 ;自然语言处理研究内容的基础部分 ;语法层分析;等级表示语法结构;语义层分析;知识装饰下的丰富的语法结构 ;扩展的语义结构;计算机产生的语义结构 ;语境层分析;例2:“It is dark in here.” ; 语义和语境含义之间的匹配 ;(二)自然语言在信息组织和检索中的应用;小结;第二节 自动分词与 自然语言标引;本节内容;汉语分词;一、汉语分词及其障碍概述;(一)汉语的语言特点;汉语切分中的难点;(二)汉语自动分词的困难;1.分词歧义的类型;2.汉语真实文本中的分词歧义情况;汉语真实文本中的分词歧义情况(续);分词歧义的四个层级(何克抗 等 1991, 50883字语料) 词法歧义 :84.1% (“用方块图形式加以描述”) 句法歧义 :10.8% (“他一阵风似的跑了”) 语义歧义 :3.4% (“学生会写文章”) 语用歧义 :1.7% (“美国会采取措施制裁伊拉克”);3.切分歧义的解决策略;1.未登录词(unknown word);2.未登录词识别;3.识别未登录词的策略;二、汉语分词方法; (一)基于词典匹配的分词方法; 机械分词方法一般模型;机械分词系统采用的改进方法; (一)基于词典匹配的分词方法;最大匹配法分词示例;最大匹配法切词过程演示;;最大匹配法解决分词歧义的能力;最大匹配法解决分词歧义的能力(续);最大概率法分词;;最大概率法分词;;;;(二)基于理解的分词方法 ;(三)基于统计的分词方法 ;三.自动分词系统演示;四.汉语分词系统的评测;汉语自动分词的现状;2003年测评结果;自然语言标引;自然语言标引;一.自然语言标引概述;自然语言标引方式;(一)自由标引;自由标引的优点;(二)自动标引;自动标引的意义;(2)相对手工标引存在很大优势,克服了手工标引难以克服的缺点。 与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势: 处理能力强 处理速度快 成本低 一致性好,稳定性??;(3)自动标引一致性好 美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。;(4)自动标引不受标引人员状态和情绪的影响,稳定性好。 美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对同一篇文献总能标引出相同的主题词。;(5)实验比较: 美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。;自动标引分类 “狭义”的自动标引包括主题标引的自动抽词标引和自动赋词标引两种方式。 “广义”的自动标引还指在主题自动标引基础上的自动赋分类号标引。 自动标引 自动主题标引 自动分类标引 自动主题标引关键在于: 词语抽取;对所识别出的主题词进行优选,以最终产生能表达文献主题内容的标引词。;自动标引方式及其关系;自动抽词标引;自动赋词标引是在自动抽词的基础上,引入预先编制的词表来规范自动抽取的词,利用计算机的自动换词功能,将关键词转换成规范词,赋予文献主题概念 。 自动赋词标引的主要过程如下: 第一,为每一个控制词编制一个词间关系文档(也称词情文档,相当于词表); 第二,分析文献正文或者摘要,找出其中的重要关键词(自动分词); 第三,将重要关键词与词间关系文档进行比较; 第四,如果文献中出现了与词间关系文档中匹配的语词,则该语词是相关的,并确定将该词用于标引。;自动赋分类号标引;1.西文自动标引;(二)自动标引;2.中文自动标引;中文自动标引的基本流程;(1)确定标引源;标引源;(2)文档的预处理;(3)分词处理;(4)确定关键词;确定关键词的主要方法;(5)转换为受控词;;转换为受控词的方法;(6)给出主题标识符;四、单汉字标引;单汉字索引库的建立过程;单汉字索引文档结构;单汉字索引结构;基于单汉字索引的检索;单汉字索引的优

文档评论(0)

文单招、专升本试卷定制 + 关注
官方认证
服务提供商

专注于研究生产单招、专升本试卷,可定制

版权声明书
用户编号:8005017062000015
认证主体莲池区远卓互联网技术工作室
IP属地河北
统一社会信用代码/组织机构代码
92130606MA0G1JGM00

1亿VIP精品文档

相关文档