复习第三章信息自动处理技术.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
复习第三章信息自动处理技术

第三章 信息自动处理技术 本章主要内容: 自动标引技术 西文自动标引 汉语自动标引 自动分类技术 自动聚类分类 自动文摘技术 词频统计法 一、自动标引技术 西文自动标引 抽取关键词,词汇转换,词频统计,确定标引词, 汉语自动分词 词典分词,前后缀字分词,语法语义分词。 信息标引 西文特点: 单词之间有空格;有为数不多的虚词 标引实现过程 建立停用词典 文本中取词 筛选关键词 确定标引词 2、简单例子 英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。 例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。 3、汉语信息自动标引技术—难点: 词与词之间无分隔标记 字与字之间组词灵活 从标引角度分析,存在交集型字符串 虚词繁多 新词频繁出现 4、汉语信息的切分标引: 词典法切分标引 前后缀标记切分标引 单汉字标引 无词典标引 语义、语法分词标引 5、[案例] 词典分词标引 通过构造一个机内词典(主题词典、关键词典、部件词词典等),并将其与被标引的信息进行匹配,当从处理的信息中得到词典词汇时,即把它作为后备标引词记载下来,最后利用西文成熟的标引技术进行标引处理。 匹配方法 最长匹配;最短匹配;两者结合;词首字匹配 扫描方式 正向扫描;逆向扫描;正逆结合 6、中外对比 在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。 7、案例描述--搜索引擎 与中文自动分词 : 分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。 对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。 二、自动分类技术 随着因特网的迅猛发展,使用因特网进行内容传播大大加快了人们获取信息的速度以及信息量,如果我们对这些信息不加以分类,很容易就陷入杂乱的信息海洋,反而可能无法获取我们真正需要的信息了。 ??? 对信息的分类,一个无法回避的问题就是网上信息量是如此的巨大,使用人工对其分类,不可否认有其准确性高的优势,但效率太低是其难以克服的难题。使用计算机对信息进行自动分类就有其重要意义,它能快速的对内容文章分类,避免将人力资源投入到繁琐的,大量的,重复性的信息分类的工作中。 1、聚类与分类的区别 聚类:类别未知(关联分析,相似聚类,密度聚类等) 分类:类别已知(词表分类,决策树分类,基于训练集的分类等) 2、信息的相似测度方法 信息的相似测度,大致可分为: 1)文献的测度 2)图形的测度 3)多媒体文件(如声音)的测度 相似不同于相等,相似的不确定性决定了该问题的复杂性,必然涉及到许多的数学问题,图像处理问题,人工智能领域,信息分类甚至对研究者的文科素养也有很高的要求,所以此方面过的成果寥寥,进展缓慢也是可以理解的。然而这种测度的研究对实际应用确实有很很大意义的,最重要的是在信息分类,数据挖掘,信息检索等领域得到运用 。 3、信息的测度等级-信息的量化程度 名义测度(Norminal Measurement):最低的一种测度,测度值只代表类型的编码,如1代表“男”;2代表“女”; 序次测度(Ordinal Measurement):信息的编码不仅具有分类的作用,而且也存在量的关系,如半文盲文盲=1;小学=2;初中=3;高中=4;大学=5。从小到大表示文化程度的提高,但不

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档