信息检索教程第四章 文本信息检索技术与方法.pptVIP

  • 27
  • 0
  • 约1.16万字
  • 约 83页
  • 2017-08-17 发布于湖北
  • 举报

信息检索教程第四章 文本信息检索技术与方法.ppt

信息检索教程第四章 文本信息检索技术与方法

4.0 文本信息概述 文本:是基于一定的语言符号系统而形成的一个有限符号序列。 人工语言文本:人为设计 自然语言文本:人类使用过程中 齐普夫定律(书82) Heaps分布模型(书83) 文本文件:是由若干行字符构成的计算机文件,存在于计算机文件系统中。 主要的文本文件格式: TXT格式(扩展名为.txt) DOC格式(扩展名为.doc) WPS格式(扩展名为.wps) RTF格式(扩展名为.rtf) PDF格式(扩展名为.pdf) 字符集与编码标准 字符集及其编码标准是计算机输入、处理和显示各种字符的技术基础 字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。 一组抽象字符的集合就是字符集(Charset)。 字符集常常和一种具体的语言文字对应起来,该文字中的所有字符或者大部分常用字符就构成了该文字的字符集,比如英文字符集。 在计算机中,所有的数据在存储和运算时都要使用二进制数表示,计算机要处理各种字符,就需要将字符和二进制内码对应起来,这种对应关系就是字符编码(Encoding)。 ASCII码、UCS、Unicode、GB2312 4.1 文本信息预处理 思考:为什么进行预处理? 预处理包括: 文本词汇分析 停用词去除 词干提取 名词(或名词性短语)识别 4.2.1 文本词汇分析 文本词汇分析主要是对文档中的文本(字符)进行识

文档评论(0)

1亿VIP精品文档

相关文档