信息索引技术剖析.ppt

下载文档 降价啦

6
0
约1.23万字
约 87页
2017-03-17 发布于湖北
举报
版权申诉
保障服务

信息索引技术剖析.ppt

1、本文档共87页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

深圳大学未来媒体技术与计算研究所算术编码过程举例 * 深圳大学未来媒体技术与计算研究所算术编码过程举例 * 深圳大学未来媒体技术与计算研究所算术编码过程举例 * 深圳大学未来媒体技术与计算研究所字典方法字典编码根据的是数据本身包含有重复代码这个特性。字典编码法的种类很多，归纳起来大致有两类。第一类字典编码的想法是查找正在压缩的字符序列是否在以前输入的数据中出现过，然后用已经出现过的字符串替代重复的部分，它的输出仅仅是指向早期出现过的字符串的“指针”。这里所指的“字典”是指用以前处理过的数据来表示编码过程中遇到的重复部分。第二类字典编码的想法是从输入的数据中创建一个短语词典，这种短语不一定是具有具体含义的短语，它可以是任意字符的组合。 * 深圳大学未来媒体技术与计算研究所第一类字典编码 * 深圳大学未来媒体技术与计算研究所第二类字典编码 * 深圳大学未来媒体技术与计算研究所算法中用到的几个术语（1）输入数据流。指被压缩的字符序列。（2）字符。输入数据流中的基本单元。（3）编码位置。输入数据流中当前要编码的字符位置，指前向缓冲存储器中的开始字符。（4）前向缓冲存储器。存放从编码位置到输入数据流结束的字符序列的存储器。（5）窗口。指包含W个字符的窗口，字符是从编码位置开始向后数也就是最后处理的字符数。（6）指针。指向窗口中的匹配串且含长度的指针。 * 深圳大学未来媒体技术与计算研究所 LZ77编码算法（1）把编码位置设置到输入数据流的开始位置。（2）查找窗口中最长的匹配串。（3）以“(Pointer, Length) Characters”的格式输出，其中Pointer是指向窗口中匹配串的指针，Length表示匹配字符的长度，Characters是前向缓冲存储器中的不匹配的第1个字符。（4）如果前向缓冲存储器不是空的，则把编码位置和窗口向前移（Length+1）个字符，然后返回到步骤（2）。 * 深圳大学未来媒体技术与计算研究所 LZ77编码算法 * 深圳大学未来媒体技术与计算研究所 LZW编码 LZW编码是围绕称为词典的转换表来完成的。转换表用来存放称为前缀（Prefix）的字符序列，并且为每个表项分配一个码字（Code word），或者叫做序号。转换表实际上是把8位ASCII字符集进行扩充，增加的符号用来表示在文本或图像中出现的可变长度ASCII字符串。扩充后的代码可用9位、10位、11位、12位甚至更多的位来表示。 * 深圳大学未来媒体技术与计算研究所 LZW编码算法的执行步骤步骤1：开始时的词典包含所有可能的根（Root），而当前前缀P是空的；步骤2：当前字符(C)：=字符流中的下一个字符；步骤3：判断新的字符串P+C是否在词典中（1）如果“是”：P：= P+C // （用C扩展P）；（2）如果“否” ① 把代表当前前缀P的码字输出到码字流； ② 把新的字符串P+C添加到词典； ③ 令P：= C //（现在的P仅包含一个字符C）； * 深圳大学未来媒体技术与计算研究所 LZW编码算法的执行步骤步骤4：判断码字流中是否还有码字要译（1）如果“是”，就返回到步骤2；（2）如果“否” ① 把代表当前前缀P的码字输出到码字流； ② 结束。 * 深圳大学未来媒体技术与计算研究所 LZW编码算法举例 * 深圳大学未来媒体技术与计算研究所 LZW编码算法举例 * 深圳大学未来媒体技术与计算研究所倒排文档压缩倒排文档是信息检索系统中最普遍使用的索引机制，而索引文件的压缩能大大提高检索速度和节约磁盘空间。通过压缩倒排文件列表可以减少倒排文件的尺寸。由于倒排文件列表中的文档号是以升序排列的，这样文档号之间的差距可以看作是文档号之间的间隙。倒排文档通常由两部分组成：词汇表和事件表。词汇表就是放我们分词词典的地方，事件表就是放这个文档中对应于词汇表中词汇出现的位置。 * 深圳大学未来媒体技术与计算研究所倒排文档的实现原理 D1：“百名山村教师进京迎奥运” D2：“沪教师为促学生加强锻炼自制活动器械” D3：“大学教师兼教练的苦与乐” 经过分词，过滤高频词后可以构建如下的倒排文档：奥运 - D1，1；教师 - D1，1；D2，1；D3，1；大学 - D3，1；教练 - D3，1； * 变长的压缩方法 (1)一元编码（unary code）方法对于要压缩的整数N来说，用N个bits来表示，其中前N-1位是1，最后一位是0并作为结束标记。例如。深圳大学未来媒体技术与计算研究所变长的压缩方法（2）Elias压缩方法对于一个要压缩的数值X，用log2(x)分解为两个数值，一个是N=log2(X)，用N个1表示这个部分，另外一个是剩