倒排索引技术.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
倒排索引技术.ppt

索引技术简介、分治思想以及排序算法 2010/05/13 内容 作业讲解 分治思想 分治排序算法 倒排索引技术 中文信息处理与数据分析 科学网广度优先有回路中文内容 2000网页词频统计结果 高频词 低频词 爬虫,还是爬虫… Google + 百度 私家爬虫 网上智能代理 中文信息处理 分词 词典分词 新词发现 统计分词 序列标注 语义标识与信息提取 排序算法: 为什么要排序?有序表的优点?缺点? 构造关系。 按照什么原则排序? 比较? 如何进行排序? 基本概念 排序(Sorting): 简单地说,排序就是把一组记录按照某个(或某几个)字段的值以递增(由小到大)或递减(由大到小)的次序重新排列的过程。(如按年龄从小到大排序) 排序码 与 关键码(primary key) 作为比较基础的一个(或多个)字段,称为排序码。排序码可以是数值、符号或符号串。 排序码不一定是关键码,关键码可以作为排序码。关键码是唯一的,但排序码不一定唯一。排序码不唯一时,排序的结果可能不唯一。 参与排序的对象,称为记录。一个记录可以包含多个字段。 如果记录集合中存在多个排序码相同的记录,经过排序后,排序码相同的记录的前后次序保持不变,则这种排序方法称为是稳定的,否则是不稳定的。 排序的类型 排序方法可以分为五种∶插入排序、选择排序、交换排序、分配排序和归并排序。 在排序过程中,全部记录存放在内存,则称为内排序,如果排序过程中需要使用外存,则称为外排序。 本章侧重讨论内排序的方法,但有些方法(特别是归并排序的思想)也可以用于外排序。 插入排序 基本思想:每步将一个待排序的记录,按其排序码大小插到前面已经排序的字序列的合适位置,直到全部插入排序完为止。 插入排序的细分类 如何插入到已排好序的序列中? 直接插入(从后向前找位置后插入) O(n2) 二分法插入(按二分法找位置后插入) O(nlog2n) 表插入排序(按链表查找位置后插入) O(n2) 直接插入排序 基本思想: 假定前面m 个元素已经排序; 取第(m+1) 个元素,插入到前面的适当位置; 一直重复,到m=n 为止。 (初始情况下,m = 1) 存储结构与算法优化 顺序存储结构: 二分插入算法,减少比较次数。 链式存储结构: 减少移动次数。 二分法插入排序 特点:在直接插入排序的基础上减少比较的次数,即在插入Ri时改用二分法比较找插入位置,便得到二分法插入排序 限制:必须采用顺序存储方式。 算法分析 移动次数与直接插入排序相同,最坏的情况为n2/2,最好的情况为n,平均移动次数为O(n2) 二分法插入排序算法的平均时间复杂度为 T(n)= O(n2) 二分法插入排序是稳定的 分治法 int DC(x) { if (x) 够简单 return C(x); else 将 x 分解为 x1 - xn for( i=0; in;++i) DC(xi); 重组 DC(xi) 得到 C(x); } Quick Sort Quick Sort Quick Sort Quick Sort 快速排序算法 思考: 如何用快速排序算法实现序列中第i大的元素的查找? 作业: 参考高山同学的词频统计程序,在排序部分用快速排序算法完成对hash表内容的排序(可以参考课件上有详细注释的快排代码)。生成统计词表。16号前。assignment0513/ 选定一个你关心的领域。按合理的策略提取1000个中文网页。词语切分后,做这1000个网页的词频统计。 提交报告:包含,领域定义与选取。网页提取思路。词频统计结果。假定你已经有了一个公共领域的1000个网页的词频统计,能否经过统计的方法确定你选定的专业领域的专业词汇?如果可以最好能简单的作出结果,给出你的方法的统计学依据和思路。(选作:发给teacherhu) * * * * * * * * * * * * * * 表插入排序的算法性能分析 第i趟排序:最多比较次数i次,最少比较次数1次。 n-1趟总的比较次数: 最多: 最少: n-1 记录移动次数:0 时间效率: O(n2) 辅助空间: O(n) [指针] 稳定性: p-key = now-key保证稳定的排序。 选择排序 思想:每趟从待排序的记录序列中选择关键字最小的记录放置到已排序表的最前位置,直到全部排完。 关键问题

文档评论(0)

snj01 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档