project说明及评判标准.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
project说明及评判标准

Project 3 说明及评判标准 王栋 wangdongpkucs@ 提纲 建索引 查询 文档 建索引:过程(1/3) 建索引:过程(2/3) 1) 预处理 全文检索处理的对象是文字。因此,对于非纯文本格式的文件,如HTML,PDF等,需要去掉其中的格式信息,转换为纯文本。 假设文档都是纯文本的,不需要考虑非纯文本格式的预处理过程 2) 分词/词形变换 相对于英文全文检索,分词是中文独有的困难。由于词与词之间没有明显的边界,需要使用分词算法把句子分割成单词的序列。在目前的技术条件下,分词不能达到100%准确,而分词错误会直接影响查询效果。 词形变换:英文单词的单复数、时态等 分词可以使用ICTCLAS的分词工具(最后补充里介绍),我们也会提供已经分词处理过的测试文档集。 建索引:过程 (3/3) 3) 抽取posting 文档-词 自然关系的倒置过程,生成 词-文档 把单词和对应的文档编号,出现位置相结合,生成word_id, doc_id, pos三元组(posting)。 4) 排序 先按单词(字典顺序),其次文档id,最后出现位置pos,对所有posting排序,产生倒排表。 5) 输出 按顺序将倒排表写到磁盘上。 建索引:基本要求 设计一个方便的方式让用户对指定文件或指定目录下的文件建立索引 你可以 提供一个函数接口,让用户在程序中使用你的函数建立索引,比如: int Indexer::index(const char* srcDir, const char* destDir) 提供一个命令行界面 提供一个图形界面 建索引:FAQ 索引是动态的还是静态的? 大家可以自由选择。 索引是否需要持久化,即写入硬盘? 一个完整的检索系统肯定需要索引的持久化,但是不作硬性要求,留作加分点。 其他 源数据是纯文本格式,不需要考虑HTML、WORD等文件格式。 不需要考虑英文的词形转换。 建索引:示例——lucene索引结构 建索引:如何建立倒排文件 对于较小的文档集,可在完全在内存中对其建立倒排索引,再写到文件中。 当文档集很大时,问题就出现了:不可能在内存中对所有的文档建立倒排索引。 于是,必须把文档集分成若干块,分块建立索引。生成多个倒排文件后,再把它们归并成一个大文件。 如下图所示: 建索引:归并 提纲 建索引 查询 文档 查询:过程 从倒排文件中查找分三个基本步骤: 词典的查找。注意每个查询可能包含若干个词。 获得各个词的posting列表 对posting列表的处理。如处理词的相邻位置关系,布尔查询等。 查询:基本要求 必须设计并提供一个查询接口,比如: Hits* Searcher::search(const string queryString); or int Searcher::search(const string queryString, Hits hits); 查询结果必须起码给出查询到的文档们的路径。 查询:支持的基本查询 词查询 只有一个词,比如,你在google里输入 “中国” 返回包含“中国”的文档。 最基础的查询方式。 如何表示结果? 简单布尔查询 AND操作:即词查询的结果做集合与运算 “中国 AND 人民” 返回既包含“中国” 又包含“人民”的文档。 短语查询 “中国人民” 即中国 AND 人民,并且“中国”和“人民”这两个词的位置在文档中是相邻的。 需要用到posting里的位置信息。 查询:可以考虑支持但不作要求的 Ranked查询 对返回的结果排个序,把认为重要的结果放在前面。 如何排序? 最简单原始的想法就是使用某个词在文档中出现的频率? 比如,对于词查询:“中国”, “中国”在文档1中出现了10次,在文档2中出现了20次,在文档3中出现了11次, 那么最后返回的结果应该是: 1. 文档2 2. 文档3 3. 文档1 TopK查询 返回前k条排序值最高的结果。 可以利用堆吗? 提纲 建索引 查询 文档 文档 对基本功能的实现情况 自己的特色 系统实现 接口描述 程序界面 建索引 查询:比如查询的函数,简单的查询语法 用户界面(如果有,大体描述下如何使用) 索引结构 逻辑结构 物理结构 其他优化 重要算法过程的描述 建索引算法 查询算法 小组成员之间的详细分工情况 其他想法和心得 其他注意事项 附加说明: 程序有诚实代码,最好每个文件都有,文档有签名(写明姓名,学号),每项占0.5分,如果没有则扣分。 文档部分写明自己的设计思路,如果是有特色的设计,一定要说明,因为助教看程序可能没有看出来。(比如:为了提高查询速度,我采用了什么样的独特设计) 再次提醒,提交正确的文档(正确作业(不要提交别的作业),编译通过,结果正确) Thank You! 分词补充:IC

文档评论(0)

hart520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档