王鹏优化理论之 - 基本收录规则.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
王鹏优化理论之 - 基本收录规则

一下是基本的 收录规则 涉及到的东西太多,更多还是技术与理论的结合 数据库 文档数据库(DOCUMENT DATABASES) 压缩(COMPRESSION) 索引(INDEXES) 文档索引 MG海量文档管理系统 文本压缩 模型 自适应模型 哈夫曼编码 范式哈夫曼编码 计算哈夫曼编码长度 算术编码 算术编码是如何工作的 实现算术编码 保存累积计数 符号模型 部分匹配预测 块排序压缩 动态马尔科夫压缩 基于单字的压缩 字典模型 自适应字典编码器的LZ77系列 LZ77的Gzip变体 自适应字典编码器的LZ78系列 LZ78的LZW变体 同步 创造同步点 自同步编码 性能比较 压缩性能 压缩速度 其他性能方面的考虑 索引 样本文档集合 倒排文件索引 压缩倒排文件 无参模型(Nonparameterized models) 全局贝努里模型 全局观测频率模型(Global observed frequency model) 局部贝努里模型(Local Bernoulli model) 有偏贝努里模型(Skewed Bernoulli model) 局部双曲模型(Local hyperbolic model) 局部观测频率模型(Local observed frequency model) 上下文相关压缩(Context-sensitive compression) 索引压缩方法的效果 签名文件和位图 签名文件 签名文件和位图的压缩 索引方法的比较 大小写折叠、词根化和停用词 大小写折叠 词根化 影响索引长度的因素 停用词(stop word) 查询 访问字典的方法 访问数据结构 前端编码(Front coding) 最小完美哈希函数 完美哈希函数的设计 基于磁盘的字典存储 部分指定的查询术语 字符串暴力匹配(Brute-force string matching) 用n-gram索引 循环字典(Rotated lexicon) ? 布尔查询(BOOLEAN QUERY) 合取查询(conjunctive query) 术语处理顺序 随机访问和快速查找 分块倒排索引 非合取查询(Nonconjunctive query) 信息检索和排名 坐标匹配(Coordinate matching) 内积相似度 向量空间模型 检索效果评价 召回率和精确率 召回率-精确率曲线 TREC项目 208 万维网搜索(World Wide Web Searching) 其他有效性评价方法 余弦法实现 文档内频率 交互式检索 相关性反馈

文档评论(0)

wnqwwy20 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档