一种倒排索引压缩方法-计算机应用研究.PDF

一种倒排索引压缩方法-计算机应用研究.PDF

一种倒排索引压缩方法-计算机应用研究

———————————————————————————————————————————————— 一种倒排索引压缩方法 作者 白福均,高建瓴,李宛蓉,贺思云,肖绍武 机构 贵州大学 大数据与信息工程学院;贵州大学 档案馆 DOI 10.3969/j.issn.1001-3695.2017.06.0647 基金项目 贵州省档案局科研项目(2015D001);贵州省科学技术基金项目(黔科合J 字[2015]2045); 贵州大学研究生创新基金资助项目(研理工2017014,研理工2017016) 预排期卷 《计算机应用研究》2019 年第36 卷第1 期 摘要 高效地访问倒排索引是搜索引擎快速响应用户查询的关键,而压缩倒排列表是提高搜索引擎 性能的最重要的手段之一。针对自适应分段压缩ASCS 算法进行了研究,对于ASCS 算法中 采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS 算法中的分段方式; 对于ASCS 算法考虑序列占用空间的影响因素过于单一问题,提出多因素下的改进算法;对 于分布不均的长序列在ASCS 算法下压缩率不理想问题,提出先排序后差分编码操作后再以 ASCS 算法压缩。通过对比实验证明优化改进后的算法可以较显著的压缩倒排索引。 关键词 搜索引擎;倒排索引;索引压缩;人工蜂群算法;ASCS 算法 作者简介 白福均(1990-),男,贵州习水人,硕士研究生,主要研究方向为数据挖掘、云计算 (fjbai901124@126.com);高建瓴(1969-),女,福建南安人,副教授,硕导,主要研究方 向为数据挖掘、云计算;李宛蓉(1969-),女,贵州贵阳人,本科,主要研究方向为档案管 理;贺思云(1993-),女,贵州瓮安人,硕士研究生,主要研究方向为聚类、半监督聚类; 肖绍武(1992-),男,湖北武人,硕士研究生,主要研究方向为食品安全、舆情分析. 中图分类号 TP391 访问地址 /article/02-2019-01-004.html 投稿日期 2017 年6 月20 日 修回日期 2017 年8 月1 日 发布日期 2018 年4 月3 日 一种倒排索引压缩方法 ———————————————————————————————————————————————— 引用格式 白福均, 高建瓴, 李宛蓉, 贺思云, 肖绍武. 一种倒排索引压缩方法[J/OL]. 2019, 36(1). [2018- 04-03]. /article/02-2019-01-004.html. 36 1 Vol. 36 No. 1 第 卷第 期 计算机应用研究 优先出版 Application Research of Computers Online Publication 一种倒排索引压缩方法 * a a b a a 白福均 ,高建瓴 ,李宛蓉 ,贺思云 ,肖绍武 (贵州大学 a. 大数据与信息工程学院; b. 档案馆, 贵阳 550025) 摘 要:高效地访问倒排索引是搜索引擎快速响应用户查

文档评论(0)

1亿VIP精品文档

相关文档