一种倒排索引压缩方法-计算机应用研究
————————————————————————————————————————————————
一种倒排索引压缩方法
作者 白福均,高建瓴,李宛蓉,贺思云,肖绍武
机构 贵州大学 大数据与信息工程学院;贵州大学 档案馆
DOI 10.3969/j.issn.1001-3695.2017.06.0647
基金项目 贵州省档案局科研项目(2015D001);贵州省科学技术基金项目(黔科合J 字[2015]2045);
贵州大学研究生创新基金资助项目(研理工2017014,研理工2017016)
预排期卷 《计算机应用研究》2019 年第36 卷第1 期
摘要 高效地访问倒排索引是搜索引擎快速响应用户查询的关键,而压缩倒排列表是提高搜索引擎
性能的最重要的手段之一。针对自适应分段压缩ASCS 算法进行了研究,对于ASCS 算法中
采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS 算法中的分段方式;
对于ASCS 算法考虑序列占用空间的影响因素过于单一问题,提出多因素下的改进算法;对
于分布不均的长序列在ASCS 算法下压缩率不理想问题,提出先排序后差分编码操作后再以
ASCS 算法压缩。通过对比实验证明优化改进后的算法可以较显著的压缩倒排索引。
关键词 搜索引擎;倒排索引;索引压缩;人工蜂群算法;ASCS 算法
作者简介 白福均(1990-),男,贵州习水人,硕士研究生,主要研究方向为数据挖掘、云计算
(fjbai901124@126.com);高建瓴(1969-),女,福建南安人,副教授,硕导,主要研究方
向为数据挖掘、云计算;李宛蓉(1969-),女,贵州贵阳人,本科,主要研究方向为档案管
理;贺思云(1993-),女,贵州瓮安人,硕士研究生,主要研究方向为聚类、半监督聚类;
肖绍武(1992-),男,湖北武人,硕士研究生,主要研究方向为食品安全、舆情分析.
中图分类号 TP391
访问地址 /article/02-2019-01-004.html
投稿日期 2017 年6 月20 日
修回日期 2017 年8 月1 日
发布日期 2018 年4 月3 日
一种倒排索引压缩方法
————————————————————————————————————————————————
引用格式 白福均, 高建瓴, 李宛蓉, 贺思云, 肖绍武. 一种倒排索引压缩方法[J/OL]. 2019, 36(1). [2018-
04-03]. /article/02-2019-01-004.html.
36 1 Vol. 36 No. 1
第 卷第 期 计算机应用研究
优先出版 Application Research of Computers Online Publication
一种倒排索引压缩方法 *
a a b a a
白福均 ,高建瓴 ,李宛蓉 ,贺思云 ,肖绍武
(贵州大学 a. 大数据与信息工程学院; b. 档案馆, 贵阳 550025)
摘 要:高效地访问倒排索引是搜索引擎快速响应用户查
您可能关注的文档
最近下载
- 2020高考物理:计算题专项训练.pdf VIP
- 2025年湖南铁路科技职业技术学院单招职业技能测试题库一套.docx VIP
- 尾矿库安全技术知识--培训课件.ppt VIP
- 尾矿库安全培训精选课件.ppt VIP
- 四级高频词汇带音标版.pdf VIP
- 化妆品检验与安全性评价 第一第二章.pptx VIP
- 农村自建房包工不包料合同模板.docx VIP
- 【2025届】青海初中学业水平考试中考语文真题试题【原卷+解析】.pdf
- 尾矿库基础知识培训.pptx VIP
- Unit 5 School activities Wrap up & Let's explore 课件(共36张PPT) 外研版英语四年级下册.pptx
原创力文档

文档评论(0)