大规模非结构化数据的索引技术研究.pdfVIP

大规模非结构化数据的索引技术研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模非结构化数据的索引技术研究.pdf

第 24卷 第 l2期 计 算 机 技 术 与发 展 V01.24 No.12 2014年 12月 COMPUTERTECHNOLOGY AND DEVELOPMENT Dec. 2014 大规模非结构化数据的索引技术研究 时亚南 ,张太红 ,陈燕红 ,郭 斌 (1.新疆农业大学计算机与信息工程学院,新疆 乌鲁木齐 830052; 2.中国农业大学信息与电气工程学院,北京 100083) 摘 要 :为解决搜索引擎ASPSeek在大规模数据下检索效率低下、占用空间大以及不利于更新等问题,提 出了一种分块式 存储的倒排索引组织技术,并对基于外存的B+树索引和线性散列索引的性能进行了比较测试研究。测试结果表明,查询 每万条数据耗时线性散列为B+树索引快57.40%,插人每万条数据耗时线性散列为B+树索引的2.44倍,删除每万条数据 耗时线性散列为 B+树索引的83.52%,线性散列索引文件大小为B+树索引文件大小的109.56%。由测试结果可知,B+树 索引具有较快的索引构建和更新速度,而线性散列索引则具有较高的磁盘空间占用率和较好的查询性能。 关键词 :大规模数据;倒排索引;分块式存储 ;线性散列;B+树 中图分类号 :TP31 文献标识码 :A 文章编号 :1673—629X(2014)12—0109—05 doi:10.3969/j.issn.1673—629X.2014.12. StudyonLarge-scaleUnstructuredDataIndexingTechnology SHIYa—nan ,ZHANG Tai—hong ,CHEN Yan—hong ,GUO Bin (1.SchoolofComputerandInformationEngineering,XinjinagAgriculturalUniversity, Ummqi830052,China; 2.CollegeofInfomr ationnadElectricalEngineering,ChinaAgriculturalUniversity, Beijing100083,China) Abstract:Tosolvetheproblem thatin large—scaledataconditionhteASPSeeksearchengineretrievalsinefficiently,haslargediskspace occupancyandcan’tbeconducivetOupdate,proposena inve~edindex—organizedtechniquebasedonblockstorage,nadmakeaper— formnacecomparisonreserachtestbetweenexternalmemorybasedB+treeindexnadlinearhashindex.Testresultsshow htat.forqueries pe rmilliondata-consuminglinera hashingtOB+treeindex is57.40% .forinsertingpermi lliondata—consuminglinera hash is2.44 timestoB+treeindex,ofrdeletingeverymilliondata—consuminglinearhashtoB+treeindex is83.52% ,linera hash indexfilesizeis 109.56% ofB+treeindexfilesize.Accordingtothetestresults.B+fleeindexhashtefas

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档