基于Lucene的XML文件相似度检索系统.pdfVIP

下载本文档

10
0
约1.6万字
约 6页
2017-08-10 发布于湖北
举报
版权申诉

基于Lucene的XML文件相似度检索系统.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Lucene的XML文件相似度检索系统.pdf

计算机系统应用 http：llwww．c—Sa．org．eft 2015年第 24卷第 2期基于Lucene的XML文件相似度检索系统① 吴新强，周娅，王如意，张敬伟，林煜明 (桂林电子科技大学计算机科学与工程学院，桂林 541004) 摘要：经分析研究开源的Lucene系统架构以及特殊xml数据源，针对 Lucene搜索得分公式的不足，提出了结合词项位置和二次检索的公式，设计一种文本搜索系统；并以提高检索性能、相似性搜索的准确率、索引的空间效率和支持查询的时间效率为目标进行实验，最后通过部署 Tomcat服务器实现．经实验验证，改进的系统较之于原Lucene系统提高了建立索引效率、查询效率、准确率．关键词：WebLucene；相似度；词项位置；二次检索；XML XM LFileSimilarityRetrievalSystem BasedOilLueene WUXin-Qiang，ZHOU WANGRu-Ri，ZHANGJin—Wei，LINYu—Ming (SchoolofComputerScienceandEngineering，GuilinUniversityofElectronicTechnology,Guilin541004，China) Abstract：OnthebasisofanalysisandstudyonhteopensourceLucenesystem architecture，asemanticsearchsystem is designedbasedonhtespecialXML dataSOurCes inhtispaper．What’Smore，weusetheworditem locationnadword esmnatictoimprovehteLucene’Ssearchresultsandconductexperimentstotestnadverifyhteretrievalperformnace，the accuracyofsimilarityesarch,htespaceefficiencyofindexandhtetime-efficiencyofsupportinginquiry：Andfinallyby deployinghteTomcatservertoimplementOur implementsystem．Theexpe rimentresultsprovehtat compraedwiht the originalLuceneindexingsystem，Our system callmiprovehtenidexingefficiency,queryefficiencynadaccuracy． Keywords：Lucene；similariyt；lexicalitem location；escondaryretrieval；XML 与传统的目录索引、关键字索引相比，语义索引构由问题单 XML文档构成，除了编号以外，还包括问方式更加接近人类的生活方式，使检索系统与用户的题单号、简要描述、详细描述四个域，分别从简到详进交流越发人性化．但因为汉语中语义的多样性和复杂行描述．其中问题单号可以看成查询中关键词的重量性，当前还没有很好的支持汉语的自然语言搜索引擎．级词项，而简要描述和详细描述则可看成对问题单号 Lucenet1中提到其本身不是一个相对完整的全文的具体描述信息．搜索引擎，而是一个简单的架构应用与全文搜索引擎．由于 Lucene 自身相似度评分公式忽略了词语位 Lucene是一个全文检索引擎工具包，应用与开放源代置，对本文中的特殊数据源无法有效的计算出其正确码．它作为一个全文搜索引擎，有其本身比较突出的特的得分并进行倒排，同时造成了一定的精确度误差．性．但也有不足之处：偏向于短文本得分高；对于查所以，本文提出了一种新的计算相似度的评分公式，询词在一个文档中位置并不重要；一个文档中，除该即在原始相似度的基础上结合词语位置相似度和二次查询词外，其他的词越多，得分越低；没有考虑到汉