- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第37卷 第 l6期 计 算 机 工 程 2011年8月
Vo1.37 No.16 ComputerEngineering August2011
· 软件技术与数据库 · 文章编号tl00o—3428(2o11)l6—0039__03 文献标识码·A 中田分粪号ITP311·13
基于Lucene的搜索引擎设计与实现
赵 珂,逯 晨,李永强
(郑州大学电气工程学院,郑州 450001)
摘 要:针对 目前教育网庞大的FrP资源检索困难的问题,提出一种基于EdtFrPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案
整体上采用基于Struts1.2框架的模型.视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应
用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保
证检索结果的准确性。
关奠诃:PTP搜索引擎;Lucene框架;模型—视图一控制器;有限状态 自动机;倒排索引
DesignandImplementation0fSearchEngineBased0nLucene
ZHAOKe,LUPeng,LIYong—qiang
(SchoolofElectricalEngineering,ZhengzhouUniversity,Zhengzhou450001,China)
[AbstraetlThenumberofFileTransferProtoeol(PTP)l~soutv.es0ntheChinaEducationnadResearchNetwork(CERNET)isquitelarge.Itis
difficulttofindhteresources.Becauseofhtisproblem,ahigh-performnaceFTPsearchengineisdesignedbasedonEdtFTPJnadLucene.Inthis
engine,Struts1.2isemployedtOimplementModelViewController(MVC).Dataacquisitionmoduleusesfinitestatemachinebasedonregulra
expressiontograb infomration,Indexmoduleusesinvertedindexmehtod.Wordsegmentationalgorithm usesmaximallymatchChinesewords
segmenattionbasde Oildictionary.QueryExperimentalresultsindicatehtathteproposedschemeimprovesthequeryefficiency,athtesametimetO
ensurehteaccuracyofhteretrievalresults.
[KeywordslFileTrnasferProtocol(FTP)serachengine;Luceneframework;ModelViewController(MVC);finitesatteautomata;invertdeindex
DOI:10.3969/j.issn.1000-3428.2011.16.013
1 概述 3 基于EdtFTPJ的信息采集模块的设计
目前教育网FTP资源检索方式主要是利用操作系统自身 3.1 信息采集
的检索方法进行人工检索,其特点是耗时长且效率低L1J,很 EcltFTPJ是一个开源的FTP客户端软件,它可以方便地
难满足 日益庞大的FTP资源检索的需求。针对该问题,本文 嵌入到 Java开发的系统中。本文利用
文档评论(0)