基于NCFTP和LuceneFTP搜索引擎设计及实现.docVIP

基于NCFTP和LuceneFTP搜索引擎设计及实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于NCFTP和LuceneFTP搜索引擎设计及实现

基于NCFTP和Lucene的FTP搜索引擎的设计及实现   摘 要:针对数量庞大的教育网FTP资源检索困难的问题,提出一种基于开源软件NCFTP和Lucene实现对教育网FTP服务器进行索引并提供检索服务的FTP搜索引擎的设计及实现的方法。用开源软件NCFTP从FTP服务器上抓取FTP站点信息,并把抓取的信息转化为Lucene数据接口规定的文档(Document)类型,作为Lucene的数据源,并且采用基于字典的正向最大匹配中文分词法进行索引的建立及信息的检索。该方法已对郑州大学六个FTP站点建立索引,并向全校师生提供FTP检索服务,取得了良好的效果。   关键词:FTP搜索引擎;NCFTP;Lucene;有限状态自动机      The Design and Implement of Ftp Search Engine Base on NCFTP and Lucene   ZHAO Ke ,LU Peng, LI Bing-yi   (School of Electrical Engineering , Zhengzhou University,Henan Zhengzhou 450000)   Key words: FTP Search Engine;NCFTP; Lucene;Finite State Automata      教育网有着丰富庞大的FTP资源,但???却没有提供相应的检索服务,而Windows操作系统自身的基于匹配模式的检索效率非常低下,本文针对该问题,提出了一种基于开源软件NCFTP和Lucene实现对FTP服务器进行索引并提供检索服务的FTP搜索引擎的设计和实现方法,该方法用配置好的有限状态自动机,自动将NCFTP抓取的信息转化为Lucene可识别的文档(Document)类型,作为Lucene的数据源,并且在索引和检索过程中采用基于词典的正向最大匹配中文分词法,保证了检索的准确性。该FTP搜索引擎采用的组件大多为开源免费组件,既节约了成本,提高了开发效率,又便于今后的维护和扩展,保证系统的稳定性。该方法已对郑州大学六个FTP站点建立索引,并向全校师生提供FTP检索服务,取得了良好的效果。      1 FTP搜索引擎结构      FTP搜索引擎主要由数据采集、数据分析和索引维护及数据查询等模块组成。如图1所示,该引擎首先用NCFTP从FTP服务器抓取服务器、文件及目录等各种信息保存到本地,经过处理转化后提供给Lucene分析建立索引,并将索引文件保存到本地。当客户端发送搜索请求时,经过WEB服务器对输入关键词处理后将搜索请求输入到Lucene进行查询,并将查询结果以友好的界面返回给客户端,完成搜索。      2 FTP站点信息的采集及处理      2.1用NCFTP进行信息采集   NCFTP是一个开源的实现FTP的协议的软件,他可以在命令行下进行各种操作,因此广泛应用于UNIX、WINDOWS等各种操作系统。   信息采集对于FTP搜索引擎是一个至关重要的环节,采集的信息的要完整、准确、清晰。因为NCFTP可以在命令行下进行操作,因此它可以很方便地被各种编程语言调用。当FTP搜索引擎接收到抓取请求时,将需要抓取的FTP站点信息输入到NCFTP中进行抓取,并将抓取信息保存成TXT格式储存到本地。例如要抓ftp://tv.zzu.省略/站点的所有信息,可以使用如下命令:   ncftpls.exe -R ftp://tv.zzu.省略/ > e:\list.txt   该命令把ftp://tv.zzu.省略/站点的整个目录和文件的树形结构抓取下来保存到E盘list.txt文件中。其中命令行参数-R的意义为抓取整个站点的目录和文件的树形结构。   2.2抓取信息的格式   抓取的站点信息格式如下:   .\办公软件:   10-29-0806:34PM<DIR> WPS   08-24-0805:02PM<DIR>编辑软件   .\办公软件\WPS:   08-24-0801:19PM<DIR>软件信息   10-17-0806:56Pwps2007.exe   11-12-0212:00AM975 使用必读.txt   其中分为两种记录,一种以“.”开头,说明此条记录为下面文件或目录的父目录;另一种以数字开头,说明该条记录为文件或者目录,该记录分为三段,第一段为最后修改时间,第二段为标记字段,若该标记为<DIR>,表示该条记录为目录;否则该标记为文件的大小,以bit为单位,第三个字段为文件或目录名称,若是文件,则包含了文件的类型   2.3用有限状态自动机处理抓取信息   对于抓取信息的处理可以将所有记录

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档