个性化推荐系统采集模块研究.docVIP

  • 4
  • 0
  • 约3.64千字
  • 约 8页
  • 2018-07-04 发布于福建
  • 举报
个性化推荐系统采集模块研究

个性化推荐系统采集模块研究   摘要:在基于社会计算的个性化推荐系统设计中,采集模块的设计是数据的源头,也是系统数据分析的基础,关系到系统的质量。因此,采集模块作为个性化推荐系统的一个部分,有着举足轻重的作用,该文对该模块进行了详细的研究,为后面模块的设计提供了理论基础,也为相关系统的开发设计提供一定的借鉴经验。   关键词:采集;模块;系统   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)10-2446-04   Abstract: On the base of social computing personalized recommendation system design, design of the acquisition module is a data source, but also the basis for system data analysis, related to the quality of the system. Therefore, a collection module as a personalized recommendation system, play a decisive role, this paper makes a detailed study of the module, which provides a theoretical foundation for designing the back modules, and also provides some useful experience in development and design for the system.   Key words: acquisition; module; system   基于社会计算的个性化推荐系统的采集模块,关系到系统的质量,为系统的性能指标提供可靠的保证。采集模块实现了对网页文档信息的自动采集“爬虫”功能,能够基于用户的信息关键词来搜索。   采集模块由网页文档信息采集模块、lucene索引建立模块和搜索推荐主干模块构成,分别从模块的描述、功能、输入项、输出项、流程逻辑和接口详细介绍了其实现的原理。   1 网页文档信息采集模块   1)模块描述   本模块的重点之一是网络爬虫的编制。网络爬虫需要实现自动地抓取网页文档,提取网页地址,并且循环进行。尽管网络资源在同一个域之内,但为了提高爬取效率,还需要实现多线程才能保证更新的效率。另外,对于抓取到的文本存储路径相对于网页的网址,必须进行转换,才能更快速地在本地数据库中搜寻到该网页。而对于 IP地址则要做一个判断,以实现在规定范围的搜索。   2)模块功能   主要功能由start函数实现,其原型为:Start(UribaseURI ,intthreads) ,UribaseURI参数是表示需要下载的链接,后面的函数表示线程数量。路径的转换则需要通过转换字符实现。基本功能如表1网页文档信息采集功能表所示:   3)模块输入项   模块输入主要是对爬虫参数的设置,爬虫参数的设置要求如表2爬虫参数设置说明表所示:   4)模块输出项   本系统主要进行新浪博客的网页文档抓取,数据采集结果主要包括该博客网页文档以及该博客的地址,博客的题目、内容、作者以及采集的时间等。   5)模块逻辑流程   本模块的逻辑流程:首先分析源地址,然后获得地址列表,接下来反复循环每个地址,并调用相关方法来获取内容,通过计算,并得到文章相关信息,最后将获得的信息保存在数据库中。   6)模块接口   数据的采集是从新浪服务端将博客网页文档数据存储到本地数据库的过程,模块的接口如图1所示。   2 lucene索引建立模块   1)模块描述   索引建立模块独立于运行平台,实现了文档的解析和索引的创建,在本系统中解析的文档类型主要是html文档。   以 IndexWriter 建立索引 IndexWriter 的构造函数有三种接口,针对目录 Directory 文件 File文件路径 String 三种情况在索引结束时使用 Lucene 的 wirter. optimize( ) 方法优化索引。   2)模块功能   实现模块功能之前需要利用IKAnalyzer中文分词器对文档内容进行分词。分词器IKAnalyzer可以进行文档的筛选,获取目标文档,无用部分则剔除掉。其常用接口有org ,apache, Lucene, analysis,Analyzer 虚构类。   在该模块中主要利用格式转换类的方法,对格式文件采用与其相对应的解析方式来实现格式的转换,HTML文档利用 POI 解析。下一步则是将实现了转换的文件作为分词

文档评论(0)

1亿VIP精品文档

相关文档