基于Scrapy框架的我爱小说网数据采集系统-开题报告.docx

基于Scrapy框架的我爱小说网数据采集系统-开题报告.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE PAGE # 毕业论文(设计)开题报告 题目:基于Scrapy框架的我爱小说网数据采集系统的 设计与实现 毕业论文(设计)开题报告 研究的目的、意义 随着互联网技术的飞速发展、移动只能设备的日益普及,网络小说平台凭借其便捷性, 已成为人们重要的阅读休闲途径之一。网络小说平台运营过程中,会产生大量的读者、作 者、书籍等信息,合理利用相关数据对平台的发展至关重要。 面对日益增加的数据压力,许多网络文学网站出现网络平台流量成本不断提升的问 题。同时,由于新媒介不断崛起导致用户时长呈现离散化分布、网络小说平台行业独占率 下滑,导致用户争夺日趋白热化。网络小说平台在存量用户维持、新用户吸引、提高网站 点击率等方面面对诸多问题。 针对上述问题,以我爱小说网站为研究案例,釆用Scrapy框架进行数据釆集、清洗、 持久化,对分析的数据结果进行可视化展示。本系统优势是爬取的数据种类多,可以直观 看到用户对不同种类书籍的偏好,针对不同的读者推送不同类别的书籍,预测下一年适合 推广什么书籍,一定程度上提高书籍的交易量,提高作家的收益,推动小说网络平台的发 展。 国外国内研究现状及发展趋势 目前,国外设计出了很多的网络爬虫系统,主要有Ubi Crawler> Mercator> Nutch和 Google Crawler,这些网络爬虫系统都具有自己特点,在数据采集方面有较高的效率和准 确率[1]。国内同样有很多的研究单位和高校学者对分布式网络爬虫系统作了大量的研究, 很多优良的网络爬虫系统也随之产生⑵。“天网”搜索引擎是由北京大学所开发的网络爬 虫系统,“天网”系统在网络爬虫领域对国内外的影响都十分巨大。天网搜索是将FRP 文件分成动画片、电影、文档资源、音乐、程序下载等几大类,系统用户可以根据目录层 导航、搜索、查找想要的数据。天网系统出了能够搜索互联网主页之外,还可以搜索FTP 站点的数据,这样做为高级用户寻找特定的文件提供了便利⑶。 国内对于小说相关爬虫的研究,赵鹏程设计并实现了一种基于Scrapy数据釆集框架 的分布式书籍网络爬虫系统,系统名为DScrapy,系统能够对互联网书籍类的网站进行访 问,并且抓取和下载书籍类的文件和书籍的相关信息。使用MongoDB对抓取到的数据进 行分布式存储。DScrapy系统将互联网上抓取得到的数据元素存储到MongoDB数据库管 理系统中,这样做可以便捷地对下载的书籍进行管理囹。Scrapy自带的Selector机制,使 用xpath表达式对网页元素进行定位,结合CSS表达式和Python正则表达式提取数据元 素,使用Ubuntu系统作为系统开发和运行平台[习。上述资料,实现了对书籍类的文件和信 息进行了爬取,没有对数据进行具体分析,所以我要对小说网站进行数据采集并分析采集 到的数据,从不同的方向进行分析,做进一步的深入研究。 主要参考文献 Li B , Dong J , Peng R , et al. A Rapid Plotting Algorithm of Geodetic Line within Arch Height Error Threshold Limits under Mercator Projection[J]. IOP Conference Series Materials Science and Engineering, 2020, 780:032043. 吴宇鹏.分布式网络爬虫技术的研究与实现[J].电脑编程技巧与维护,2020, No.425(l 1):11-12+21. 陈华,李晓明.高级文件搜索引擎核心功能的实现技术[C]〃全国搜索引擎和网上信息 挖掘学术讨论会.2003. 赵鹏程.分布式书籍网络爬虫系统的设计与实现[D].西南交通大学,2014. 孙瑜.基于Scrapy框架的爬虫系统设计与实现[D].北京:北京交通大学,2019. 张露.网络爬虫技术在大数据审计中的应用[J].合作经济与科技,2019(07):190-192. 刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J]. 2017 (07) :111-114. 陈毅基于Django的生鲜电商系统的研究与开发[D].东华大学,2018. Xie D X , Xia W F , 谢东祥.Design and implementation of the topic-focused crawler based on scrapy[D], TRANS TECH PUBLICATIONS LTD, 2014. 宋佳慧,刘远刚,林琳,李绅弘,许帆.基于E-Charts的动态统计图表绘制技术研究[J]. 电脑知识与技术,2017,13 12 208-210. 研究内容 本系统主要实现对我爱小说网热门榜小说

文档评论(0)

九点半 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档