基于python的网页小说爬虫系统的设计与实现.docx

基于python的网页小说爬虫系统的设计与实现.docx

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

随着互联网技术近几十年的不断发展与进步,网页小说的数量正呈指数式增长,网页小说的阅读已然成为了当代人们休闲娱乐的重要方式之一。但是互联网上的小说资源种类繁多、数目巨大,资源分布却过于分散,且不同的读者之间会对小说有着不同的阅读需求,这些原因就会导致读者想要快速、便捷、准确的找到自己心仪的小说变成一个棘手的问题。而为了解决以上问题,让读者可以快捷的搜索阅读小说,并能够得到良好的用户阅读体验,本文将会详述采用Python语言进行编写的网页小说爬虫系统设计与实现的全过程。

本网页小说爬虫系统将基于Python语言,通过爬虫技术来实现对网页小说数据的爬取,并对获取的数据进行处理后将其存入数据库中,还会通过使用Django框架完成对小说网站的搭建,以达到对小说数据信息直观展示的要求。在此系统中,用户还可以实现对网站中小说资源的阅读、搜索、评分、评价、收藏、推荐等基本功能,最后系统还支持超级用户以管理员视角对本网站进行后台数据的信息管理。

经过对本网页小说爬虫系统的多次测试表明,本系统功能合理完善,界面简单大方且具有人性化,易于操作,能实现用户对于小说搜索、阅读等基本功能的操作,也可以大大提高读者的搜索阅读效率,满足用户的基本需求。

关键词:网页小说;Python语言;爬虫技术;Django框架

第1章绪论

本章主要从课题背景、数据分析以及知识的初步了解等角度介绍了目前互联网生活中网页小说的发展以及爬虫技术的作用,通过研究相关内容的背景信息与当前发展现状以确定研究本课题的目的及意义。

1.1课题背景

我们所生活的时代是一个网络信息极其发达的时代,图书阅读与互联网在冲击中不断互动并逐渐融合,小说文学作为一种源远流长的文学形式,历史悠久,自古以来就很受欢迎,从古代的四大名著,到近些年被不断翻拍的言情、武侠小说,都受到了广大读者的喜爱。而伴随着互联网技术的不断发展以及近些年生活质量的不断提高,我们对精神世界的充实有了越来越大的需求与渴望,书籍是我们不可分割的放松方式。而如今我们已经迎来了大数据时代,大数据正在持续地改变着我们的生活、工作以及思维方式,一种新型的休闲娱乐方式——网络小说就出现在了人们的日常生活中。

根据我国互联网络信息中心第47次发布的《我国互联网络发展统计报告》显示,截至2020年12月份,我国网络文学用户达到了4.60亿,比同年3月增长了475万用户,占总体网民的46.5%。

图1-12016-2020年我国网络文学用户规模及使用率

网络小说迅速发展,势如破竹,其中网络媒体就是网络小说这种新颖形式诞生和发展过程中的重要物质载体。网页小说以互联网作为基础平台,文体不限、文风自由,阅读及发表的方式都比传统的普通纸质小说更为简单。在网络小说中,不仅是文字的内容和传统的小说比较起来会有明显差异,图案、符号、排版等手段也都有很多变化。

正是由于互联网中强大的搜索引擎、简单的浏览模式、交互的技术手段、丰富的阅读资源以及有诱人的VIP福利制度这些优点,吸引着人们在网络上阅读,互联网也在不知不觉地改变了人们的阅读习惯。

但由于网络上的小说资源种类繁多,且过于分散,各个网页小说网站中的数据信息也参差不齐,而且不同的用户对网页小说的阅读与搜索等基本功能的需求也会不同,所以读者一般不能得到良好的阅读体验。当大量的数据没有一个优秀的信息整合过程时就会给人们带来一些困扰,于是网页小说爬虫系统就成为解决该问题的一个有效且重要的方式。

1.2当前发展现状

小说网站的发展

由于网页小说的便利性以及经济性,网络小说就成为了当代文学的一种重要的形式,用网页浏览小说也成为了人们现在休闲娱乐的重要方式之一。目前,国内小说网站比较大型且较为优秀的网站有起点读书、晋江文学城等小说网站,同时也有很多新兴的小说网站正在冉冉升起。很多大型的小说网站都有很多高质量的作品,但是各类小说资源种类繁多并且过于分散,想要从众多小说资源中找到自己最心仪、最感兴趣的小说对于读者是一件比较麻烦的事。为解决这种问题,可以设计且实现一个网页小说爬虫系统以完成对小说资源的获取。

对于像起点、晋江、潇湘等老牌小说网站,它们中都有大量的高质量高水平的作品可以供读者阅读,不仅如此,它们除了拥有广大的资源还有优于其他小说网站的原因就是可以根据读者的偏好对读者进行适合的小说推荐。所以一个小说网站想要做到比其他同类型的小说网站更加优秀,可以在爬虫技术的基础功能上添加小说推荐及根据用户喜好进行搜索推荐的功能,如此便可满足读者的基本需求,提升用户使用满意程度与幸福指数,也可进一步推进网络文学的健康发展。

爬虫技术的发展

我们正处于“互联网+”的新时代中,在这个时代中产生了很多的现代科技,它们与我们的日常生活紧密结合在一起,为我们的现代生活带来便利。其中

文档评论(0)

123456 + 关注
实名认证
内容提供者

123456

1亿VIP精品文档

相关文档