基于网络爬虫的股票信息系统设计与实现.docxVIP

下载本文档

2
0
约1.71万字
约 15页
2023-11-25 发布于河北
举报
版权申诉

基于网络爬虫的股票信息系统设计与实现.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 4 　　摘要由于当代我国经济体系的逐步发展，期货热、炒股热、基金热以及数字货币热，逐渐成为了全民共同关注的话题。而大数据时代的红利也开始降临在了社会上一些金融从业者身上。本次研究的课题的设计目的主要是为了探究机器学习大数据等技术的运用与股票量化分析预测结合的可行性，采用股票爬虫技术与MySQL数据库技术，从网络上下载获得数十支沪深300指数的各项历史纪录，存入数据库。根据股票预测的时序性与特征非线性相关这两大特征提出了基于LSTM 的股票指数预测模型。LSTM模型是由RNN模型改进而来，它引入了时间序列和定向循环的概念，这让模型能够更好地解决输入数据前后相互关联的问题，并且LSTM更具有时间记忆性。关键词 Python；股票投资；神经网络；LSTM 1 前言 1.1 设计的背景当代我国经济体系的逐步发展，期货热、炒股热、基金热以及数字货币热，逐渐成为了全民共同关注的话题。　　就最近的十多年看来，量化投资以迅雷不及掩耳之势为业界普及，就海外而言，由于金融集团集中度高，使这个行业开始存在了一定的壁垒，这使得定量比定性投资管理者更容易集中在一起形成集中产业。就美国的数据显示，最大的1O家定量投资公司掌控了40-60％的资产[1]。量化投资和基本面分析、技术面分析并称为三大主流方法。由于量化投资交易策略的业绩稳定,其市场规模和份额不断扩大,得到国际上越来越多投资者的追捧。　　现如今大数据时代的红利也开始降临在了社会中某一些专业人士的身上。例如：基金经理、中高产投资者等。在当今这个基金经理明星化的社会现象下，基金经理同时也在享受互联网带来的流量红利，若想要把握这个红利，便必须有更可靠、更稳定的金融分析工具与方法来支撑。因此，懂得运用工具把握和预测市场，也便成为了业内的大势所趋，使得寻找工具便成了不可不行的事情。　　本次的设计便试图探究：金融的量化分析结合大数据等工具，是否能够达到超过预期的利益；其中的可行性是否值得期待；其方式是否是未来金融市场的主流方式。 1.2 设计的意义与目的　　本次设计的研究目的与意义非常的单纯，即通过大数据与网络爬虫等工具，利用深度学习的方式，探究以计算机及网络工具预测金融走向，而金融从业者辅助其，对其进行量化投资辅助校验或纠正的可行性。 1.3 设计的内容、方法以及步骤　　通过网络爬虫技术从新浪网易财经的数据爬虫接口上下载的大量所要用到的股票数据，存储到本地服务器的数据库之中。其中包含被下载的股票至今为止的开、高、收、低、量、涨、跌幅等6维数据。　　在获得数据之后，建立深度学习算法模型框架，这里用到的是循环神经网络算法，将获得的开、高、收、低、量、涨、跌幅等六维数据送入算法中进行训练和学习，将获得的模型加以保存。根据实时更新的数据经行填补，此后开始预测未来1天某支股票的涨跌幅，给出投资引导。 1.4 设计的相关技术与工具技术：Python爬虫技术、MySQL数据库、深度学习、循环神经网络、多因子量化模型。工具：Pycharm 1.4.1 Python语言　　此设计采用Python语言进行开发。Python是一门面向对象的程序开发语言（Object-Oriented Language， OOL），其功能强大，能够开发桌面程序、Web程序、爬虫程序、大数据程序和人工智能程序。　　Python拥有数量极多的扩展库。Python的库分为标准库和第三方库，标准库为下载系统时自带的，而第三方则非自带，需要开发者自行下载。一般情况的的第三方库可用 pip install 命令进行下载。无论是标准库还是第三方库，都是对于Python的功能扩展，统称扩展库。且得益于Python的开源性，绝大多数的扩展库都是免费的。Python 利用扩展库可以额外添加许多的功能，这些强大的库让Python保持着生命力和高效力。如numpy便捷的数据分析能力，matplotlib强大的绘图能力，各种各样的库让Python拥有着丰富的功能，能够完成各种高级任务。 1.4.2 网络爬虫　　网络爬虫（又称为网页蜘蛛，网络机器人，在FOFA社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫 [9] 。　　由于网络爬虫可以在短时间内爬取大量信息，在一定程度上会对访问的服务器造成很大的压力，如果不加以节制，很可能会导致访问的服务器崩溃，这也导致目前市面上的网站大多由反爬机制。此设计秉承着服务他人的理念，采用了非暴力的爬取方法，杜绝上述的各种情况。通常情况下，爬虫会使用xpath、css等语法进行信息筛选提取。此设计采用xpath语法对新浪财经的信息进行筛选提取。网络爬虫的分类主要为通用网络爬虫、聚焦网络爬虫、增量式