- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                基于关键词和支持向量机财务大数据爬虫
                    基于关键词和支持向量机财务大数据爬虫
    【摘 要】 从互联网上获取信息进行分析,已经成为人们进行决策的重要手段。有效地从海量数据中获取正确的目标信息是当前的重点和难点问题。通用搜索引擎检索的结果由于主题相关性不强,无法满足特定用户的需求。文章在改进SVM参数寻优算法的基础上,提出了结合关键词过滤算法和适用于大数据分类的支持向量机算法,并利用设计的财务管理相关主题信息分类算法,构建了财务管理相关主题爬虫系统。实验结果表明,基于关键词与改进支持向量机的财务管理主题相关爬虫能有效地采集目标信息,能够较好地适用于财务管理舆情管理和财务管理危机管理等相关领域。 
  【关键词】 大数据; 主题爬虫; 关键词; 支持向量机; 寻优算法 
  【中图分类号】 C939 【文献标识码】 A 【文章编号】 1004-5937(2016)16-0126-07 
  一、研究综述 
  由于网络技术的发展以及互联网服务的提升,大数据的容量得以爆发增长。据国际数据公司(IDC)公司统计,2011年全球被创建和被复制的数据总量为1.8ZB(1021)。远远超过人类有史以来所有印刷材料的数据总量(200PB)[1]。比较通用的搜索引擎如谷歌、百度等,强调搜索覆盖面积大,但结果并不精确。随着人们对各项信息服务的领域细化要求逐步提高,通用搜索引擎无法解决精确定位的问题,只能部分实现资源发现问题[2]。相对而言,主题爬虫能够以较好的方式,专注于抓取Web中与主题相关的网页,能够根据特定的网页分析算法过滤掉不相关的链接[3]。与通用搜索引擎相比,减少了对资源的消耗,并且支持扩张性的检索处理。主体爬虫核心是能够过滤网页中的前向链接,使爬虫聚焦在一个特定主题的Web子集中。通过某种策略获取网络信息的主题爬虫,是近年网络爬虫领域的研究重点[4]。能够高效聚焦的主题爬虫具有重要的实际意义。从财务管理角度看,财务管理为实现高效决策,从互联网上获取大量相关舆情信息来进行预警,已经成为财务管理风险管理的重要手段。目前财务管理采集信息主要还是人工采集为主,不足之处是需要投入一定的人力。提高采集相关信息效率,即在有限的资源条件下,尽可能有效获取财务管理主题相关信息,适应财务管理管理的各维度需求,是财务管理信息采集领域重要的研究内容。 
  传统的网络爬虫,一般是采取广度优先、深度优先或者两者结合的策略进行网页采集。按照传统的爬虫策略,优点是可以搜集到比较全面的信息,缺点是爬行速度比较慢,而且会采集大量与目标无关的网页。Chakrabarti[5]最先提出基于朴素贝叶斯分类模型的主题爬虫。引入分类器的爬虫可以通过分类算法实现预测主题的相关度,而不止停留在关键词匹配的简单计算上。在获取大量网络数据的过程中,网页分类是一项重要而有效的技术。网页分类技术由计算机根据特定算法自动分析网页文本内容,根据分析结果,网页将被划分到事先定义好的类别中。目前有很多文本分类算法,主要是依据统计学和机器学习方法,而支持向量机(Support Vector Machine,SVM)被普遍认为是一个较理想的分类算法。Gautam Pant[6]通过实验发现,基于SVM分类模型的主题爬虫效果较好。目前国内应用SVM算法的主题爬虫中,已经有林业主题爬虫、机械主题爬虫和化学主题爬虫等。多数采用SVM算法的主题爬虫,为了减少支持向量机工作量,提高效率,只对某一主题判断是非问题,即仅实现二分类。这种情况存在的原因是SVM不适用于大样本数据集,因为SVM参数寻优的时间过长。这就使现有相关主题爬虫的应用范围受到极大限制,无法满足财务管理对目标信息的多维度细化需求。财务管理主题相关爬虫把关键词匹配算法和SVM多分类算法相结合,在利用关键词规律初步减少支持向量机工作量的同时,对grid-search算法加以改进,使SVM能够处理大数据。充分利用SVM算法提高主题爬虫的准确率,从而使公司主题相关爬虫具有信息维度细化的性质,使爬虫具有更高的适用度。 
  二、适用于大数据的SVM参数寻优策略 
  传统SVM寻优搜索算法有网格搜索法、梯度法、模拟退火和遗传算法等。网格搜索是参数优化中应用最广的算法。它对多个参数的不同取值的所有组合,采用特定范围内遍历搜索,可以得到最优解,但需要耗费大量时间,以至于无法应用于大规模数据集处理。梯度法收敛速度较快,但又可能陷入局部最优,而且有目标函数对参数可微的限制条件。模拟退火等智能算法条件相对宽松,但在时间上相对太大,得到的解一般是近优结果。如何使SVM能够对大数据集进行训练和预测,解决这个问题无外乎两种途径,一种是加快寻优速度,另一种是缩小参数寻优范围。目前研究中,刘靖旭等的研究采用启发式搜索算法,可以小幅度降低寻优时间。但在大数据情况下,这种寻优时间的优势被淡化,而且有陷入局部最优的缺
                 原创力文档
原创力文档 
                        

文档评论(0)