面向财经新闻数据集构建的智能采集系统研究与应用.pdfVIP

面向财经新闻数据集构建的智能采集系统研究与应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

工信财经科技2025年第2期

面向财经新闻数据集构建的智能采集系统研究与应用

王雷*

摘要:现有新闻分类数据集构造按照新闻性质进行划分,缺乏针对财经领域进行

划分的数据集。为构建针对财经领域的新闻数据集,支持研究人员开展智能财经方向的

研究,本文锚定权威财经报刊,设计一种自动采集、清洗和可视化展示财经新闻数据的

解决方案。系统基于Python、MySQL和LMDB数据库技术实现数据的采集、处理和存

储,随后进行数据分析和可视化展示,共享价值数据;已采集和清洗财经新闻13878篇,

为主题建模、新闻分类等智能财经方向研究奠定了数据基础。

关键词:财经新闻;数据采集;数据库;文本预处理;数据可视化

一、引言

大数据时代,大数据技术的成熟和发展使信息呈爆发式增长,深刻影响着各个行业,

新闻行业亦在其中,尤其是财经领域对财经资讯数据高度依赖(吉喆,2022)。在大数据

背景下,财经新闻领域面临严峻挑战:传统媒体数字化转型、智能化新闻报道的兴起以

及新闻来源渠道多元化,使得财经新闻数据量增长迅猛但缺乏有效组织。在此境况下,

相关用户极易深陷海量财经新闻数据的困境。一方面,获取新闻的时间成本大幅增加,

另一方面,获取有价值信息的难度也显著提升,用户难以在有限时间内全面掌握财经新

闻,更难及时获取关键资讯,进而影响其对市场变化的判断以及对潜在投资价值的挖掘。

因此,借助自然语言处理、机器学习和深度学习等计算机技术,构建有效的财经新闻数

据采集与分类体系,成为函待解决的重要问题(谢志峰等,2018)。

财经新闻分类的技术基础是自然语言处理(NaturalLanguageProcessing,NLP)中

的文本分类技术(亚婷等,2023;胡丰麟,2023;汪家伟和余晓,2024;王玮玮,2019;

徐朋,2023),可以较大程度上帮助财经新闻读者从海量的财经新闻中快速查找定位关

心的主题新闻。财经新闻分类研究的前提和基础是财经新闻数据集,但当前公开的新闻

数据集通常都按照新闻大类进行划分标注,例如清华大学自然语言处理实验室的中文文

本分类数据集THUCNews,划分为财经、彩票、房产、股票、家居、教育、科技、社

会、时尚、时政、体育、星座、游戏、娱乐14个类别,缺乏针对某一具体领域新闻进行

分类的数据集(李海艳,2023),对于财经新闻领域更是没有针对性地公开数据集应用。

公开新闻数据集的数据来源主要包括新浪新闻、今日头条等综合新闻网站,如

*王雷,四川财经职业学院信息学院,高级工程师、软件设计师、助教;邮箱:raywangl@163.com。

四川财经职业学院财税大数据工程研究中心资助项目“财经新闻数据智能挖掘与分类”(项目编号:CSDSJ202403);中国

商业会计学会职业教育分会科研项目“基于Python技术的数智化教学改革研究与实践”(项目编号:2024ZJ054);教育部第三

期供需对接就业育人项目“‘双高’背景下大数据技术专业职业技能提升”(项目编号:2023122947842)。

①参考清华大学THUCTC:孙茂松,李景阳,郭志芃,等.THUCTC:一个高效的中文文本分类工具包.2016.

48

王雷:面向财经新闻数据集构建的智能采集系统研究与应用

THUCNewWs数据集是根据新浪新闻RSS订阅频道2005—2011年的历史数据筛选过滤生

成。针对具体领域的新闻数据集构建,若仍然采用综合新闻网站的新闻作为数据来源,

新闻数据将缺乏专业性和权威性,或需要领域专家对新闻数据进行良莠判断和领域类别

划分确认。

构建财经新闻数据集意义非凡。在学术研究方面,为财经领域学者探究市场规律、

政策影响等提供丰富数据,推动学术发展。在金融投资决策领域,投资者可借此挖掘投

资机会,制定科学投资策略,降低风险、提升收益。对于财经媒体而言,有助于优化内

容,精准推送,增强竞争力。

基于此,本文以财经新闻数据集构建为背景,以财经新闻数据为采集对象,研究财

经新闻数据智能采集系统的设计。财经新闻数据选择国家级财经新闻刊报《中国经济周

刊》(以下简称周刊)作为财经新闻数据集的数据来源。周刊是以政经为主的综合经济

类杂志,是中国官方主流财经媒体,该刊的原创深度报道专业、权威,第一时间提供真

实、客观的新闻现场报道,以及重大热点新闻的深度解读。采集系统是财经新闻领域数

据集构建的前提和

文档评论(0)

教师资格证、公共营养师持证人

本人专注ppt制作、办公模板编辑六年有余,可以根据客户需求做出高品质ppt、办公表格等模板,以及文案等。

领域认证该用户于2024年07月07日上传了教师资格证、公共营养师

1亿VIP精品文档

相关文档