证券行业文本挖掘技术的应用现状与探讨.pdfVIP

证券行业文本挖掘技术的应用现状与探讨.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Focus 本期热点 证券行业文本挖掘技术应用现状与探讨 白雪,熊昊 上海证券交易所.发展研究中心,上海.200120 E-mail.:xbai@ 摘 要:证券行业的海量信息由结构化数据和非结构化数据构成。在当今大数据背景下,越来越多的有价值信息隐藏 在海量文本数据中,从而加大了对自动快速的从大规模文本数据中提取信息、发现知识的需求。文本挖掘是自动从文 本数据中挖掘潜在的事先未知的新知识的过程,其挖掘算法的发展与积累为证券行业文本数据分析与信息获取打下了 坚实的技术基础。基于蕴藏着宝贵信息的大数据,如何结合证券行业的特点和需求,借助挖掘算法与模型进行服务创 新和交易方式创新,是本文所关注的重点。为此,文本对国内外证券市场的文本数据服务进行了一系列调研,并对我 国证券市场基于文本挖掘的应用与服务进行了分析与讨论。 关键词:数据挖掘;文本挖掘;情感分析;大数据;创新服务 1.引言 行业的业务需求,基于人工智能、数据挖掘、文本挖 近年来,互联网在线文本数据的爆炸式增长大大 掘等前沿技术自动分析海量文本数据并从中提取相关 增加了各行各业的相关信息阅读量,如何从充斥着噪 有价值信息,给证券行业各层次的企业均提出了挑战, 音及各类繁杂信息的数据海洋中自动提取高度相关的 同时带来了互联网商业智能方向的新机遇,促进了一 有价值的信息已成为企业界与研究界共同关注的热点。 批基于证券行业文本信息服务的创新产业的兴起。文 作为一个跨学科交叉领域,文本数据挖掘涉及了多个研 本挖掘技术的发展与证券市场信息服务的创新将有助 究方向,如数据挖掘,自然语言处理,信息检索,机 于减小证券市场信息不对称性,增加信息透明度,加 器学习等等,正越来越多地应用于现实生活中各类应 快信息的传播,促进证券市场长期健康稳定发展。 用场景。 文本将调研并探讨证券行业文本挖掘服务现状。首 证券行业常见的数据包括了股票价格、成交量等等 先在第二部分对文本挖掘的基本概念、挖掘步骤、常 结构化数据,和包含了各类公司信息、新闻等非结构化 用开源工具和常见的几类挖掘算法展开简要介绍。在 数据。其中,结构化数据通常以数值形式存放于标准 第三部分对国内外证券行业文本信息服务进行了调研, 数据库中,这类数据是各种策略设计、趋势判断的基 将已有的服务分为三大类,分别为投资综合性社区、文 础。然而结构化数据仅占所有金融信息中的一小部分, 本信息资讯和专业文本挖掘。第四部分讨论了我国证 金融信息中绝大部分的数据均是以文本形式存在的一 券行业文本挖掘的应用现状和面临的问题。最后,对 种非结构化的数据,如上市公司公告、财报、财经新闻、 全文进行了总结并展望。 股吧、微博、社交网络等等。这类海量数据中隐含了很 2文本挖掘概述 多重要信息,例如大众对股票的评价和喜好程度,对 2.1文本挖掘简介 突发事件的褒贬态度和解读,都密切影响着未来市场 文本挖掘是自动从文本数据中挖掘潜在的事先未 的趋势。因此,在大数据时代背景下,如何结合证券 知的新信息的过程,与自然语言处理,信息检索,信 21 本期热点 Focus 息提取,知识发现,数据挖掘,机器学习,统计学等 进行清洗处理。经过清洗后的干净的文本文档,再进 研究领域密切相关 [1] 。文本数据具有高维、稀疏等特 行下一步的操作。英文文本的数据预处理通常包括过 点,可以基于不同层次的表示法展开分析。例如词袋

文档评论(0)

sjatkmvor + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档