中信证券非结构化数据处理平台建设实践.pdfVIP

中信证券非结构化数据处理平台建设实践.pdf

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据能力 DATA CAPABILITY 中信证券非结构化数据处理平台建设实践 中信证券股份有限公司信息技术中心 岳丰 王哲 刘殊玥 余怡然 方兴 中信证券股份有限公司(以下简称“中信证券”) 1. 在数字化阶段,需要实现海量多格式文档的 在各项业务展业过程中,需要及时、准确地处理海量非 数字化 结构化数据。围绕数据加工的全生命周期,中信证券综 文档作为证券公司使用最多的非结构化数据格式, 合应用OCR、NLP、RPA、搜索引擎、知识图谱等AI技术, 特点是数据量大、格式繁多、内容多样、专业性和时效 在非结构化数据识别解析、自然语言理解与结构化处理、 性强。中信证券各部门文档识别解析需求量巨大,但缺 非结构化知识存储与检索等方面,开展公司级非结构化 少统一平台支持,多依赖人工处理且消耗较高时间成本。 数据处理平台建设。 海量多格式文档的数字化需求主要涉及以下内容:对扫 描PDF或图片,基于OCR识别完成数字化,对不同类 一、非结构化数据处理需求 型文件采用全文识别、模板识别、表格识别等方法处 随着企业数字化转型的持续深入,证券公司在客户 理;对可提取文字文档进行全文解析,适配双层PDF、 服务和内部管理中需要更加快捷有效地处理各种海量数 DOC/DOCX、PPT/PPTX、XLS/XLSX等常见格式;开 据。统计表明,企业数据有80%以上都是以非结构化 发文档版式分析工具,解析标题、段落、图表等要素及 的形式存在,且占比还在持续扩大。当前,中信证券非 位置,帮助回溯预览。 结构化数据处理需求场景非常广阔,几乎覆盖所有业务 2. 在结构化阶段,实现自然语言的结构化和语义 部门,但公司已有的系统主要针对结构化数据处理,急 理解 需建设分析、处理、挖掘非结构化数据的技术平台,从 证券公司非结构化数据的内容主要是自然语言。与 海量数据中挖掘价值。 机器语义不同,自然语言具有多样性和歧义性,应用中 非结构化数据加工处理全生命周期可划分为数字 需要从非结构化文本中,抽取各种结构化信息,并理解 化、结构化、知识化和业务应用四个阶段,各阶段需要 文本的语义。中信证券主要关注两方面需求:一是基于 解决以下关键问题。 命名实体识别、关系抽取、属性抽取、文本分类等NLP 64 FINANCIAL COMPUTER OF CHINA 数据能力 Data Capability 算法,抽取实体、关系、属性、类别等结构化信息;二 流程管理的重要探索。 是基于深度语义表示学习,计算单词、句子、文章等的 二、非结构化数据处理平台体系架构 语义向量表示,从而度量语义相似性。 3. 在知识化阶段,实现非结构化知识的存储与检索 2020年,中信证券开展非结构化数据处理平台建设, 中信证券从三个方面对非结构化知识进行管理:一 依托文档智能、知识管理和数据管理三个数据应用系统, 是提供非结构化数据的统一存储和权限控制功能;二是 为公司财富管理、资产管理、清算、库务、合规、风控、 基于搜索引擎技术,对公司研报、规章制度、技术文档 证券金融、自营投资、中信香港、信息技术等十多个部 等重要非结构化知识自动构建倒排索引,除支持关键词 门提供服务,初步实现了服务全公司非结构化数据处理 全文搜索外,还开发了自动摘要、主题抽取、情感分析、 的愿景,并取得了显著经济效益和社会效益。中信证券 语义模糊搜索等功能;三是基于抽取的实体、关系和属 综合应用AI代替人工处理非结构化数据,实现了降本 性构建知识图谱,特别是在元数据管理场景下,研发针 增效,目前已节

您可能关注的文档

文档评论(0)

新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。

1亿VIP精品文档

相关文档