- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据能力 DATA
CAPABILITY
中信证券非结构化数据处理平台建设实践
中信证券股份有限公司信息技术中心 岳丰 王哲 刘殊玥 余怡然 方兴
中信证券股份有限公司(以下简称“中信证券”) 1. 在数字化阶段,需要实现海量多格式文档的
在各项业务展业过程中,需要及时、准确地处理海量非 数字化
结构化数据。围绕数据加工的全生命周期,中信证券综 文档作为证券公司使用最多的非结构化数据格式,
合应用OCR、NLP、RPA、搜索引擎、知识图谱等AI技术, 特点是数据量大、格式繁多、内容多样、专业性和时效
在非结构化数据识别解析、自然语言理解与结构化处理、 性强。中信证券各部门文档识别解析需求量巨大,但缺
非结构化知识存储与检索等方面,开展公司级非结构化 少统一平台支持,多依赖人工处理且消耗较高时间成本。
数据处理平台建设。 海量多格式文档的数字化需求主要涉及以下内容:对扫
描PDF或图片,基于OCR识别完成数字化,对不同类
一、非结构化数据处理需求
型文件采用全文识别、模板识别、表格识别等方法处
随着企业数字化转型的持续深入,证券公司在客户 理;对可提取文字文档进行全文解析,适配双层PDF、
服务和内部管理中需要更加快捷有效地处理各种海量数 DOC/DOCX、PPT/PPTX、XLS/XLSX等常见格式;开
据。统计表明,企业数据有80%以上都是以非结构化 发文档版式分析工具,解析标题、段落、图表等要素及
的形式存在,且占比还在持续扩大。当前,中信证券非 位置,帮助回溯预览。
结构化数据处理需求场景非常广阔,几乎覆盖所有业务 2. 在结构化阶段,实现自然语言的结构化和语义
部门,但公司已有的系统主要针对结构化数据处理,急 理解
需建设分析、处理、挖掘非结构化数据的技术平台,从 证券公司非结构化数据的内容主要是自然语言。与
海量数据中挖掘价值。 机器语义不同,自然语言具有多样性和歧义性,应用中
非结构化数据加工处理全生命周期可划分为数字 需要从非结构化文本中,抽取各种结构化信息,并理解
化、结构化、知识化和业务应用四个阶段,各阶段需要 文本的语义。中信证券主要关注两方面需求:一是基于
解决以下关键问题。 命名实体识别、关系抽取、属性抽取、文本分类等NLP
64 FINANCIAL COMPUTER OF CHINA
数据能力
Data Capability
算法,抽取实体、关系、属性、类别等结构化信息;二 流程管理的重要探索。
是基于深度语义表示学习,计算单词、句子、文章等的
二、非结构化数据处理平台体系架构
语义向量表示,从而度量语义相似性。
3. 在知识化阶段,实现非结构化知识的存储与检索 2020年,中信证券开展非结构化数据处理平台建设,
中信证券从三个方面对非结构化知识进行管理:一 依托文档智能、知识管理和数据管理三个数据应用系统,
是提供非结构化数据的统一存储和权限控制功能;二是 为公司财富管理、资产管理、清算、库务、合规、风控、
基于搜索引擎技术,对公司研报、规章制度、技术文档 证券金融、自营投资、中信香港、信息技术等十多个部
等重要非结构化知识自动构建倒排索引,除支持关键词 门提供服务,初步实现了服务全公司非结构化数据处理
全文搜索外,还开发了自动摘要、主题抽取、情感分析、 的愿景,并取得了显著经济效益和社会效益。中信证券
语义模糊搜索等功能;三是基于抽取的实体、关系和属 综合应用AI代替人工处理非结构化数据,实现了降本
性构建知识图谱,特别是在元数据管理场景下,研发针 增效,目前已节
您可能关注的文档
- 计算机人工智能对医疗的认识与研究.pdf
- 基于人工智能算法的图像识别技术分析.pdf
- 一种煤流运输系统沿线人员侵入危险区域智能预测预警识别系统研究与应用.pdf
- 人工智能背景下大学生劳动观教育研究.pdf
- 现象学视域下的虚拟数字人:身体在场与拟像审美.pdf
- 数字驱动 科技赋能——农业银行数字员工建设研究与探索.pdf
- 人工智能背景下视觉传达设计教学模式创新研究.pdf
- 从空间认知到虚拟再现:数字化党史地图的实践探索.pdf
- 人工智能时代下艺术设计审美研究.pdf
- 全民阅读,看见数字阅读的新商业样本.pdf
- 中国国家标准 GB 10395.6-2025农业机械 安全 第6部分:植物保护机械.pdf
- GB 10395.6-2025农业机械 安全 第6部分:植物保护机械.pdf
- GB 10395.7-2025农业机械 安全 第7部分:联合收割机、饲料收获机、棉花收获机和甘蔗收获机.pdf
- 中国国家标准 GB 10395.7-2025农业机械 安全 第7部分:联合收割机、饲料收获机、棉花收获机和甘蔗收获机.pdf
- 《GB 10395.7-2025农业机械 安全 第7部分:联合收割机、饲料收获机、棉花收获机和甘蔗收获机》.pdf
- GB/T 42076.2-2025生物技术 细胞计数 第2部分:量化计数方法性能的实验设计与统计分析.pdf
- 中国国家标准 GB/T 42076.2-2025生物技术 细胞计数 第2部分:量化计数方法性能的实验设计与统计分析.pdf
- 《GB/T 42076.2-2025生物技术 细胞计数 第2部分:量化计数方法性能的实验设计与统计分析》.pdf
- GB/T 46735.1-2025高温蓄电池 第1部分:一般要求.pdf
- 《GB/T 46735.1-2025高温蓄电池 第1部分:一般要求》.pdf
最近下载
- 《作业治疗学》课程考试复习题库(含答案).docx VIP
- 部编版小学六年级语文上册 期末全真模拟卷(重点小学)【含答案】.pdf VIP
- 作业治疗学考试题库带答案.doc VIP
- 工程监理方案技术标.docx
- 2024中小学生网络安全知识竞赛题库及答案.docx VIP
- PEP小学英语小学六年级上册期末试卷(含答案).pdf VIP
- NB_T 47014-2023承压设备焊接工艺评定.pdf VIP
- 广东深深圳市深圳中学2025届语文高一第二学期期末教学质量检测模拟试题含解析.doc VIP
- 广东深深圳市深圳中学2025年高一下语文期末统考模拟试题含解析.doc VIP
- 肩关节镜下肩袖修补术手术配合.pptx VIP
- 乡村振兴、双碳、储能、绿色金融 + 关注
-
实名认证服务提供商
新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。
原创力文档


文档评论(0)