- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
MatrixOneIntelligence
A解I原决生方多案模白态皮数书据智能
目录
前言 2
GenAI时代的数据挑战 3
类人脑计算能力的崛起 3
非结构化数据价值开始被挖掘 3
企业落地GenAI的数据困境 5
典型行业场景的落地难题 6
总结 8
MatrixOneIntelligenceAI原生多模态数据智能解决方案 9
MatrixOneIntelligence概述 9
解决方案架构介绍 9
核心产品概述 11
解决方案技术特点及优势 13
解决方案技术流程详解 15
整体数据流程 15
数据接入与整合 16
数据预处理与解析 19
特征工程 21
数据标注与增强 23
模型训练与评估 25
RAG召回与搜索 27
总结 30
行业案例 31
极视角多模态数据与特征平台 31
深智城集团 32
江西铜业 33
金意陶 34
素问TechAgent 35
总结 38
前言
在当今时代,Gen人工智能(GenerativeAI,简称GenAI)正以前所未有的速度席卷全球,成为推动科技进步和产业变革的重要力量。从ChatGPT的横空出世到各类大模型的广泛应用,GenAI不仅在技术层面取得了突破性进展,更在商业和社会层面引发了深远的影响。从文本生成、图像绘制到视频制作,GenAI的应用场景日益丰富,为各行各业带来了前所未有的机遇与挑战。
据麦肯锡全球研究院(McKinseyGlobalInstitute)的报告,到2030年,AI技术有望为全球GDP贡献高达13万亿美元的增长。Gartner预计在2026年,超过80%的企业将使用GenAI应用程序编程接口(API)或模型,或者在相关生产环境中部署支持GenAI的应用程序。这一比例在2023年还不到5%,这意味着在短短三年内,采用或创建GenAI模型的企业数量预计将会增长16倍。
在GenAI的架构中,数据处理的作用尤为关键。AI技术与数据的紧密联系显而易见:庞大的数据集训练出强大的AI模型,而这些模型的功能又能促进数据处理的进一步优化。尽管如此,行业对GenAI技术栈中的算力层、模型层和应用层的各项能力及技术方案已有深入探索,但对数据处理层的重视程度仍显不足。在通用基座大模型越来越普及的趋势下,对企业自有数据的挖掘利用将变成GenAI落地企业级应用的最关键因素。
矩阵起源作为一家Data+AI领域的创业公司,在数据及AI领域已经有超过十年的行业经验沉淀。本白皮书将从矩阵起源的专业视角,深入剖析Data+AI领域的最新趋势和挑战,并给出如何对企业自有数据进行深度挖掘利用的详细蓝图,以实现更符合企业实际业务价值的GenAI应用落地。
GenAI时代的数据挑战
类人脑计算能力的崛起
驱动GenAI技术发展的核心是大语言模型LLM,其本质上是使用计算机构建巨大的神经网络结构模拟人脑神经元的构成,然后将海量的文本知识压缩到一个有庞大参数量的神经网络中。这样的架构可以给计算机赋予人类一样的交互能力,可以理解人类的语言和需求,再生成便于人类理解的数据。
GenAI的类人脑计算能力与过去传统意义上计算机擅长的高速数学计算有根本性的区别:
传统计算能力可以轻松完成人类在短时间内难以完成的复杂科学计算,而且工作准确度极高,相同的任务可能需要大量人力进行手动计算整合才能完成,且人类的工作经常出错,但是传统计算能力难以处理以人类自然语言构成的NLP任务,比如文档理解、对话理解、图片理解等,而对于人类而言即使是儿童也具备这些能力。
而新型的GenAI计算能力是完全模仿人脑的结构所设计的,所展现的能力也跟人类行为极为相似,通过自然语言交互,同样能很轻松的胜任文档理解、对话理解、图片理解等任务,同时具备一定的创造力,可以生成现实中不存在的东西,但是并不擅长复杂的数学计算,准确度也是天生的缺陷。
因此,GenAI真正带来的是一种全新的类人脑计算能力,它与传统的计算机精确数学计算能力共同构成了我们当今IT世界的新型计算基座。
非结构化数据价值开始被挖掘
数据作为IT世界的另外一个重要基石,在GenAI的新型计算能力加持下也发生了巨大的变化。
传统上在数据处理领域,我们会把数据分成三类,结构化数据、半结构化数据和非结构化数据:
结构化数据是定量数据,由值和数字组成,是高度组织化的数据,易于访问和解释,它们往往以二维表格和数据库的形式存在。
非结构化数据是定性数据,没有内部结构,由文本、视频和图像组成,包括各种格式的
办公文档、图片、网页、音频
文档评论(0)