网站大量收购闲置独家精品文档,联系QQ:2885784924

人工智能大模型保险行业应用评测报告(2023).docx

人工智能大模型保险行业应用评测报告(2023).docx

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

人工智能大模型

保险行业应用评测报告

EvaluationReportontheApplicationofLarge-scaleArtificialIntelligenceModelsintheInsuranceIndustry

2023年10月

以ChatGPT为代表的AI大模型技术席卷全球,不仅将人工智能推向新的拐点,也让更多人注意到了其底层技术——生成式人工智能(AIGC)。AIGC时代,大模型作为基础设施,将为千行百业赋能,场景广阔,潜力无限。具体到保险行业,AIGC有望在保险产品设计、精算、营销、运营、客服等全链路环节提供深度的技术加持,推动行业提升效能,实现高质量发展的同时,进一步提升普惠金融服务的广度与深度,为中国消费者提供更智能、更便捷、更有温度的保险产品与服务。

AIGC时代,应用为王。为了解当下国内外主流大模型在保险领域应用的成熟度和稳定性,国内领先的保险科技平台——元保,联合国内保险科技研究机构——分子实验室,共同发布《人工智能大模型保险行业应用评测报告》。报告特邀国内知名高校专家学者、中国大地财产保险股份有限公司、众惠财产相互保险社等共同调研并撰写完成。

《报告》通过保险、法律、医疗等相关领域常规知识问题,测试大模型的基础能力,同时针对部分主要典型的应用能力设计了保险业务场景设定及问题,以测试大模型的实际应用能力。区别于以底层专业性能指标为评测维度的大模型评测报告,

《报告》以应用场景的视角和维度进行测评,向保险行业呈现更为实用和直观的信息,更具现实层面的指导意义。

本报告评测结果经专家组进行谨慎的综合论证形成,但考虑到大模型迭代速度日新月异,评测结果仅代表测试期间所呈现的效果。报告在分析结论上难免存在一定的局限性和偏差,欢迎各届批评指正。

评测框架

业务场景应用能力基础能力保险垂直领域大模型评测从常用的保险业务场景中抽离三大主要应用能力,细分为十大能力测试维度,71个评测任务。通过不同任务上大模型的性能表现,挖掘其基础能力的优势和特点。

业务场景

应用能力

基础能力

保险领域大模型评测框架

保险领域大模型评测框架

产品设计

产品设计销售营销运营管理客户服务办公辅助

专业知识问答法律知识

专业知识问答

法律知识

保险常识

医疗知识

营销素材设计综合规划配置客服话术推荐营销服务应用

营销素材设计

综合规划配置

客服话术推荐

营销话术优化

营销话术优化

合规风控应用智能理赔

合规风控应用

智能理赔

智能核保

实时质检

多模态

交互性

应用性

安全性

准确性

文生图片

文生图片

多轮对话

语言生成

语言生成

违规识别

准确率

准确率

图像识别

图像识别

上文关联

语言理解

语言理解

有害识别

稳定性

稳定性

语音识别

语音识别

用语规范

逻辑推理

逻辑推理

隐私处理

召回率

召回率

语音生成

语音生成

接口服务

摘要总结

摘要总结

诱导防护

覆盖率

覆盖率

·

···

···

·

···

···

·

···

评分说明

大模型名称公司名称5分:答案较为完美,内容可在实际场景中直接使用4分

大模型名称

公司名称

5分:答案较为完美,内容可在实际场景中直接使用

4分:基本可用,可在实际场景中使用

3分:调整可用,但需人工进行调整后方可使用

2分:大略可用,需要较多人工调整方可使用

1分:不可用,答非所问、语言不通

*本报告实测模型包括但不限于上述通用大模型,此处只列举部分效果优异的模型版本信息。排名不分先后

百度

百度

阿里巴巴

智谱华章

奇虎360

科大讯飞

OpenAI

OpenAI

Anthropic

Anthropic

昆仑万维

应通义干问

应通义干问

GPT-3.5

GPT-4.0

Claude1

Claude2

应用能力评测:保险专业知识问答

知识问答主要评测大模型的交互性、准确性等基础能力。国内外头部大模型在基础知识问答能力上的表现整体较好,国内头部大模型基于中文语境优势,能力指数已实现超越

保险常识问答能力指数法律知识问答能力指数

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档