×

太保 认知 实践 案例 智能

案例 | 认知智能技术在太保集团的应用实践

jnlyseo998998 jnlyseo998998 发表于2023-03-16 17:20:03 浏览28 评论0

抢沙发发表评论

机器智能体现在感知与认知两个层面。在感知层面,借助语音识别、图像识别等人工智能技术,将物理世界的信号通过摄像头、麦克风或者其他传感器的硬件设备,映射到数字世界,是人工智能的初级形态。近些年,感知智能技术广泛地应用到了保险领域的各个业务场景中,取得了突出的成果。例如,通过生物识别技术对保险出单过程中的双录视频进行质检,节省人力;通过物体识别技术对事故车辆进行定损,提升查勘人员的工作效率;通过OCR技术识别医疗票据,降低理赔录入的营运成本等。

在认知层面,机器通过模仿人类的记忆、思考和思维的能力,认识客观世界,是人工智能的高级形态。具体而言,认知智能包括对垂直领域知识的记忆能力,对事物进行归纳、演绎和溯因的思考能力,以及自身所具备的类人的学习、规划与泛化的思维能力。当前,认知智能技术尚未成熟,在保险领域的应用处于初级阶段。接下来结合太保集团的应用实践,从记忆、思考与思维三个认知层面,探讨认知智能技术在保险领域的应用场景与挑战。

太平洋保险集团数智研究院人工智能首席专家 徐国强

机器在记忆层面具备

存储与提取知识的能力

保险行业属于知识密集型行业,涉及产品、医学、风险、投资等多个知识源。认知智能技术可以将保险行业涉及的复杂知识进行存储与提取,进而辅助业务专家进行高质量的决策。机器在知识记忆层面的能力表现,对健康险核保核赔、非车险的风险评估以及投资决策等场景的智能化水平提升有重要的意义。

目前,机器对知识的记忆主要以知识图谱的形式来表示概念、实体及其相互关系。知识图谱的构建流程包括三个环节:本体构建、知识抽取和知识融合。保险领域知识治理主要存在以下痛点:一是业务的复杂性,要求实现多领域知识的一体化应用。例如健康险的核赔理算环节,既需要医学知识,又需要保险产品知识(免责与特约),不同知识体系之间的差异给多知识源融合带来挑战。二是业务知识以隐性的个体经验的形式存在,没有进行系统化总结与治理,形成显性的标准化知识。

2022年,太保集团在健康、投资和保险产品等知识密集型场景开展了知识治理工作,全年知识检索量达到8400余万次。以健康知识治理为例,保险医学知识库对保险、医保、医学等多知识源进行融合,形成了包含诊疗、药品和耗材3种实体类型,合计约20多万个实体,具有保险标签、上下位层级、医学知识等多领域知识属性,包含22万条三元组的融合知识图谱。知识源涉及责任条款库、免赔条款库等保险知识,服务设施与医疗耗材目录、药品目录、诊疗目录等医保知识,医学教科书、电子病历、临床指南等医学知识。依托保险医学知识库,构建了科学、完善的智能理赔系统,实现免赔项目智能提示、三目录自动理算、不合理用药智能提示等,大幅提升理赔效率、减少理赔风险。通过自动理算理赔,每个案件作业效率由之前的10~15分钟,提升至目前的2~3分钟。

展开全文

机器在思考层面具备

归纳、演绎与溯因的推理能力

人类的认知能力除了表现为对知识的记忆与理解外,还表现在基于知识的推理过程,即思考能力上。人类常用的推理思考模式有三种:归纳推理、演绎推理和溯因推理。归纳推理是从个别、特殊的事物总结、概括出一般性的原理或原则;演绎推理是从一般性的前提出发,通过推导,得出具体结论的过程;溯因推理是从观察或结论出发,生成假设,推导出最合适的解释的推理过程。绝大部分的深度学习任务解决的都是归纳推理问题,即从大量个体中,总结出一般规律,建立模型。但在演绎推理和溯因推理能力上,目前的认知智能技术还处于初级阶段。

1.机器的演绎推理,目前主要通过专家系统来实现。专家系统一般由经验库和推理机两部分构成。在经验库的建设上,通过收集既定领域的数据,对数据源中的事件和相应变量进行知识挖掘,再由领域专家和知识工程师一起撰写知识等式,完成对特定领域进行知识和数据建模,确定概念、算子、知识、常量、变量等关键因素,从而形成专家经验库。进一步针对当前问题的条件或已知信息,匹配知识库中的规则,获得新的结论,以得到问题求解结果,从而构建可解释的推理机。近些年,大规模知识预训练和思维链(CoT)等技术的出现,也让机器的演绎推理研究有了新的技术路线。

机器的演绎推理能力对保险场景中涉及专业决策的业务的智能化水平提升有重要意义。以投资领域为例,当前主流的投资想法生成是依靠研究员和投资经理人工的研究,从各个渠道获取大量信息,根据自己的研究框架进行分析,得出结论。这种研究方式有两个弊端:一是有限的认知宽度,投资专家的知识面有限,难以掌握公司内外部全部经济和财务信息;二是有限的认知深度,投资专家的推理能力有限,难以深入挖掘全部投资依据,形成完整逻辑链。

2022年,太保集团建设了投资专家系统,并在采掘领域试点,探索机器的演绎推理能力在辅助投资经理决策上的应用。投资专家系统对投资标的做出分析,给出带有解释的决策和判断,并将结论纳入到已有的研究体系中,作为投资决策参考(如图所示)。目前,已建设的经验库包含公司外宏观经济知识等式133个、公司内财务运营知识等式134个、重大投资事件32种,推理机在风险事件的准确率达到71%。

图 基于逻辑理论的知识表示模型

2.机器的溯因推理的核心是可解释性。传统的机器学习建模不具备可解释性,是基于数据标签之间的相关性对结果进行预测。基于相关性而非因果性进行预测的结果并不总是可靠,这种黑盒模型在实践应用中,很容易出现不可信、不稳定、难推广的结果,从而显现出AI应用的瓶颈。目前,机器溯因推理能力的实现,主要依赖于因果学习技术,基于已有数据找到变量之间的因果关系,并且让因果变得可计算,可以进行反事实的预测。

因此,具备溯因推理能力的认知智能技术对保险领域中稳定性要求高的场景有重要意义。例如:因果学习可以对不同保险责任下的保费进行推断,辅助保险产品设计;从客户行为中挖掘风险评估指标和可能产生欺诈的线索,防范欺诈风险;帮助更好地理解投资决策的影响因素,控制风险和收益,辅助投资管理决策;了解客户偏好,分析客户价值,挖掘潜在客户等。

2022年,太保集团建设了可解释医疗票据录入系统,探索溯因推理能力在健康险理赔录入场景中的应用。传统模型训练方式下,模型主要基于训练数据中的相关性进行预测,对版面位置及上下文信息有很强的过拟合,同时对于特殊版式,模型会出现预测错误。在太保集团的实践中,将键值对中的因果关系引入了模型训练任务中,提升了模型鲁棒性和泛化性,字段准确率从78.1%提升至80.1%。此外,使用不确定性学习相关技术校准字段置信度,反映识别准确率情况,期望校准误差ECE相比原始置信度从4.52%降低至2.47%,通过阈值过滤后,79.7%的字段准确率达98.6%。综合这些技术,太保集团研发的无模板医疗票据OCR模型,现已覆盖门诊、住院、纸质、电子等各类医疗发票、费用清单、医保结算单、出院小结、住院病案首页,支持医疗票据中72个字段的识别,11个主要地区的平均字段准确率达到80.7%,提升了50%~70%的录入作业效率。

机器在思维层面具备

学习与规划的能力人类的认知能力

人类的认知能力除了表现在思考层面对具体事物的探索性推理活动,还表现在更深层次的思维层面对思考产物的抽象概括,例如学习能力和规划能力等。学习能力,是独立通过理解、分析等方法,结合少量示例,实现快速与自主学习,达到目标。学习能力的核心是机器胜任通用的指令与任务,而不是只能解决一个特定的问题。规划能力,是基于整体性、长期性、基本性问题的思考和考量,设计整套行动的方案。目前,思维层面的认知智能技术还处于初级阶段。

1.机器的学习能力体现在处理未见过的任务时,能够结合以往经验,快速地举一反三,从而胜任新任务。2021年提示学习技术的出现,将任务指令与提示文本进行关联,解决了任务空间到自然语言空间的映射,为跨任务的迁移泛化提供了基础。2022年指示学习技术的出现,使大预训练模型具备多类任务的理解能力,实现了跨任务的小样本和零样本学习。近期,ChatGPT模型通过人工反馈的强化学习技术,解决了大任务场景中主观性影响效果评估的问题,让机器的学习能力进一步提升。

在保险业务场景中,智能化需求具有长尾的特点,用一套具备快速学习能力的模型,一揽子解决运营环节的长尾任务有重要意义,这些场景包括数字化运营中RPA自动作业、数字化基础能力中的信息抽取、多版式OCR等。太保集团梳理了营销、风控和投资领域的业务需求,基于提示学习/指令学习的大任务预训练模型,沉淀了开放域100余自然语言处理数据集,覆盖了文本分类、意图识别、实体识别、文本相似度、阅读理解等10余类常见的NLP任务,累计超过1300万标注数据。以提示学习/指令学习的方式构建了大规模统一任务数据集,并根据任务特点分别训练了统一大任务预训练模型、统一分类模型、统一实体抽取模型、统一机器阅读理解模型、统一文本相似度模型、统一关键词抽取模型等近10种大任务预训练模型,覆盖保险合同智审、投资风险预警和集团文档检索等多项需求。在业务效益方面,提高了业务50%的办公效率,节约时长8万个小时,节省全年约40人力。

2.机器的规划能力是指基于当前环境自主地进行序列决策完成既定目标。常见任务包括流程自动作业、量化交易等。目前,机器实现规划能力主要通过强化学习技术实现:一方面目标优化的规划算法需要模型信息,比如决策下的动作如何影响状态的变化,这在实际中往往无法预先获取。另一方面复杂场景下,可能的状态和动作空间呈爆炸性增长,规划算法往往面临无法计算的问题。强化学习首先假定目标可以通过一个状态、动作到数值的奖励函数来表达,让智能体与外部环境做交互获取模型信息,通过反复的迭代,让智能体学习到状态到动作的映射使得长期累积奖励期望最大化,从而完成相应的目标。当然,强化学习也面临计算复杂度的问题。在大部分实际问题中通过学习对状态和动作建立一一映射,在现有的计算资源下也是不可能的。因此深度强化学习工作利用神经网络表征能力比较强的特点,通过参数化近似的方法,经过一定量的样本训练可以使映射能很好地泛化到所有可能的状态和动作对。

机器的规划能力对保险业务实现流程作业自动化,辅助解决保险场景中普遍存在的劳动密集型工作有重要意义。典型的自动作业场景可分为两类,对规划能力的要求侧重面也不同。第一类工作的特点是流程长、操作重复且繁琐,例如指标采集、报表生成等,这类工作往往占用了员工大量的日常时间与精力,该场景工作种类繁多,要求规划决策模型可快速适配流程相似的新环境,通过通用原子操作拆分和课程学习等方式实现;第二类工作的特点是具有较高的时效性要求,例如话务同步录入、理赔审核等,该场景人工可干预度低,对于规划决策能力的端到端成功率有着更高的要求,可通过目标策动的强化学习方式辅以异常状态的少样本学习等方式实现。

目前太保审计场景已落地数字员工,实现规划认知能力覆盖。作为集团保险业务中的重要护城河,审计工作需结合许多来源的数据来发现合规风险问题。以检索法院的判决文书为例,该流程最多需要人工准确地填入10多项筛选条件后才能检索到相关文书,相似的任务还有保险许可证查询等。通过决策模型的规划能力,员工只需要输入自然语言形式的目标,模型便可以根据当前页面信息自动地完成筛选条件填入与检索的工作,有效地避免了反复操作和人工操作由于条件填写错误导致的检索错误。审计数字员工的应用,使得集团审计量由原本的每年1.5万份提升至了每年90万份,实现了效率大幅度提升。同时随着类似审计场景这样具备规划认知能力的数字员工在太保集团推广应用,目前一年能够节约200人力。

总 结

随着保险行业的数智化转型进入深水区,业务智能化水平的进一步提升存在很多挑战,主要包含三个层面:保险领域知识密集场景要求机器具备多领域知识的记忆、提取和融合能力;保险业务流程中复杂的决策要求机器具备一定归纳推理、演绎推理和溯因推理思考能力;保险业务长尾性特点要求机器具备自主学习与规划的思维能力,进而能胜任通用任务,而不是只能解决特定的问题。这些挑战对人工智能技术从感知智能到认知智能的突破提出了更高的要求,相信在不远的未来,认知智能技术的发展会对推进保险行业数字化转型起到不可或缺的促进作用。

(栏目编辑:张丽霞)