老中医治疗白癜风 http://news.39.net/bjzkhbzy/180503/6210195.html点击上方“中国保险学会”可以订阅!
本文字数:字
阅读时间:10分钟
本文作者:周晓楠,中国太平洋人寿保险股份有限公司副总经理,合规负责人,首席风险官;黄磊,中国太平洋人寿保险股份有限公司法律合规部总经理;王飞跃,中国太平洋人寿保险股份有限公司法律合规部合规监测经理;储明,中国太平洋人寿保险股份有限公司法律合规部资深经理;黄涛,中国太平洋人寿保险股份有限公司法律合规部资深经理。
文章来源:《保险研究》年第9期
一、重大疾病保险反欺诈现状
重大疾病保险(以下简称重疾险)是指发生保险合同约定的重大疾病时,为被保险人提供保障的保险。随着我国居民保险意识的不断增强,重疾险已成为居民选择的热门保险产品,但与重疾险相关的保险欺诈案件和金额也呈现逐年上升的趋势,保险欺诈已成为影响重疾险发展的主要挑战之一。
中国银保监会在年2月下发了《反保险欺诈指引》,明确了保险欺诈是指假借保险名义或利用保险合同谋取非法利益的行为,主要包括保险金诈骗类欺诈行为等。由于重疾险以保险合同约定的疾病作为赔付依据,包括投保前未如实告知身体健康状况、伪造病历材料、冒名顶替等类型。无论从保险公司内部还是从公开披露的大案要案显示,重疾险相关的保险欺诈案件均呈现专业化、团伙化势,投保人与医生勾结、客户与业务员勾结等案件层出不穷。
随着核保及核赔风险控制手段的不断完善,保险公司能够较为有效地识别以个案为主的保险欺诈案件,但对于团伙性欺诈的识别仍无能为力。一些新型反欺诈的识别方法研究正在展开。董敏等()探讨了保险欺诈的界定和私法效果出发,认为应当在立法上明确界定保险欺诈,借助司法判例大数据实现反保险欺诈。王飞跃等()在赔案数据较少的情况下,运用探索性数据分析方法有效地对人身保险领域欺诈案件进行识别。李聪()对多家保险公司疑似欺诈案件特征进行梳理并进行实证分析,验证了神经网络模型方法可以较准确地识别欺诈案件。
总体来看,目前国内外与重疾险反保险欺诈的研究和案例均很少。本文将介绍运用图数据库识别团伙性质的重疾险相关保险欺诈的方法,并结合实证分析结果,提出应用建议,希望填补行业内该领域研究的缺口。
二、图数据库方法简介
(一)图数据库理论介绍
在高速发展的大数据时代下,传统的数据库已经难以满足日益增长的数据及业务变更需求,而Neo4j图数据库具备很强的业务适应能力和高效查询能力。在Neo4j图数据库的数据概念中,数据本质其实是数据间的关联,Neo4j图数据库是以图的结构形式来存储数据的,这种结构运用节点表示实体,运用边表示关系,能够有效表达并储存数据之间的关联。此外,Neo4j图数据库还具备如查询功能的高性能表现、直观形象的图数据结构、非结构化的数据存储方式、快速的读取速度等优势。
(二)图数据库反欺诈应用技术介绍
构建图数据库首先将需要的数据抽出存入对应的图数据库中。数据分成两种:关系型数据库存储的结构化数据与非结构化数据。基于数据中节点和关系的设定,如亲属关系、投保人与被保人、业务员与客户等,建立知识图谱,构成基本的图数据库。从图数据库的网络中,一些通过传统关系数据库很难识别的异常可以被直观地展现出来。例如:购买同一保险公司相同产品的两位个人客户,无亲属关系,联系电话相同但地址不同。由于图数据库技术能够将相关数据的关系图谱可视化,因此能够很直观地发现可疑点。此外,图数据库可以通过标记一些黑产节点,并基于这些种子节点开始扩散建立网络图,再利用社区划分算法识别里面的组团,那些能形成团伙的社区的组团则被认为是高风险组团。
三、图数据库在重大疾病保险
反欺诈中的实证分析
作者以某大型寿险公司年至年的赔付信息作为基础,并抽取了相应的保单信息、客户信息、保全信息和业务员信息等信息分别形成数据表,再以赔案号作为主键建立各数据表之间的关联。本次实证分析使用的软件包括NavicatforMySQL、MySQL,并使用版本号为1.2.7的Neo4jDesktop创建了Neo4j3.5.12的图数据库。图3、4、6、7等的作图使用了Neo4j中的Bloom功能。
(一)图数据库构建过程
首先,基于公司存储的关系型数据内容,从赔案信息、保单信息和客户信息等围绕保单和赔付产生的记录中,选取信息量丰富的、能构建出有助于识别个体间关系的节点类别。
图1:图数据库构建设计图
之后,为节点添加“黑名单”标签,在图数据中称为“属性”。对于赔案保单而言,只要赔案号在已查实的欺诈形成的黑名单中出现,则获得“黑名单”标签。对于身份证号节点,若该身份证号出现在黑名单赔案中,且该身份证号所涉及的赔案为欺诈的比例大于等于0.5,则将该身份证号节点添加黑名单标签;同时将该客户(当客户为被保险人时)的工作地址或(当客户为报案人时的)报案人地址添加黑名单标签,对该客户使用的手机号添加黑名单标签,对其银行账号添加黑名单标签。对于业务员工号节点,当业务员负责的赔案数量中欺诈占比大于等于0.5时,将该业务员工号节点添加黑名单属性。
最后,为11种节点和22种关系生成csv文件,导入Neo4j形成图数据库。生成的图数据库共包含.17万个节点和.91万条关系。
(二)特征构建和规则发现
1.特征构建
基于业务场景构建特征,以“赔案保单”节点构建特征统计量、计算其数值,并使用逻辑回归(LogisticsRegression)和梯度提升决策树(GradientBoostingDecisionTree,GBDT)判断该节点的欺诈类别。逻辑回归属于广义的线性模型,是经典二分类算法,具有易于实现、解释性好以及容扩展的特点。GBDT是一种迭代的决策树算法,是通过采用加法模型和向前分步算法实现学习优化,不断减小训练过程产生的残差来达到回归的效果。与逻辑回归相比,GBDT可以处理非线性数据,预测精度较高,但是计算复杂度也相对更高。本文将使用以上两种机器学习方法分别对内部和外部的欺诈概率进行预测,并比较两者的预测准确程度。
在图数据的计算过程中,有多种中心性可以用于度量一个节点在组织中的重要程度。根据“赔案保单”节点之间因其他种类节点产生二度关联的特点(包括客户身份证号、手机号码、地址、业务员工号、银行账号),本次实证分析选用了以下几种中心性描述各赔案保单节点在同年同地的赔案群中的重要程度:
●度中心性(DegreeCentrality):与某一节点产生直接关联的节点个数,表示节点的关系的广度;
●中介中心性(BetweennessCentrality):某一节点出现在其它节点之间的最短路径的个数,表示该节点对其它节点信息传播的控制能力;
●接近中心性(ClosenessCentrality):某一节点到其它节点的最短路径之和,表示节点与其它节点之间的接近程度;
●特征向量中心性(EigenvectorCentrality):某一节点因其关联节点的个数和重要性形成的中心性,表示节点在关系网中的重要性。
对于逻辑回归模型的预测结果,其预测外部、内部欺诈的受试者工作特征曲线(ReceiverOperatingCharacteristicCurve,ROC),如图2可见,识别外部欺诈的拟合结果较差,pseudoR-square为0.,无法形成有效预测;而识别内部欺诈的结果相对好,pseudoR-square达到了0.。
对于GBDT模型,其预测时使用的自变量共有13个;对外部欺诈的识别中树的个数为30,对内部欺诈的识别中树的个数为20。GBDT模型预测外部、内部欺诈的ROC情况如上图2:对于外部欺诈,训练集的AUC为0.、测试集的AUC为0.;对于内部欺诈,训练集的AUC为0.、测试集的AUC可达到0.。
从内部欺诈的预测结果(如表1)可以看出,一个赔案是内部欺诈案件的特征主要包括:
●到所有节点的距离越小
●关联节点个数越多
●业务员负责的赔案保单个数越多
●所处社区越大以及在群体中的位置更重要
此外,逻辑回归模型和GBDT模型都呈现出对内部欺诈的预测优于对外部欺诈的预测,原因在于外部欺诈是客户自主实施的行为,总体上具有随机性,因此较少出现共用信息等形成组团的情况;而内部欺诈是由保险公司内部人员与客户勾结实施,在作案时更容易出现多次使用同一信息的情况,或者由于工作人员能接触到的保单范围有限,内部欺诈的案件之间更容易出现关联,因此通过图数据分析更容易发现内部欺诈的关联关系。
在图数据特征之外结合了传统的业务数据特征构成的逻辑回归和GBDT模型可以侧面加强这一结论。表2比较了基于图数据特征和业务数据特征训练的逻辑回归和GBDT对内部、外部欺诈的预测能力,以及仅包含图数据特征数据训练的两种模型方法对内部、外部欺诈的预测能力。加入了业务数据特征的逻辑回归模型能更好解释外部欺诈(R-square和AUC都有显著提升);但对于内部欺诈的预测,图数据提供的信息已经能达到较好预测效果。
2.规则发现
通过分析图数据库中与欺诈赔案相关节点的连接方式,借助这些筛选规则在图数据库中实施检索,并与业务逻辑进行比对,识别异常节点或关系。以下介绍两个实证案例。
实证案例一,从保险欺诈案件中识别规则。在对内部欺诈关联性的探索过程中发现两个现象:首先,内部欺诈节点常常以业务员和业务员的上级为中心产生聚集(如图3),此现象有助于通过形态识别欺诈的中心以及欺诈的分类。其次,由同一名(或同几名)涉案人员实施的一组内部欺诈沿业务员推荐链聚集(如图4中两例)。
与此同时,若一名推荐人为“常推荐人”(推荐人数大于等于3时),其推荐业务员数平均为5.75人,被其推荐业务员中平均有0.人被识别为高风险节点(后文简称为“被标黑”),占比0.61%;其中工号已经被标黑的常推荐人,推荐人数平均为4.2人,被其推荐的业务员平均有0.人被标黑,概率为5.4%,是普通推荐人的8.5倍;若该常推荐人的作为客户时身份证号被标黑,该业务员推荐的业务员平均有9.46%的概率会被标黑,为普通推荐人的15.5倍。由此不难发现,当业务员作为客户涉及欺诈赔案时,该业务员的被推荐人更容易被标黑。
上述结果体现了如下结论:与欺诈相关的推荐人更容易引发被推荐的业务员与欺诈赔案相关。而外部欺诈是相对随机的,当欺诈的产生和发展与内部人员相关时,形成的是内部欺诈。结合业务员身份证信息、姓名,辅助以手机号码,可定位不同业务员工号是同一个体(如图4右侧图中编号为1、2的两业务员节点)。考虑到业务员更换部门多次作案的可能性,进一步统计该业务员任职的部门个数和所负责保单的赔付情况后会发现,当业务员所负责的保单超过平均水平时(此处为5个),曾就职于多个部门的业务员负责的保单和赔案出现欺诈的概率(6.4%)远远高于平均水平(0.58%)。
实证案例二,从业务逻辑中分析规则。将“医院”和“疾病”作为共用信息的查询中发现:某一部门客户,在患病后可能由于地理因素或医院有所偏好;但如果该部门患某一种医院的偏好相对更高,但该部门的全医院,与此同时整个地区患该种疾病的医院治疗,则存在较高内部欺诈风险。
该风医院的串通关系、员工伪造病例后多次申请赔付等。根据该规则检索并做条件概率计算,某业务部(A)中11位因软组织损伤(C)出险的某城市客户中,有6医院(B)就诊,占比54.5%(案例的关键信息如图6);且该业务部门只有2.1%医院就诊,表明医院没有明显偏好,医院医院;与此同时,全部患同种疾病的医院就诊的仅有4.0%,表明客户整体医院有所偏好。因此,该关联可能隐含风险。
(三)对筛选结果的有效性验证
为验证筛选结果,按图数据库计算得到的特征和规则筛选出件赔案并验证核查。根据复查的反馈结果,其中共有件为欺诈案件,占比17.06%,初步统计共涉及金额万余元。下图(图7)展示了其中一例。该例通过编造索赔资料实施的欺诈,于年受理并支付保险金4万元人民币,时隔五年重新开展对此案的挽损工作。
四、重大疾病保险
反欺诈的应用建议
从前文的分析结果可以看出,基于关系型数据库的风险识别方法与图数据库识别方法的相互结合,能够为保险公司的反欺诈能力带来明显提升。建议如下:
严格把控数据质量。保险公司应进一步规范投保及承保环节的投保信息收集、整理与审核,在投保单设计时便提前做好相关的信息关联,提升数据收集整理效率。
建立数据共享机制。保险公司应构建统一的数据平台,将分散在各个系统和部门的数据和信息进行整合和治理,形成统一标准的数据信息,有效支持图数据库技术的落地应用。
业务流程中的应用建议。第一,在报案后、赔付之前,将产生的新信息录入图数据库,按从历史业务中总结出的查询规则和特征量预测欺诈风险,如果风险概率较高,仔细核实后再赔付;第二,在固定的出险流程后,应定期批量导入新增的数据,统一查询、发现风险。第二种方法看似是“亡羊补牢”,但“未为迟也”。借助图数据库这一优势,查询速度得到了提升,发现异常的时间成本会大大降低,避免在复查过程中“大海捞针”,实现更及时、经济的挽损。
编辑:于小涵
中国保险学会
构建保险大社区
预览时标签不可点收录于话题#个上一篇下一篇