利用机器学习检测保险欺诈行为_品牌

健康保险欺诈行为表现和防范研究检测论文.doc文档全文免费阅读在...

吴磊　孙勇

摘要：随着互联网信息爆炸时代来临，保险金融行业必将面临异常严峻的欺诈风险，及时发现，及时识别欺诈是行业，单纯依靠人工判断已经满足不了需求，单纯依靠机器判断，也做不到完全的自动化。因此人工结合机器是一条可以选择的路径。

关键词：保险欺诈，有监督机器学习，无监督机器学习，分类，聚类，回归，信息检测，规则引擎

前言

保险诈骗是指以非法获取保险金为目的，违反保险法规，采用虚构保险标的、保险事故或者制造保险事故等方法，向保险公司骗取保险金，数额较大的行为。保险诈骗种类是繁多的，形式是多样的，手段是隐蔽的。在实践中行为人为骗取保险金而故意制造保险事故，虚构事实，隐瞒真相，制造假案，甚至引发其他刑事犯罪。保险欺诈表现形式多式多样。在投保环节、理赔环节保险公司目前的信息检测手段主要是使用规则引擎+人工核保来检测欺诈行为，面对日益增长的保单数量和欺诈人多变的技术手段，保险公司正面临着严峻的挑战。本文主要利用有监督机器学习和无监督机器学习检测保险欺诈行为，并且探讨了业内模型共享平台的设计，涉及到大数据技术和人工智能技术。

1. 保险欺诈

1. 1. 保险欺诈分类

1.1.1 投保环节

1. 1. 1. 1. 重复投保欺诈

重复投保，一险多赔。按我国法律规定，财产保险的重复保险累计保险总额不得超过保险价值，即使超过，对于超过部分不得也不应给予赔偿。然而有的不法分子为了多得保险金，往往故意向多个保险人投保，并隐瞒重复保险的情况，在出险后向多个保险人索赔，以期获得多份赔偿。

1. 1. 1. 2. 隐情投保欺诈

主要表现为人身保险，被保险人已患有严重疾病或财产保险标的处于危险之中而去投保。

1. 1. 1. 3. 高额投保欺诈

投保人并无保费交费能力，而强求投保高风险保障，受益人为自己，这存在严重的道德危险。

1.1.2 理赔环节

1. 1. 2. 1. 低损高赔

夸大损失，低险高赔。出险损失本来很小，被保险人却故意夸大其程度，如虚列损失项目，夸大损失数额或伪造、涂改原始费用凭证等方式虚报损失。又如将损失由小改大，事故时间由前改后，8号肇事，10号投保，索赔时间改为18号，肇事机车本来是开回来的，硬开一张拖车施救费发票数千元要求索赔。夸大损失另一种做法是消极地放任事故的发生，故意不采取积极的防范措施或补救措施，这也是一种欺诈行为，违反保险法第42条的规定，即保险事故发生后，被保险人有责任尽力采取必要的措施，防止或者减少损失。

1. 1. 2. 2. 更改标的

张冠李戴式骗赔。主要采取移花接木，冒名顶替方式。保险标的应该是唯一的、特定的，实践中有的欺诈者为了骗取保险赔偿金，常用类似物体或案件予以顶替，如将一投保汽车的车牌摘下挂在未投保的出险汽车上，冒名顶替；在医疗保险中，有的医院因患者付不起医药费而与患者串通，写已保险的他人姓名；在财产保险中，甲房屋着火未保险，报案时说是已保险的乙房。

1. 2. 保險欺诈检测

1.2.1 投保环节检测

1. 2. 1. 1. 基于规则引擎检测

一般而言设置一套规则树，用于业务在过往的数据中已经发现的欺诈行为，综合进行评定。当该投保行为在规则集中运行完成，输出每项的欺诈评分数，最后进行加权平均得到最后的评分。分数达到某个临界值之后，可以采取拒绝承保或者提高保费等手段来进行风险对冲。

X=8.89，属于高风险用户。此方法的弊端很明显：首先，规则数量可能会很大，随着欺诈行为识别次数的规模以及更新方式的迭代快速的特点，规则引擎本身不会根据数据分析观察，只能全部依靠人工来进行分析并且添加规则来识别新的欺诈行为；因此这种工作量将会非常庞大并且效率不高，需要引入机器学习新技术来帮助人工进行检测。

2. 机器学习识别保险欺诈

机器学习主要分为有监督机器学习和无监督机器学习，有监督机器学习通过现有的已经标记为欺诈的数据，训练为模型，用来检测已经发现的欺诈模式；无监督机器学习主要用来发现新的没有出现过的欺诈模式；两者结合使用，最大程度的检测出来保险欺诈行为。

2. 1. 机器学习

C：＼Users＼huawei＼AppData＼Local＼Youdao＼YNote＼markdown＼index.html - 2-1-1概述2. 1. 1.概述

C：＼Users＼huawei＼AppData＼Local＼Youdao＼YNote＼markdown＼index.html - 线性模型和深度学习网络结合线性模型和深度学习网络结合

采用tensorflow的DNNLinearCombinedClassifier的API构建广度深度模型，将WIDE_COLUMN，DEEP_COLUMN作为数据特征组合数据原始column如下所示：

特征字段FEATRURE_COLUMN：字段组装分为三类，离散数据（分类），NUMBER非离散数据（连续）。

使用tensorflow给出的接口，进行深度学习，训练出一个欺诈模型。相比较传统的统计建模使用规则引擎，深度网络的模型可以得到较好的鲁棒性，可以学到更加复杂，更加抽象的数据表征。通过一个三分类的任务，来判断白案件，黑案件和灰案件。其中白案件比例、黑案件、灰案件的比例为1：1：1。因为白案件占比例在90以上，为了平衡神经网络计算，因此设定此比例来保证不会过拟合。测试集同样也遵循这个比例。

epoch=10 batch_size=100 分批次训练模型

使用线性模型结合深度网络，相比较传统的统计建模得到的规则，最终准确度提高了20%～35%，达到了80%左右。而且避免了传统机器学习的弱点，没有需要决策树存在的鲁棒性不好的缺点，具有较好的泛化能力。在实际生产环节中起到真正的控制风险，指导和启发业务的作用。

3. 模型共享

3. 1. 模型共享的意义

出于商业同业竞争的角度，保险公司的基础数据如保单数据、理赔数据等核心数据当然不愿意拿出来共享的，但是处于某一种共同行业利益的考虑，由一个中间层次来获取这些数据并加以共享，杜绝某一个方面的风险，显然对于保险公司乐意拿出数据。由一个具备安全性，公正性，权威性的机构组织此类系统的开发和维护，成本由各个保险公司按照调用次数收取费用以维持平台运转。在车险领域为了杜绝重复投保和识别出险次数发现，已经在保险行业协会搭建了数据共享平台，此平台由于保险数据属于公司商业数据，不可能保险数据种类繁多虽然数据不能共享，但是是欺诈模型；

3. 2. 模型共享的技术手段

使用一套标准，一套接口，在监管单位和行业协会的推动之下搭建一整套的数据流转和接口。车险就已经在此模式之下实现了车险理赔信息共享平台，全国分散部署。是一个事实上的分布式数据库查询平台。在车险重复投保和查询理赔次数、理赔金额等，基本上杜绝了车主在A公司有理赔记录，下年费率上浮的情况，去B公司投保可以费率不上浮的情况。对于保险业的整体健康运营是非常有好处。

4. 后记

本文着重阐述了保险业在信息化大数据浪潮的背景之下，应用大数据的技术手段，解决保险业界存在的问题。也只有在此背景之下，保险业才能享受到大数据技术所带来的便利性。通过部署和使用大数据技术，保险业应该可以更加准确的识别欺诈风险，采取及时的应对手段。保险业界一直以来存在的数据不共享，但是模型可以共享。也必将更加丰富模型数据，也为后面的保险规模扩大化，拒绝恶意投保带来技术手段。

5. 引用