利用机器学习检测保险欺诈行为

2018年08月25日 02:33来源于:科学与财富

健康保险欺诈行为表现和防范研究 检测论文.doc文档全文免费阅读 在...

吴磊 孙勇

摘 要:随着互联网信息爆炸时代来临,保险金融行业必将面临异常严峻的欺诈风险,及时发现,及时识别欺诈是行业,单纯依靠人工判断已经满足不了需求,单纯依靠机器判断,也做不到完全的自动化。因此人工结合机器是一条可以选择的路径。

关键词:保险欺诈,有监督机器学习,无监督机器学习,分类,聚类,回归,信息检测,规则引擎

前言

保险诈骗是指以非法获取保险金为目的,违反保险法规,采用虚构保险标的、保险事故或者制造保险事故等方法,向保险公司骗取保险金,数额较大的行为。保险诈骗种类是繁多的,形式是多样的,手段是隐蔽的。在实践中行为人为骗取保险金而故意制造保险事故,虚构事实,隐瞒真相,制造假案,甚至引发其他刑事犯罪。保险欺诈表现形式多式多样。在投保环节、理赔环节保险公司目前的信息检测手段主要是使用规则引擎+人工核保来检测欺诈行为,面对日益增长的保单数量和欺诈人多变的技术手段,保险公司正面临着严峻的挑战。本文主要利用有监督机器学习和无监督机器学习检测保险欺诈行为,并且探讨了业内模型共享平台的设计,涉及到大数据技术和人工智能技术。

1. 保险欺诈

1. 1. 保险欺诈分类

1.1.1 投保环节

1. 1. 1. 1. 重复投保欺诈

重复投保,一险多赔。按我国法律规定,财产保险的重复保险累计保险总额不得超过保险价值,即使超过,对于超过部分不得也不应给予赔偿。然而有的不法分子为了多得保险金,往往故意向多个保险人投保,并隐瞒重复保险的情况,在出险后向多个保险人索赔,以期获得多份赔偿。

1. 1. 1. 2. 隐情投保欺诈

主要表现为人身保险,被保险人已患有严重疾病或财产保险标的处于危险之中而去投保。

1. 1. 1. 3. 高额投保欺诈

投保人并无保费交费能力,而强求投保高风险保障,受益人为自己,这存在严重的道德危险。

1.1.2 理赔环节

1. 1. 2. 1. 低损高赔

夸大损失,低险高赔。出险损失本来很小,被保险人却故意夸大其程度,如虚列损失项目,夸大损失数额或伪造、涂改原始费用凭证等方式虚报损失。又如将损失由小改大,事故时间由前改后,8号肇事,10号投保,索赔时间改为18号,肇事机车本来是开回来的,硬开一张拖车施救费发票数千元要求索赔。夸大损失另一种做法是消极地放任事故的发生,故意不采取积极的防范措施或补救措施,这也是一种欺诈行为,违反保险法第42条的规定,即保险事故发生后,被保险人有责任尽力采取必要的措施,防止或者减少损失。

1. 1. 2. 2. 更改标的

张冠李戴式骗赔。主要采取移花接木,冒名顶替方式。保险标的应该是唯一的、特定的,实践中有的欺诈者为了骗取保险赔偿金,常用类似物体或案件予以顶替,如将一投保汽车的车牌摘下挂在未投保的出险汽车上,冒名顶替;在医疗保险中,有的医院因患者付不起医药费而与患者串通,写已保险的他人姓名;在财产保险中,甲房屋着火未保险,报案时说是已保险的乙房。

1. 2. 保險欺诈检测

1.2.1 投保环节检测

1. 2. 1. 1. 基于规则引擎检测

一般而言设置一套规则树,用于业务在过往的数据中已经发现的欺诈行为,综合进行评定。当该投保行为在规则集中运行完成,输出每项的欺诈评分数,最后进行加权平均得到最后的评分。分数达到某个临界值之后,可以采取拒绝承保或者提高保费等手段来进行风险对冲。

X=8.89,属于高风险用户。此方法的弊端很明显:首先,规则数量可能会很大,随着欺诈行为识别次数的规模以及更新方式的迭代快速的特点,规则引擎本身不会根据数据分析观察,只能全部依靠人工来进行分析并且添加规则来识别新的欺诈行为;因此这种工作量将会非常庞大并且效率不高,需要引入机器学习新技术来帮助人工进行检测。

2. 机器学习识别保险欺诈

机器学习主要分为有监督机器学习和无监督机器学习,有监督机器学习通过现有的已经标记为欺诈的数据,训练为模型,用来检测已经发现的欺诈模式;无监督机器学习主要用来发现新的没有出现过的欺诈模式;两者结合使用,最大程度的检测出来保险欺诈行为。

2. 1. 机器学习

C:\Users\huawei\AppData\Local\Youdao\YNote\markdown\index.html - 2-1-1概述2. 1. 1.概述

C:\Users\huawei\AppData\Local\Youdao\YNote\markdown\index.html - 线性模型和深度学习网络结合线性模型和深度学习网络结合

采用tensorflow的DNNLinearCombinedClassifier的API构建广度深度模型,将WIDE_COLUMN,DEEP_COLUMN作为数据特征组合 数据原始column如下所示:

特征字段FEATRURE_COLUMN: 字段组装分为三类,离散数据(分类),NUMBER非离散数据(连续)。

使用tensorflow给出的接口,进行深度学习,训练出一个欺诈模型。相比较传统的统计建模使用规则引擎,深度网络的模型可以得到较好的鲁棒性,可以学到更加复杂,更加抽象的数据表征。通过一个三分类的任务,来判断白案件,黑案件和灰案件。其中白案件比例、黑案件、灰案件的比例为1:1:1。因为白案件占比例在90以上,为了平衡神经网络计算,因此设定此比例来保证不会过拟合。测试集同样也遵循这个比例。

epoch=10 batch_size=100 分批次训练模型

使用线性模型结合深度网络,相比较传统的统计建模得到的规则,最终准确度提高了20%~35%,达到了80%左右。而且避免了传统机器学习的弱点,没有需要决策树存在的鲁棒性不好的缺点,具有较好的泛化能力。在实际生产环节中起到真正的控制风险,指导和启发业务的作用。

3. 模型共享

3. 1. 模型共享的意义

出于商业同业竞争的角度,保险公司的基础数据如保单数据、理赔数据等核心数据当然不愿意拿出来共享的,但是处于某一种共同行业利益的考虑,由一个中间层次来获取这些数据并加以共享,杜绝某一个方面的风险,显然对于保险公司乐意拿出数据。由一个具备安全性,公正性,权威性的机构组织此类系统的开发和维护,成本由各个保险公司按照调用次数收取费用以维持平台运转。在车险领域为了杜绝重复投保和识别出险次数发现,已经在保险行业协会搭建了数据共享平台,此平台由于保险数据属于公司商业数据,不可能保险数据种类繁多虽然数据不能共享,但是是欺诈模型;

3. 2. 模型共享的技术手段

使用一套标准,一套接口,在监管单位和行业协会的推动之下搭建一整套的数据流转和接口。车险就已经在此模式之下实现了车险理赔信息共享平台,全国分散部署。是一个事实上的分布式数据库查询平台。在车险重复投保和查询理赔次数、理赔金额等,基本上杜绝了车主在A公司有理赔记录,下年费率上浮的情况,去B公司投保可以费率不上浮的情况。对于保险业的整体健康运营是非常有好处。

4. 后记

本文着重阐述了保险业在信息化大数据浪潮的背景之下,应用大数据的技术手段,解决保险业界存在的问题。也只有在此背景之下,保险业才能享受到大数据技术所带来的便利性。通过部署和使用大数据技术,保险业应该可以更加准确的识别欺诈风险,采取及时的应对手段。保险业界一直以来存在的数据不共享,但是模型可以共享。也必将更加丰富模型数据,也为后面的保险规模扩大化,拒绝恶意投保带来技术手段。

5. 引用

 
免责声明:

     本文仅代表作者/企业观点,与【名品家电网】无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,仅供读者参考,并自行核实相关内容。

     【名品家电网】刊载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

      如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行;新闻纠错: lwl#youngchina.cn

关键词: 数据 文章 模型