De verzekeringsbranche beschikt over grote hoeveelheden data. Eva van Viegen, Datascientist bij FRISS, maakt hiermee analyses waarvan de uitkomst helpt om een beter beeld te krijgen van fraude, risico’s en waarde van portfolio’s. Hoe betrouwbaar is al die informatie en hoe kunnen we die (nog) beter maken?
Data verschillen
Als datascientist krijg je doorgaans te maken met grote hoeveelheden informatie. Bij FRISS betreft het data aangeleverd door de klant, data vanuit externe bronnen en uiteraard ook interne data. In het geval van verzekeraars helpt alle opgebouwde data als het gaat om verzekerden, bezittingen, claims en fraude bij het doen van onderbouwde uitspraken over risico’s, trends en de waarde van polissen en portefeuilles. In mijn dromen zou de ideale wereld perfect te vatten zijn in cijfers en datavelden. Maar hoe betrouwbaar zijn al die gegevens? Tussen die droom en de werkelijkheid liggen behoorlijke valkuilen: zowel in de systemen als bij ons mensen. Verschillen in cultuur, nauwkeurigheid en consistentie maken de inhoud van administratieve systemen lastig met elkaar vergelijkbaar en ook de menselijke factor kan zowel een positieve als negatieve invloed hebben.
Er is genoeg ruimte en kans voor verbetering. Hieronder maak ik een top 3 van valkuilen, beschrijf vervolgens mijn ideale wereld en leg 3 stappen uit die kunnen helpen om daar dichterbij te komen.
Valkuilen
1. Het gebrek aan internationale uniformiteit in hoe we gegevens vastleggen
Een voertuig in Nederland identificeren we met het kenteken, in België gebeurt dat met het chassisnummer. Verzekeraars in beide landen registeren dus andere data en daarmee is het lastig om vast te stellen of bepaalde data betrekking heeft op één en hetzelfde voertuig. Ook adressen, geboortedata en familienamen zijn internationaal een continue bron van potentiële verwarring en misverstanden.
2. Het anders gaan gebruiken van registratiesystemen
Het kan zijn dat in de loop der jaren besloten is om bepaalde informatie specifieker bij te houden: misschien werd eerst alleen een categorie ‘diefstal’ geregistreerd en is daar later autodiefstal aan toegevoegd. Of het veld ‘productnummer’ is gebruikt voor het noteren van kentekens. Vaak is er binnen de organisatie nog wel kennis over wat er is aangepast en waarom, maar er wordt over het algemeen weinig vastgelegd en gedocumenteerd. Onvoldoende kennis over de achtergrond van bepaalde data levert voor mensen van buitenaf nog weleens lastig te verklaren uitkomsten op.
3. De invloed van bias: vooroordeel
De data die wij krijgen van onderzochte claims is vaak gebaseerd op onderzoeken die niet random (willekeurig) zijn uitgevoerd. Er was een reden, een gevoel, een aanwijzing om bepaalde claims te onderzoeken. Dat gevoel kan heel terecht zijn, maar het gevaar is dat gezocht wordt naar een onderbouwing van een veronderstelling. Wie alle ‘patserwagens’ met jonge bestuurders aanhoudt vindt ongetwijfeld onregelmatigheden. Echter, wie zegt dat het controleren van alle witte auto’s niet hetzelfde resultaat zou opleveren? Verwerk je dit soort data in modellen dan loop je het gevaar deze bias te versterken.
De ideale wereld
In een ideale data-analyse-wereld zouden we allemaal met uniforme data werken, nationaal en internationaal. We zouden allemaal dezelfde definities hanteren en er zouden geen taal- en cultuurverschillen zijn. Bovendien gebruiken we allemaal eenzelfde soort database, met dezelfde velden en dezelfde manier van invullen.
En het allerliefst zou ik een onafhankelijke en willekeurige analyse doen van een gedeelte van alle claims. Hiermee kunnen we toetsen in hoeverre vooroordelen onze kennisregels beïnvloeden. Zo kunnen we een prachtige maatstaf creëren voor wat ‘normaal’ is, zonder ingebouwde vooroordelen.
Dat is helaas een utopie. Echter, de volgende stappen brengen ons wellicht een stukje dichterbij. Dit zal niet alleen het werk van een datascientist makkelijker maken; het zal ook de kwaliteit van analyses verbeteren en daarmee ook de managementbeslissingen die daarop gebaseerd worden.
Drie stappen voorwaarts
Wat kunnen we verbeteren?
1. Kies softwaresystemen voor de lange termijn
En kies voor een leverancier die verstand heeft van verzekeringen én die er bij voorkeur over twintig jaar nog is. Richt een systeem zorgvuldig in, gebruik het zo veel mogelijk waar het voor bedoeld is en documenteer aanpassingen zorgvuldig. Verander niet te snel van systeem. Als dat dan toch nodig is, steek dan voldoende tijd en energie in het overzetten van alle data. Voorkom dat twee systemen in de lucht gehouden moeten worden: liever één systeem met dan desnoods wat minder goede data.
2. Investeer nationaal, maar bij voorkeur ook internationaal, in meer uniformiteit in de data
Fraudenetwerken richten veel schade aan en trekken zich niets aan van landsgrenzen en verschillen in registratie. In tegendeel: ze varen er uitermate wel bij. Dat betekent misschien dat we altijd de chassisnummers en persoonsnummers gaan bijhouden zodat identificatie van personen en voertuigen beter wordt. Landelijke wet- en regelgeving maakt dit nog niet altijd mogelijk. Kleine stappen leveren echter ook verbetering op. Ieder internationaal fraudenetwerk dat wordt opgerold levert direct enorme kostenbesparingen bij het uitkeren van claims.
3. Datatransformatie: dat is het vertalen van de data naar een standaard ten behoeve van analyses
Bij FRISS hanteren we een standaard dataformaat waar we de aangeleverde data naar overzetten. Dat is het ideale moment voor ons als specialisten om met de klant om tafel te zitten: hoe ziet het huidige systeem eruit, wat is de historie, wat zijn de maatwerkvelden, hoe moeten we bepaalde informatie interpreteren? Het lijkt wel of wij alleen met harde cijfers en omschrijvingen werken maar er zitten veel potentiële misverstanden en cultuurverschillen in.
Mensenwerk
Hoe goed de datakwaliteit ook is, bij analyses en de uitkomsten daarvan blijft altijd werk voor een kritische menselijke blik. Opvallende uitkomsten zijn interessant maar kunnen verschillende oorzaken hebben. Aan ons de schone taak om de bias, de vervuiling en de misverstanden uit te filteren en betrouwbare, heldere analyses en conclusies aan te leveren. Daarmee kunnen verzekeraars de producten, klanttevredenheid en bedrijfsvoering verbeteren. Zo houden we de branche gezond.