Het inschatten van het risico van een bepaald incident is het centrale doel van verzekeringsdeskundigen. In zijn eenvoudigste vorm komt deze taak neer op het kunnen beantwoorden van drie vragen:

Hoe groot is de kans dat het incident zich voordoet?
Hoe ernstig kan het incident zijn?
Hoeveel zullen de gevolgen van het incident kosten?

Dit zijn de vragen waarop een model voor risicovoorspelling zich richt. Een onderschatting van de antwoorden kan leiden tot economische verliezen om de schade te dekken. Aan de andere kant kan een overschatting leiden tot een verlies van concurrentievoordeel.

Om een model te maken van een machine learning (ML) algoritme voor het inschatten van het risico op incidenten, willen we het hebben over twee voorbeelden die het belang van gegevens illustreren - meer informatie extraheren dan wat in het zicht bestaat en de impact van een grote verscheidenheid aan gegevens. We hebben dit model gemaakt voor een klantproject in de autoleasesector, maar we kunnen de constructies uitbreiden naar verschillende sectoren en gevallen.

Gegevens aanvullen om neiging tot incidenten te vinden

Om te beginnen moeten we een model om de kosten van risico's in te schatten baseren op gegevens die op zijn minst een lijst van incidenten, de datum van het incident, klanten en de bijbehorende kosten bevatten. We kunnen het belang van klanteninformatie niet genoeg benadrukken. Om de waarschijnlijkheid van een risico te bepalen, moet worden onderzocht over wat voor soort klant we het hebben (bijv. sociaaleconomische kenmerken en andere dimensies) om de waarschijnlijkheid van een incident in te schatten. Als je bijvoorbeeld kijkt naar de klantgeschiedenis, zou je kunnen denken dat het waarschijnlijker is dat klanten die in het verleden meerdere incidenten hebben gehad (al dan niet van dezelfde soort), deze in de toekomst zullen blijven hebben. Dit is een a priori aanname die we moeten valideren met gegevens. In het ondernomen klantproject hebben we vastgesteld dat het waar is. Door nieuwe informatie af te leiden uit de beschikbare gegevens (augmenting), konden we het aantal en het type incidenten van klanten in de afgelopen 3, 6, 12 en 24 maanden bestuderen en die gegevens gebruiken om kenmerken van klanten te vinden die hen vatbaarder maken voor specifieke incidenten.
‍
Wees voorzichtig, want dit is een glibberig pad. Dataprivacy is uiterst belangrijk en het ontwikkelen van ethische ML-algoritmen is de verantwoordelijkheid van datawetenschappers. Bij het bepalen van de kenmerken van klanten, met name de kosten van de aan hen aangeboden diensten, is het noodzakelijk om voorzorgsmaatregelen te nemen om ervoor te zorgen dat het model niet discrimineert.

Verschillende soorten risico's onderscheiden met metadata

Het hebben van betrouwbare gegevens is niet alles. Bij risico's op incidenten is het cruciaal om je te realiseren welke verschillende soorten risico's je moet overwegen en dienovereenkomstig een model te bouwen.
‍
Soms is de manier om twee verschillende soorten incidenten te onderscheiden eenvoudig, zonder veel informatie. Hier introduceren we een hypothetische dataset van een huisverzekeringsmaatschappij die slechts twee soorten verzekeringen aanbiedt: kleine reparaties zoals verstopte leidingen met een kostprijs van ongeveer 10 (in fictieve valuta) en uitgebreidere reparaties zoals lekkende leidingen en overstromingen, met een kostprijs van ongeveer 100 (zie fig.1).

We hebben niet veel extra informatie nodig om de soorten risico's te onderscheiden om het model te trainen, omdat de totale kosten al een goede indicator zijn. We kunnen een regel schrijven die zegt dat als de totale kosten lager zijn dan 45 (bijvoorbeeld), we te maken hebben met een risico met lage kosten, en andersom.

De kwestie is gecompliceerder in de aanwezigheid van een derde type risico, middelgrote reparaties, bijvoorbeeld verfreparaties met een kostprijs van ongeveer 80 (zie fig.2).

In dit geval zal een eenvoudige regel in de kosten de training van het model niet helpen om verschillende soorten risico's te onderscheiden. Het toevoegen van extra informatie, zoals beschrijvingen van het probleem (schilderwerk vs. overstroming), het bedrijf dat de reparaties uitvoert (schilders vs. loodgieters), of andere relevante gegevens, zal helpen.

Dit toont het belang aan van het verzamelen van elk stukje informatie dat we te pakken kunnen krijgen bij het maken van een ML-model.

Laatste gedachten

Het bouwen van een incidentenmodel voor onze klant was mogelijk dankzij de kwaliteit van de gegevens die ze al hadden verzameld en de mogelijkheid om metadata met betrekking tot de verschillende incidenten te transformeren, uit te breiden en te gebruiken om verschillende soorten risico's te onderscheiden.
‍
Agilytic bouwde verschillende incidentenmodellen, één voor elk type risico dat bij de klant was geïdentificeerd, waarbij de drie openingsvragen werden beantwoord: hoe waarschijnlijk, ernstig en kostbaar zijn de incidenten waarmee onze klant wordt geconfronteerd?
‍
De belangrijkste les? Als u meer informatie verzamelt dan wat zich in het zicht bevindt en als u verschillende soorten gegevens verzamelt, kunt u uw incidentmodellering verbeteren.

Als het voorspellen van risico's een uitdaging is voor jouw bedrijf, dan zijn wij er om je te helpen!

Tech Talk: Houd rekening met uw risicofactoren met een incidentenmodel

Gegevens aanvullen om neiging tot incidenten te vinden

Verschillende soorten risico's onderscheiden met metadata

Laatste gedachten

Tech Talk: Fraudedetectie in het bankwezen verbeteren

De overstap naar datawetenschap na de universiteit: Guillaume's reis