El sector Seguros posee cantidades enormes de datos. Eva van Viegen, Científica de datos en FRISS, analiza estos datos para obtener mejor información sobre el fraude, los riesgos y el valor de las carteras. ¿Cuál es la fiabilidad de toda esta información y cómo se puede conseguir que sea (aún) más fiable?
Fiabilidad de los datos
Un científico de datos suele tener que trabajar con grandes cantidades de información. En FRISS trabajamos con los datos proporcionados por el cliente, datos procedentes de fuentes externas y, por supuesto, datos internos. En el caso de los seguros, la información recopilada sobre las personas y los objetos asegurados, los siniestros y el fraude detectado ayuda a llevar a cabo valoraciones fundadas sobre los riesgos, las tendencias y el valor de las políticas y carteras.
En mis sueños, el mundo ideal podría capturarse completamente en cifras y campos de datos. Pero, ¿cuál es la fiabilidad de todos estos datos? Hay importantes dificultades entre mi sueño y la realidad: tanto en los sistemas como en nosotros, los seres humanos. Las diferencias en cultura, precisión y coherencia dificultan la comparación del contenido de los sistemas administrativos. Para colmo, el factor humano puede tener una influencia tanto positiva como negativa en la calidad de los datos.
Hay mucho margen y muchas oportunidades para mejorar. A continuación, enumero las tres dificultades principales. Luego describo mi mundo ideal y analizo los tres pasos que pueden ayudarnos a aproximarnos a ese mundo.
Dificultades
Falta de uniformidad internacional en la forma en que registramos la información.
Holanda, un vehículo se identifica gracias a su matrícula; en Bélgica se hace con el número de chasis. Por lo tanto, las aseguradoras de esos dos países registran datos distintos, lo que complica determinar si unos datos específicos corresponden al mismo vehículo. Las direcciones, las fechas de nacimiento y los apellidos también constituyen una fuente constante de posibles confusiones y malentendidos entre los países.
Cambios en la manera de utilizar los sistemas de registro.
A lo largo de los años, es posible que se tome la decisión de registrar una determinada información de una manera más concreta. Por ejemplo, es posible que, al principio, solo se registrara una categoría de “robo” y, más adelante, se añadiera “robo de vehículo”. También es posible que el campo “número de proyecto” se utilizara para introducir las matrículas. Con frecuencia, el conocimiento de qué se ha cambiado y por qué sigue estando disponible en una organización, pero suele haber poca información registrada y documentada. Para las personas ajenas no hay suficientes conocimientos sobre los antecedentes de determinados datos. Esto conduce a resultados que resultan difíciles de explicar.
La influencia de la parcialidad o el prejuicio.
Los datos de los siniestros investigados que recibimos suelen basarse en investigaciones que no se han llevado a cabo al azar. Había un motivo, una sensación o una indicación de por qué se investigaron algunos siniestros. Es posible que esa sensación sea válida, pero existe el peligro de que se haya buscado una justificación o un prejuicio. Si se hiciera parar a todos los vehículos lujosos con conductores jóvenes, es indudable que se encontrarían irregularidades. Sin embargo, ¿quién puede decir que una comprobación de todos los vehículos blancos no pudiera tener el mismo resultado? Si ese tipo de datos se incorpora a los modelos, se corre el riesgo de reforzar un sesgo predilecto.
El mundo ideal
En el mundo ideal del análisis de datos, todos trabajaríamos con datos uniformes, nacional e internacionalmente. Todos utilizaríamos las mismas definiciones y no habría diferencias lingüísticas ni culturales. Además, todos utilizaríamos el mismo tipo de base de datos, con los mismos campos y la misma forma de introducir los datos. En ese mundo ideal, puedo realizar un análisis independiente y aleatorio con un subconjunto de todos los siniestros. De esta manera, podemos poner a prueba en qué medida nuestros prejuicios influyen en nuestras reglas de conocimiento.
Afortunadamente, cada vez se desarrollan más técnicas para detectar el sesgo no deseado en los datos. Lamentablemente, conseguirlo sea probablemente una utopía. Sin embargo, los pasos siguientes podrían acercarnos un poco más a mi mundo ideal. Esto no solo facilitará el trabajo de un científico de datos, sino que también mejorará la calidad de los análisis y, por consiguiente, las decisiones de los directivos que se basan en esos análisis.
Tres pasos hacia adelante
¿Qué podemos mejorar?
Seleccionar sistemas de software a largo plazo.
Además, hay que seleccionar a un proveedor con conocimientos de seguros y, preferiblemente, un proveedor que siga activo dentro de veinte años. Organice un sistema minuciosamente y, en la medida de lo posible, utilícelo con la finalidad prevista. Documente los cambios correctamente. No cambie los sistemas con demasiada rapidez. Si el cambio es necesario, dedique suficiente tiempo y energía a la transferencia de datos. En todo momento, evite tener que mantener dos sistemas en marcha: es mejor tener un sistema con datos imperfectos que dos sistemas con datos perfectos, pero incoherentes.
Invierta nacionalmente , pero preferiblemente también internacionalmente, en una mayor uniformidad de los datos.
Las redes de fraude provocan enormes daños a las aseguradoras porque ignoran las fronteras nacionales y las diferencias en el registro. De hecho, las bandas de defraudadores prosperan en esas fronteras. La lucha contra esas redes sería eficaz si, de manera estándar, se registran los números de chasis y los números de seguridad social para mejorar la identificación de las personas y los vehículos. En este momento, las normas y la legislación nacionales no siempre permiten esa estandarización. Sin embargo, unos pequeños pasos pueden aportar mejoras. Cada red de fraude internacional que se desmantela conduce directamente a unos enormes ahorros en el pago de siniestros.
Transformación de datos, es decir, conversión de los datos en un estándar para el análisis.
En FRISS, convertimos todos los datos que recibimos en un formato de datos estándar. Ha llegado el momento ideal para que nosotros, los especialistas, nos reunamos con el cliente para analizar lo siguiente: ¿Cómo es el sistema actual? ¿Cuál es su historia? ¿Cuáles son los campos personalizados? ¿Cómo debería interpretarse determinada información? Podría parecer que solo trabajamos con cifras brutas y definiciones, pero hay muchos posibles malentendidos y diferencias culturales.
El ojo humano
Independientemente de la calidad de los datos, cuando se trata de análisis y sus resultados, un ojo humano crítico siempre resultará indispensable. Los resultados imprevistos son interesantes, pero pueden deberse a varias causas. De nosotros depende filtrar el sesgo predilecto, las impurezas y los malentendidos, y proporcionar análisis y conclusiones fiables y claros. Las aseguradoras pueden utilizar esto para mejorar los productos, la satisfacción de los clientes y la gestión de las operaciones. De esta manera, mantenemos sano el sector.