Al Big Data se han asociado una serie de características clave que lo definen, llamadas las “V” de Big Data.
Inicialmente, estas características eran 3: volumen, velocidad y variedad. Posteriormente se han añadido otras características, como la veracidad de los datos y el valor de los datos, generando así las denominadas 5 V del Big Data. Actualmente ya se está hablando de las 8 V del Big Data. Estas 8 V son muy relevantes en el sector de la salud.
Según datos del Ministerio de Sanidad, Consumo y Bienestar Social el gasto sanitario en España alcanza un 9,2% del PIB (casi 100.000 millones de euros anuales) y según el informe Índice SEIS, en España el gasto en Tecnologías de Información y Comunicaciones en la sanidad pública asciende a 624 millones de euros, lo que significa que menos del 1,20% del gasto sanitario público total se dedicó a las TIC.
El sistema sanitario produce un gran volumen de datos, que incluyen registros médicos personales, imágenes médicas, datos de ensayos clínicos, altas, datos a nivel genético, las secuencias genómicas de datos de población, imágenes en 3D y las lecturas de los sensores biométricos o los dispositivos wearables.
Datos estructurados, datos no estructurados y almacenamiento
La virtualización y el cloud compunting están avanzando tecnológicamente, de tal manera que a día de hoy facilitan el desarrollo de plataformas cognitivas para una captura más eficaz, garantizan el almacenamiento y la manipulación y tratamiento de estos grandes volúmenes de datos.
La mayor parte de datos de la salud han sido tradicionalmente estáticos: registros médicos, rayos x, pruebas de laboratorio, etc. Pero el avance exponencial de la tecnología está cambiando esta propensión y ahora la velocidad de generación va en aumento con datos no estáticos relacionados con la supervisión periódica, como la presión arterial, electrocardiogramas, monitorización realizada en las UCI y sensores biométricos.
Ya no podemos hablar solo de los datos estructurados como los recogidos en los historiales médicos electrónicos (tales como nombre del paciente, datos de nacimiento, dirección, nombre, nombre del hospital del médico y dirección, tratamientos u otras informaciones relativamente sencillas de codificar y automatizar en bases de datos). Tenemos que tener en cuenta los nuevos datos no estructurados, como la historia clínica digital que contiene información en PLN (lenguaje natural) y están en formatos multimedia y no están estructurados (tales como los registros médicos de la oficina, notas manuscritas, ingresos en el hospital, así como los registros de altas, las recetas de papel, las radiografías e imágenes y videos).
En este entorno, el sector salud está desbordado, no sólo por el volumen, sino también debido a la diversidad y complejidad de tipos de datos y la velocidad a la que deben gestionarse. Esta información incluye, entre otros:
- Los datos clínicos de los sistemas informáticos (notas escritas del médico, recetas, imágenes diagnósticas médicas, pruebas de laboratorio, datos de farmacia, seguros, y otros datos administrativos)
- Los datos electrónicos del paciente en su historia clínica digital (EHR)
- Los datos generados por sensores para monitorización de signos vitales
- Los datos generados por dispositivos wearables
- Los datos de genómica
- Los datos de cuidadores, fuentes de noticias y artículos en revistas médicas
- Los datos de reclamaciones
Estos datos del sector salud vienen acompañados cada vez más con los datos generados por dispositivos móviles y wearables, la genética y la genómica, los medios sociales, la investigación, las publicaciones profesionales y otras fuentes. Sin embargo, relativamente pocos de estos datos en la actualidad se pueden adquirir, almacenar y organizar de tal manera que se pueda analizar para obtener información útil. Se precisan técnicas y herramientas más eficientes que permitan combinar y convertir todos estos datos en datos estructurados para su posterior análisis en tiempo real para identificar y aplicar los tratamientos adecuados que podrían ayudar a mejorar la asistencia y calidad de vida del paciente (conllevando beneficios económicos por reducción de costes, eficiencia en la gestión de farmacia, disminución del número de ingresos o estancias hospitalarias, disminución en el número de consultas sucesivas o una mayor capacidad), así como reducir la mortalidad de los pacientes.
La calidad de los datos es clave. Los problemas de calidad de datos son especialmente importantes en el sector de la salud: la toma de decisiones depende en tener la información precisa y evitar errores fatales, y la calidad de los datos de salud, especialmente de datos no estructurados, es altamente variable y con demasiada frecuencia incorrecta o incompleta.
Oportunidad
Nos encontramos ante una gran oportunidad. El potencial del Big Data en la asistencia sanitaria radica en la combinación de datos tradicionales con las nuevas formas de datos no estructurados.
Dentro de la arquitectura de un Big Data, los algoritmos de Machine Learning aplicados al sector salud son capaces de identificar patrones, diagnosticar y en su caso proponer los mejores tratamientos personalizados a cada paciente en cada fase de la enfermedad, de tal manera que sean lo más efectivos posibles.
Gran parte de esta innovación se produce en el extranjero, encabezada por empresas privadas como IBM, pionera en la inteligencia artificial aplicada a la oncología, gracias a su robot estrella, Watson, y Google, que colabora con hospitales públicos de University College London en Reino Unido para poner a prueba su algoritmo generador de radioterapias personalizadas, DeepMind Health. Otras empresas como la española Quibim ya trabajan con algoritmos avanzados de procesamiento de imágenes médicas para detectar cambios producidos por la enfermedad o tratamientos. Sin embargo son tecnologías que están en los inicios, con un enorme potencial pero con un camino largo por recorrer todavía.
Todo ello tiene unos efectos colaterales positivos. Gracias al Big Data se pueda generar un ahorro del gasto en salud, que para el caso de la Unión Europea podría suponer un más de 90 billones de euros. En concreto, se estima que la contribución al PIB de la Unión Europea gracias al Big Data pueda ser del 1,9% para el 2020, donde la aplicación para el sector salud podría estar en torno al 20%.