ETL
Extract, Transform, Load
Proceso de ingeniería de datos que extrae información de sistemas fuente (HIS, EHR), la transforma aplicando reglas de negocio y mapeos semánticos, y la carga en un modelo de datos destino como OMOP CDM.
¿Qué es un proceso ETL?
ETL (Extract, Transform, Load) es el proceso fundamental de la ingeniería de datos que permite mover y transformar información entre sistemas. En el contexto de datos clínicos, el ETL convierte datos hospitalarios heterogéneos en un formato estandarizado para análisis e investigación.
Las tres fases del ETL clínico
Extract (Extracción)
- Conexión a sistemas fuente: HIS (SAP, HP-HIS, Selene), bases de datos de laboratorio, farmacia hospitalaria
- Extracción incremental para minimizar impacto en sistemas de producción
- Gestión de formatos diversos: HL7 v2, CSV, XML, APIs REST
Transform (Transformación)
- Mapeo semántico: Conversión de códigos locales (CIE-10-ES, CIAP-2) a vocabularios estándar (SNOMED-CT, RxNorm, LOINC)
- Normalización: Unificación de formatos de fecha, unidades de medida, codificaciones
- Reglas de negocio: Deduplicación de pacientes, cálculo de eras de tratamiento, asignación de visitas
Load (Carga)
- Inserción en el modelo destino (OMOP CDM)
- Verificación de integridad referencial
- Generación de logs de trazabilidad completa
ETL para OMOP CDM: particularidades
El ETL hacia OMOP CDM requiere pasos específicos:
- Análisis del esquema fuente con White Rabbit / Rabbit-in-a-Hat
- Mapeo de vocabularios con Usagi y revisión clínica
- Desarrollo de pipelines en Python/R con control de versiones
- Validación con Data Quality Dashboard (>3.500 checks)
¿Cómo puede ayudar Tiviz?
Tiviz diseña y desarrolla pipelines ETL de grado clínico para hospitales españoles, con trazabilidad completa, documentación técnica y validación automatizada conforme a los estándares OHDSI.