← Metodología / 2. Gestión de datos / 2.3 Calidad de los datos

2.3 Calidad de los datos

Que los datos existan no significa que sean útiles. Un archivo GTFS con coordenadas incorrectas, rutas duplicadas o horarios desactualizados puede ser peor que no tener nada. Genera confianza falsa, produce análisis erróneos y alimenta decisiones equivocadas. El principio es directo — datos de mala calidad producen resultados de mala calidad, sin importar qué tan buena sea la herramienta que los procesa.

La calidad no es una propiedad binaria — no se tiene o no se tiene. Es un conjunto de dimensiones que se pueden medir, monitorear y mejorar gradualmente. El marco de referencia más utilizado en gestión de datos (DAMA) define seis dimensiones que son directamente aplicables al trabajo con datos de transporte público.

  • Completitud — ¿están todos los elementos que deberían estar? Una red de rutas con paradas faltantes, o un horario sin todos los días de servicio, tiene baja completitud. Un dato es completo cuando incluye todos los registros y atributos necesarios para el uso previsto.

  • Unicidad — ¿existe cada elemento una sola vez? Los registros duplicados son uno de los problemas más comunes. Una misma parada capturada dos veces con identificadores distintos, o una ruta que aparece duplicada con variaciones mínimas, genera inconsistencias difíciles de rastrear.

  • Atemporalidad — ¿los datos reflejan la realidad actual? Una ruta que cambió de recorrido hace tres meses pero sigue publicada con el trayecto anterior no es temporalmente válida. Los datos de transporte son especialmente sensibles a esta dimensión porque la realidad del sistema cambia con frecuencia.

  • Validez — ¿los valores están dentro de rangos aceptables y en el formato correcto? Coordenadas fuera del territorio en cuestión, identificadores con caracteres inválidos, o tiempos de viaje negativos son ejemplos de valores inválidos. La validez se puede verificar con reglas simples antes de publicar.

  • Precisión — ¿los datos corresponden a la realidad que describen? Una parada ubicada a 200 metros de donde realmente está, o un horario que no refleja la frecuencia real del servicio, tiene baja precisión. Esta dimensión es la más difícil de verificar sin trabajo de campo.

  • Consistencia — ¿los mismos elementos se representan de la misma manera en todos los archivos? Si una parada aparece con el identificador PAR-001 en un archivo y como par001 en otro, hay inconsistencia. La consistencia es especialmente importante en datos relacionados, como los del GTFS, donde varios archivos deben referirse a los mismos elementos con los mismos identificadores.

Cómo se introducen errores de calidad

Los problemas de calidad no aparecen al azar. Tienen causas específicas que se pueden anticipar y mitigar. En el ciclo de vida de los datos de transporte, los errores más comunes se concentran en etapas concretas.

En la captura. Las trazas GPS pueden perder señal en zonas con mala cobertura, generando puntos fuera de ruta. Los formularios llenados a mano introducen errores tipográficos en nombres y códigos. La falta de protocolos claros de levantamiento produce datos capturados de maneras inconsistentes entre distintos recolectores.

En el procesamiento. Las transformaciones manuales — copiar datos de una hoja a otra, aplicar fórmulas, convertir formatos — son fuente frecuente de errores. Una columna mal alineada al pegar datos, una fórmula que no se extiende hasta la última fila, o una conversión de unidades equivocada pueden pasar desapercibidos si no hay validaciones.

En la síntesis. Los cálculos derivados heredan los errores de los datos fuente y pueden amplificarlos. Si los datos de cobertura se calculan a partir de paradas con coordenadas incorrectas, el análisis resultante también será incorrecto — y puede ser difícil detectarlo sin comparar contra otras fuentes.

En la publicación. Publicar sin revisar consolida los errores y los distribuye. Una vez que datos incorrectos están en circulación — en aplicaciones de terceros, en análisis externos, en documentos de política — es muy difícil corregir todas las copias. La publicación es el momento más importante para hacer una revisión de calidad.

En el archivo. Archivar datos sin registrar adecuadamente su contexto — qué representan, de cuándo son, si están completos — hace que sean inutilizables como referencia histórica.

Perfilado y limpieza

Antes de usar o publicar un conjunto de datos, conviene hacer un perfilado — una revisión sistemática de sus características para detectar problemas antes de que importen. El perfilado no requiere herramientas especializadas. Puede hacerse con una hoja de cálculo, revisando aspectos como estos.

  • ¿Hay campos vacíos en columnas que deberían tener valor siempre?
  • ¿Hay valores duplicados en columnas que deberían ser únicas (como identificadores)?
  • ¿Los valores numéricos están dentro de rangos razonables (coordenadas en el territorio correcto, tiempos positivos)?
  • ¿Los formatos son consistentes (fechas en el mismo formato, códigos con la misma estructura)?
  • ¿El número de registros es el esperado?

Cuando el perfilado detecta problemas, se aplica limpieza — corregir o marcar los registros que no cumplen con las reglas de calidad definidas. La limpieza puede ser directa — corregir una coordenada mal capturada — o puede implicar marcar un registro como incompleto para que no se publique hasta que se tenga la información correcta.

Una práctica importante es no modificar los datos originales durante la limpieza. Se trabaja sobre una copia, y el archivo fuente se conserva intacto. Esto permite rastrear qué se cambió y por qué, y volver al punto de partida si una corrección resulta incorrecta.

La calidad de los datos es un proceso continuo, no una tarea que se hace una vez. Los datos de transporte cambian constantemente, y lo que era correcto hace seis meses puede haber dejado de serlo. La revisión periódica de calidad — aunque sea breve — es parte del trabajo de mantenimiento de cualquier sistema de datos bien gestionado.

← Metodología / 2. Gestión de datos / 2.3 Calidad de los datos