← Metodología / 3. Estándar GTFS / Validación de Datos

Validación de Datos

Crear el archivo GTFS es solo la mitad del trabajo. La otra mitad es asegurar que sea válido. Un GTFS con errores puede causar que un usuario pierda su autobús, que Google Maps rechace tu feed o que las aplicaciones de análisis den resultados absurdos.

Para esto, utilizamos el Canonical GTFS Schedule Validator mantenido por MobilityData. Es la herramienta estándar de la industria.

¿Por qué validar?

Los errores en GTFS pueden ser sutiles.

  • Errores de Sintaxis: Falta una columna obligatoria, formato de fecha incorrecto.
  • Errores de Lógica: Un viaje que llega a las 10:00 y sale a las 09:00 (viaje en el tiempo).
  • Errores Geográficos: Una parada ubicada en medio del océano o un autobús que viaja a 500 km/h entre dos paradas.

Herramienta: MobilityData GTFS Validator

Es una herramienta de código abierto que analiza tu archivo ZIP y genera un reporte HTML detallado.

1. Descarga e Instalación

El validador es un archivo Java (.jar).

  1. Asegúrate de tener Java instalado en tu computadora (Java 11 o superior).
  2. Descarga la última versión del gtfs-validator-x.x.x-cli.jar desde su repositorio en GitHub.

2. Ejecución

Se ejecuta desde la línea de comandos (Terminal o CMD).

java -jar gtfs-validator-x.x.x-cli.jar -i ruta/a/tu/gtfs.zip -o reporte_validacion
  • -i: Input (tu archivo GTFS).
  • -o: Output (carpeta donde guardará el reporte).

3. Interpretación del Reporte

Abre el archivo report.html que se generó. Verás tres categorías de hallazgos:

🔴 Errores (Errors)

Son problemas críticos que impiden que el feed sea utilizable. Debes corregirlos todos.

  • missing_required_file: Falta agency.txt o stops.txt.
  • missing_required_column: Borraste la columna stop_id por accidente.
  • invalid_date: Usaste “2023-13-01” (mes 13 no existe).
🟠 Advertencias (Warnings)

Problemas que no rompen el feed, pero indican mala calidad de datos.

  • stop_too_far_from_shape: La parada está a 500 metros de la línea de ruta. ¿Está mal la parada o mal el trazado?
  • fast_travel_between_stops: El bus tendría que ir a 120 km/h para cumplir el horario. Revisa tus tiempos en stop_times.txt.
  • duplicate_stop: Dos paradas con el mismo nombre y ubicación.
🔵 Información (Info)

Datos estadísticos sobre tu feed. Útiles para verificar que no falte nada masivo.

  • Número total de rutas, paradas y viajes.
  • Rango de fechas del calendario.

Errores Comunes y Cómo Solucionarlos

  1. “Stops are too close”: Tienes dos paradas a menos de 2 metros.
    • Solución: Probablemente duplicaste un punto en QGIS. Borra uno.
  2. “Unused stop”: Una parada existe en stops.txt pero ningún viaje pasa por ella en stop_times.txt.
    • Solución: Si es una parada antigua, bórrala. Si es nueva, asegúrate de asignarle viajes.
  3. “Decreasing stop times”: El tiempo de llegada a la parada 3 es anterior al de la parada 2.
    • Solución: Revisa tu hoja de cálculo de horarios. Ordena las filas por secuencia.

Ciclo de Validación

La validación es iterativa.

  1. Generas GTFS -> 2. Validas -> 3. Corriges errores -> 4. Regeneras -> 5. Validas de nuevo. No te desanimes si la primera vez ves 500 errores. A menudo, corregir un solo error sistemático (ej. formato de fecha en Excel) elimina cientos de advertencias de golpe.

← Metodología / 3. Estándar GTFS / Validación de Datos