← Metodología / 3. Estándar GTFS / Validación de Datos
Validación de Datos
Crear el archivo GTFS es solo la mitad del trabajo. La otra mitad es asegurar que sea válido. Un GTFS con errores puede causar que un usuario pierda su autobús, que Google Maps rechace tu feed o que las aplicaciones de análisis den resultados absurdos.
Para esto, utilizamos el Canonical GTFS Schedule Validator mantenido por MobilityData. Es la herramienta estándar de la industria.
¿Por qué validar?
Los errores en GTFS pueden ser sutiles.
- Errores de Sintaxis: Falta una columna obligatoria, formato de fecha incorrecto.
- Errores de Lógica: Un viaje que llega a las 10:00 y sale a las 09:00 (viaje en el tiempo).
- Errores Geográficos: Una parada ubicada en medio del océano o un autobús que viaja a 500 km/h entre dos paradas.
Herramienta: MobilityData GTFS Validator
Es una herramienta de código abierto que analiza tu archivo ZIP y genera un reporte HTML detallado.
1. Descarga e Instalación
El validador es un archivo Java (.jar).
- Asegúrate de tener Java instalado en tu computadora (Java 11 o superior).
- Descarga la última versión del
gtfs-validator-x.x.x-cli.jardesde su repositorio en GitHub.
2. Ejecución
Se ejecuta desde la línea de comandos (Terminal o CMD).
java -jar gtfs-validator-x.x.x-cli.jar -i ruta/a/tu/gtfs.zip -o reporte_validacion -i: Input (tu archivo GTFS).-o: Output (carpeta donde guardará el reporte).
3. Interpretación del Reporte
Abre el archivo report.html que se generó. Verás tres categorías de hallazgos:
🔴 Errores (Errors)
Son problemas críticos que impiden que el feed sea utilizable. Debes corregirlos todos.
missing_required_file: Faltaagency.txtostops.txt.missing_required_column: Borraste la columnastop_idpor accidente.invalid_date: Usaste “2023-13-01” (mes 13 no existe).
🟠 Advertencias (Warnings)
Problemas que no rompen el feed, pero indican mala calidad de datos.
stop_too_far_from_shape: La parada está a 500 metros de la línea de ruta. ¿Está mal la parada o mal el trazado?fast_travel_between_stops: El bus tendría que ir a 120 km/h para cumplir el horario. Revisa tus tiempos enstop_times.txt.duplicate_stop: Dos paradas con el mismo nombre y ubicación.
🔵 Información (Info)
Datos estadísticos sobre tu feed. Útiles para verificar que no falte nada masivo.
- Número total de rutas, paradas y viajes.
- Rango de fechas del calendario.
Errores Comunes y Cómo Solucionarlos
- “Stops are too close”: Tienes dos paradas a menos de 2 metros.
- Solución: Probablemente duplicaste un punto en QGIS. Borra uno.
- “Unused stop”: Una parada existe en
stops.txtpero ningún viaje pasa por ella enstop_times.txt.- Solución: Si es una parada antigua, bórrala. Si es nueva, asegúrate de asignarle viajes.
- “Decreasing stop times”: El tiempo de llegada a la parada 3 es anterior al de la parada 2.
- Solución: Revisa tu hoja de cálculo de horarios. Ordena las filas por secuencia.
Ciclo de Validación
La validación es iterativa.
- Generas GTFS -> 2. Validas -> 3. Corriges errores -> 4. Regeneras -> 5. Validas de nuevo. No te desanimes si la primera vez ves 500 errores. A menudo, corregir un solo error sistemático (ej. formato de fecha en Excel) elimina cientos de advertencias de golpe.
← Metodología / 3. Estándar GTFS / Validación de Datos