← Metodología / 2. Gestión de datos / 2.1 Los datos como activo y el ciclo de vida

2.1 Los datos como activo y el ciclo de vida

Los datos como activo

Una forma útil de pensar en los datos es tratarlos como un activo, de la misma manera que una organización gestiona sus equipos, sus instalaciones o su presupuesto. Los activos tienen valor, requieren mantenimiento y se deprecian si no se cuidan.

Los datos de transporte público tienen algunas características particulares como activo. Su valor es transitorio (los horarios de hoy pierden relevancia cuando cambia la frecuencia), requieren mantenimiento continuo para no volverse incorrectos, y pueden reutilizarse en múltiples contextos — el mismo conjunto de rutas puede alimentar una app de navegación, un mapa impreso y un análisis de cobertura. Esa capacidad de reutilización, a bajo costo marginal, es lo que hace valioso invertir en gestionarlos bien desde el principio.

El ciclo de vida de los datos

Cualquier conjunto de datos, independientemente de su tema, pasa por una serie de etapas desde que se crea hasta que deja de usarse. Entender este ciclo ayuda a planificar mejor el trabajo y a no tratar cada tarea como si fuera aislada.

Creación o captura. Cuando los datos entran al sistema por primera vez, ya sea desde un trabajo de campo, una fuente existente (un documento oficial, una hoja de cálculo heredada) o algún proceso automatizado. En el caso del transporte público, esto suele ser el levantamiento de rutas en campo.

Procesamiento. Una vez capturados, los datos normalmente se procesan. Los datos crudos rara vez están listos para usarse directamente; se revisan, limpian, organizan y transforman al formato necesario. Un archivo GPX grabado desde el celular, por ejemplo, necesita procesarse antes de convertirse en una ruta publicable.

Almacenamiento. Define dónde y cómo viven los datos — una carpeta compartida, una hoja de cálculo en Google Sheets, un repositorio. Esa decisión afecta quién puede acceder a ellos, con qué facilidad se actualizan y qué tan fácil es recuperarlos después.

Una distinción importante en esta etapa es separar los datos de trabajo de los datos de salida. Los datos de trabajo son los archivos con los que el equipo opera directamente — capas geográficas en GeoJSON, tablas de horarios en hojas de cálculo, trazas GPS. Los datos de salida son los formatos que se generan a partir de esos datos de trabajo para ser publicados o consumidos por otras herramientas. El GTFS, por ejemplo, es un formato de salida — se produce desde los datos de trabajo, no se usa como formato de almacenamiento interno. Intentar trabajar directamente sobre los archivos GTFS (.txt dentro de un .zip) complica el proceso y aumenta el riesgo de errores. Los datos fuente deben mantenerse en formatos editables; el GTFS se genera cuando hay algo que publicar.

Uso y aprovechamiento. Cuando los datos se consultan, analizan o publican. En transporte público esto puede significar generar un mapa, alimentar una aplicación de navegación o responder una pregunta de planeación.

Síntesis. A partir de los datos capturados y procesados, es posible derivar información de mayor valor. Esto incluye calcular indicadores, agregar datos de múltiples rutas para analizar cobertura por zona, o combinar horarios con datos de demanda para priorizar intervenciones. La síntesis no modifica los datos fuente — genera nueva información a partir de ellos. Por eso es importante mantener separados los datos de trabajo de los productos derivados.

Publicación. Cuando los datos salen del entorno de trabajo interno hacia afuera — ya sea como un archivo GTFS publicado en un repositorio abierto, un mapa compartido con la ciudadanía, o datos enviados a una aplicación de terceros. Una vez publicados, es difícil o imposible retirarlos completamente, lo que subraya la importancia de verificar su calidad antes de publicar. Si se detecta un error en datos ya publicados, el proceso de corrección debe ser explícito y comunicado.

Actualización. La etapa que con más frecuencia se descuida. La realidad cambia. Una ruta modifica su recorrido, una parada desaparece, se añade un nuevo servicio. Los datos deben reflejar esos cambios; si no lo hacen, dejan de ser útiles y pueden volverse activamente problemáticos.

Archivo. Cuando los datos ya no son vigentes, se guardan para referencia histórica. Guardar versiones anteriores puede ser útil para entender cómo ha cambiado el sistema con el tiempo.

Eliminación. A veces es necesario eliminar datos por temas de protección de información o política interna. Es importante verificar que la eliminación sea efectiva en todos los entornos donde existan copias.

Pensar los datos de manera holística

Un error frecuente en proyectos de datos es trabajar con archivos individuales de manera aislada, sin pensar en cómo se relacionan entre sí ni en quién más los va a usar.

Los datos de transporte público no son una excepción. Una ruta no es solo una línea en un mapa, sino algo conectado a paradas, horarios, tarifas y a la información de la agencia que la opera. Si se modifica una parada, esa modificación afecta a todas las rutas que pasan por ella. Si cambia el nombre de una línea, ese cambio debe reflejarse de manera consistente en todos los archivos que la mencionan.

Pensar holísticamente significa hacerse preguntas como estas.

  • ¿Cómo se relaciona este dato con otros datos del sistema?
  • ¿Quién más va a usar estos datos y para qué?
  • ¿Qué pasa en el resto del sistema si este dato cambia?
  • ¿Están todos los archivos usando la misma referencia para este elemento?

Esta perspectiva es especialmente importante cuando más de una persona trabaja con los mismos datos. Sin ella, es fácil que cada quien mantenga su propia versión de la verdad.

← Metodología / 2. Gestión de datos / 2.1 Los datos como activo y el ciclo de vida