Herramienta

Airflow

¿Qué es?

Apache Airflow es una herramienta de tipo workflow manager o, en español: gestionar, monitorizar y planificar flujos de trabajo, usada como orquestador de servicios. 

¿Cómo lo hace?

Airflow se usa para automatizar trabajos programáticamente dividiéndolos en subtareas. Permite su planificación y monitorización desde una herramienta centralizada. Los casos de uso más comunes son la automatización de ingesta de datos, acciones de mantenimiento periódicas y tareas de administración. 

Para ello, permite planificar trabajos como un cron y también ejecutarlos bajo demanda utilizando DAGs (Directed Acyclic Graphs) que son colecciones de tareas o de trabajos a ejecutar conectados mediante relaciones y dependencias. 

Casos de uso

Debemos entender Airflow como una herramienta de coordinación de trabajos realizados por otro servicios. Resulta muy útil para gestionar los workflows en Data Warehouses y en pipelines de Machine Learning. 

 

El foco principal de Airflow son los procesos batch, con una serie de tareas finitas que se ejecutan cada ciertos intervalos o disparadores. Aunque también existen orquestadores para trabajos en streaming, Airflow no es la herramienta adecuada. 

Beneficios

Apache Airflow nos permite definir nuestros propios flujos de trabajo para orquestar los servicios y mantener un control y una monitorización centralizada.

¿Necesitas nuevas herramientas?

Tekne brinda Consultoría de Datos, donde podemos guiarte y definir un Roadmap Tecnológico que alinee la estrategia de tu compañía con sus objetivos y uso de herramientas.