El puesto de Data Engineer es relativamente nuevo y al ser novedoso existe una gran diferencia en las responsabilidades asignadas entre compañías. ¿Conocés realmente las responsabilidades de un Data Engineer? ¿Creés que es complicado describir las tareas que realiza un Data Engineer?
Si alguna de tus respuestas es no entonces tenés que leer este post donde repasaremos 6 responsabilidades de un Data Engineer
Entre las responsabilidad podemos enumerar –
- Mover datos entre sistemas
- Administrar el data warehouse
- Construir y administrar data pipelines
- Disponibilizar los datos a los usuarios finales
- Llevar a cabo la estrategia de datos de la compañía
- Deploy de modelos ML a ambientes productivos
1- Mover datos entre sistemas
Esta es la principal responsabilidad de un Data Engineer.
Extracción –
Extraer datos de múltiples fuentes como por ejemplo API’s externas, bases de datos, archivos planos, almacenamiento en la nube (S3, Azure Storage), etc.
Transformación –
Se trata de transformar los datos con el objetivo de filtrarlos, enriquecerlos, agregarlos, cambiar su estructura.
Carga –
En este paso los datos son cargados en la base final donde serán consumidos por otros sistemas. Esta base puede ser un data warehouse, almacenamiento en la nube, bases de datos en memoria, etc.
2- Administrar el data warehouse
Cada vez más empresas están comenzando a utilizar data warehouses en su arquitectura de datos. Aquí las responsabilidades de los Data Engineers son:
Modelado del data warehouse –
Para modelar los datos de forma tal que las consultas analíticas demoren menos tiempo.
Performance del data warehouse –
Para asegurarse de que las consultas se ejecuten de forma rápida y garantizar que el warehouse pueda escalar sin sufrir un deterioro en la performance a medida que la cantidad de datos aumenta.
Calidad de los datos –
Para asegurarse de que la calidad en los datos es la adecuada.
3- Construir y administrar Data Pipelines
Se trata de:
- Mover datos entre sistemas, entre bases de datos, entre warehouses, etc
- Transformar: los datos entre formatos, hacer agregaciones, etc.
- Monitorear cañerías de datos
- Administrar metadatos
Algunos programas utilizados con este fin son: Airflow, Prefect, Dagster, AWS Glue, AWS Lambda, Data Factory.
4- Disponibilizar los datos a los usuarios finales
Con los datos disponibles en el data warehouse, es tiempo de disponibilizarlos a los usuarios finales. Ellos pueden ser analistas, aplicaciones, clientes externos, etc. Dependiendo del usuario final se debe configurar:
Reporte/Dashboard –
Son plataformas utilizadas para analizar los datos de forma gráfica e intuitiva y algunas plataformas pueden ser: Tableau, Metabase, Superset, Power BI.
Permisos de acceso –
Para una tabla hay que generar los permisos para el acceso de usuarios y aplicaciones.
Endpoints (APIs) –
Algunas aplicaciones/clientes externos quizás necesiten acceso mediante una API para consultar la información.
Volcado de datos para clientes –
Algunos clientes quizás requieran extracciones específicas de información. En esos casos, el Data Engineer deberá generar las pipelines necesarias para disponibilizar esas extracciones.
5- Llevar a cabo la estrategia de datos de la compañía
Esto incluye:
- Decidir qué datos recolectar, cómo recolectarlos y cómo guardarlos de forma segura
- Liderar la evolución de la arquitectura de datos para satisfacer nuevas necesidades de información
- Educar a los usuarios finales sobre cómo usar los datos de forma efectiva
- Decidir qué datos compartir con usuarios finales
6- Deploy de modelos ML a ambientes productivos
Los científicos de datos construyen modelos que predicen de forma acertada el comportamiento de determinados procesos de negocio. El Data Engineer podrá optimizarlos para utilizarlos en un ambiente productivo.
Conclusión
En este artículo vimos las principales tareas las cuales son responsabilidad de los Data Engineers. Es importante tener en cuenta que las tareas que debe cumplir un Data Engineer varían según la empresa, la estructura del equipo y la carga de trabajo. Aunque en general la principal tarea de un Data Engineer es permitir que los datos se encuentren disponibles para la toma de decisiones.
¿Qué opinás? ¿trabajaste o te gustaría trabajar en un puesto de Data Engineer?
–
En Tekne, ofrecemos el servicio de Data Engineering. Si querés contactarnos directamente mandanos un mensaje a Contacto.