My Journey into Data Engineering


Big Data, Data-driven, Data Science, Machine Learning son algunos de los términos que han cambiado las reglas de juego en la sociedad como la conocemos.

Hoy he decidido empezar a crear contenido para poder compartir mi experiencia. Es una buena forma de aprender juntos.

Una de mis primeras cuestiones fue ¿cómo iniciar? o ¿cuál será mi primer post? Bueno, contar un poco de mi experiencia en el mundo de los datos creo que es un buen punto de partida.

¿Cómo llegué la ingeniería de datos?

En la actualidad Big Data ya es un término muy popular entre las personas, ya sean del ámbito tecnológico o público en general, pero hace un par de años atrás todavía era un término recién acuñado donde pocos empezaban a incursionar, en las escuelas o universidades no era un tema del cual se hablará como tal. Si bien se consideran que son la evolución de aquellas materias como minería de datos, BI, sistemas autónomos, redes neuronales, pero con un enfoque de investigación y no de producción. Siguiendo la ley de moore, la capacidad de procesar, almacenar y gestionar un mayor número de datos volvió todas estas áreas de solo investigación a ser aplicadas en el día a día.

2013, época universitaria. En alguna de las materias nos tocó buscar papers para exponerlos, lo cual me llevó a buscar un tema interesante relacionado con sistemas distribuidos, base de datos NoSQL y fue como conocí el paper “MapReduce: Simplified Data Processing on Large Clusters” publicado por Google.

Posterior a la universidad tocaba la vida laboral, ganar experiencia. Big data era algo que sonaba en pocas comunidades, como algo de nicho, por lo tanto, no era un rol como tal solicitado por las empresas o consultoras.

Mi primer empleo fue en mi ciudad natal Arequipa, cuando aún era estudiante de pregrado. Fue de desarrollador web que realizaba todas las funciones desde la base de datos, hasta el diseño del frontend, lo que bien podría ser un full stack en aquellos tiempos.

Become a member Cuando egresé me mudé a la ciudad de Lima, empecé a trabajar de Business Analytics, sobre todo era desarrollo de dashboards con Qlik view, Tableau y pequeños ETL de fuentes como csv, xls, SAP, sql server, entre otros. Tambien realicé investigaciones para desarrollar pequeños modelos predictivos me topé nuevamente con Hadoop y un frameworks que prometía ser x100 veces más rápido que Hadoop (Map Reduce) llamado Apache Spark. Poco a poco fui investigando sobre más temas de Big data, conociendo los distintos roles como Data Engineer, Data Science, Data Architect.

Pasé por otros trabajos con rol de Analista de Base de Datos, viendo Oracle por más de un año, solo SQL o en su defecto PLSQ, pero manteniendo el sueño de entrar al mundo del Big Data como Data Engineer. Uno de los problemas cuando trabajas con una sola tecnología es que empiezas a desconectarte del resto de tecnologías y de su evolución. Es importante seguir estudiando para seguir al corriente de estos cambios y tratar de realizar proyectos personales.

Otra de las dificultades es cuando la mayoría de trabajos solicitan cierto tiempo de experiencia ¿ahora dónde obtener esa experiencia? Pasaba el tiempo, pero el sueño seguía presente, lleve cursos de preparación de Big Data, infraestructura Hadoop, etc. Para poner todo en juego llevé una maestría en Big Data y Data Science a distancia en una universidad de España. Paralelamente trataba de asistir a varios workshops e iba conociendo personas que agregaba a LinkedIn, así fui ampliando mi red de contactos. Casualmente conocí a un colaborador de la misma consultora en la que trabajaba quien era líder de un proyecto de Big Data, le conté mis ganas de ser Data Engineer y mi disposición por aprender. Afortunadamente estaban iniciando el programa de trainee en el cual me invitaron a participar y así fue como inicié en este apasionante mundo del Big Data.

Press enter or click to view image in full size

Photo by Campaign Creators on Unsplash Mi primer proyecto fue para el Banco de crédito del Perú (BCP) formando parte del equipo de Data Lake, participando de la ingesta de datos.

Posterior a BCP, pasé a integrar el equipo de Arquitectura Digital para proyecto Telefónica del Perú, el cual estuvo orientado a una arquitectura Fast Data (stream de datos). Debo decir que trabajar con datos en un flujo continuo es un gran reto y divertido. En este proyecto pude ver varias tecnologías como Spark, Hadoop, Kafka, Nifi, Azure, Elasticsearch, Kibana y Hortonworks

Luego integrando el equipo de Internet para Todos (IPT) el cual es 100% cloud. En este nuevo reto empecé a enfocar mis habilidades de Data Engineer en cloud y seguir viendo escenarios de real time, en este caso desarrollando pipelines de datos en Apache Flink con ventanas de tiempo e integrarlo con los distintos servicios de Google Cloud. En este proyecto pude ver herramientas y servicios como Apache Flink, Apache Nifi, Apache Kafka, Apache Superset Google Cloud, Big Query, Composer, Pub-sub, Cloud Functions entre otros.

Otra de mis pasiones es difundir el conocimiento, ayudar aquellas personas que recién están ingresando en este mundo, sé lo difícil que es al inicio y tener una guía es muy importante. Empecé a formar pequeñas comunidades, grupos de estudio, grupos de conocimiento basados en pruebas de concepto (POC), mentoría y todo tipo de oportunidad que se presente.

No quisiera terminar sin antes decir que cada reto es una nueva oportunidad por aprender cosas nuevas y mejorar nuestras habilidades.

Desde mi experiencia puedo decir que nunca debemos perder esas ganas por aprender, experimentar, ponernos retos y arriesgarnos a salir de la zona de confort.