El Big Data de Uber – VGG Digital

Nombre del podcast: Big Data e Inteligencia Artificial
Nombre del episodio: 53. El Big Data de Uber
Duración: 15 minutos

El podcast «Big Data e Inteligencia Artificial» aborda en su episodio 53 la evolución del manejo de datos en Uber, desde sus inicios hasta la actualidad. Los puntos principales son:

Inicios de Uber (2009):

Uso de bases de datos transaccionales clásicas (MySQL, PostgreSQL)
Datos almacenados en tablas separadas
Consultas SQL personalizadas
Manejo de algunos terabytes de datos

Primer almacén de datos (2014):

Objetivo: agregar todos los datos en un mismo lugar
Uso de Vertica como almacén de datos
Desarrollo de canalizaciones ETL (Extracción, Transformación, Carga)
Interfaz SQL sencilla para acceso a datos

Limitaciones del primer almacén:

Problemas de fiabilidad y calidad de datos
Dificultad para introducir nuevas fuentes de datos
Altos costes de escalamiento
Necesidad de borrar datos antiguos para liberar espacio

Transición al ecosistema Hadoop (2015):

Implementación de un lago de datos Hadoop
Uso de herramientas de código abierto: Presto, Apache Spark, Apache Hive
Reducción de costes
Uso de Apache Parquet para compresión de datos
Manejo de 10 petabytes de datos

Limitaciones de la arquitectura Hadoop:

Alta latencia (24 horas) para acceso a nuevos datos
Ineficiencias con HDFS al manejar muchos archivos pequeños

Mejoras y desarrollos propios:

Desarrollo de la librería Hoodie (luego Apache Hudi)
Contribuciones a la comunidad de código abierto

Situación actual y futuro

Acuerdo con Google Cloud para migrar toda la infraestructura
Motivación: problemas de suministro durante la pandemia de COVID-19
Enfoque en mejorar y diferenciar el producto, dejando la gestión de infraestructura a Google

Palabras clave: Uber, Big Data, Machine Learning, almacén de datos, Vertica, ETL, SQL, Hadoop, lago de datos, Presto, Apache Spark, Apache Hive, Apache Parquet, HDFS, Hoodie, Apache Hudi, código abierto, Google Cloud, infraestructura, escalabilidad, latencia, compresión de datos, migración a la nube.