Nombre del podcast: Big Data e Inteligencia Artificial
Nombre del episodio: 53. El Big Data de Uber
Duración: 15 minutos
El podcast «Big Data e Inteligencia Artificial» aborda en su episodio 53 la evolución del manejo de datos en Uber, desde sus inicios hasta la actualidad. Los puntos principales son:
Inicios de Uber (2009):
- Uso de bases de datos transaccionales clásicas (MySQL, PostgreSQL)
- Datos almacenados en tablas separadas
- Consultas SQL personalizadas
- Manejo de algunos terabytes de datos
Primer almacén de datos (2014):
- Objetivo: agregar todos los datos en un mismo lugar
- Uso de Vertica como almacén de datos
- Desarrollo de canalizaciones ETL (Extracción, Transformación, Carga)
- Interfaz SQL sencilla para acceso a datos
Limitaciones del primer almacén:
- Problemas de fiabilidad y calidad de datos
- Dificultad para introducir nuevas fuentes de datos
- Altos costes de escalamiento
- Necesidad de borrar datos antiguos para liberar espacio
Transición al ecosistema Hadoop (2015):
- Implementación de un lago de datos Hadoop
- Uso de herramientas de código abierto: Presto, Apache Spark, Apache Hive
- Reducción de costes
- Uso de Apache Parquet para compresión de datos
- Manejo de 10 petabytes de datos
Limitaciones de la arquitectura Hadoop:
- Alta latencia (24 horas) para acceso a nuevos datos
- Ineficiencias con HDFS al manejar muchos archivos pequeños
Mejoras y desarrollos propios:
- Desarrollo de la librería Hoodie (luego Apache Hudi)
- Contribuciones a la comunidad de código abierto
Situación actual y futuro
- Acuerdo con Google Cloud para migrar toda la infraestructura
- Motivación: problemas de suministro durante la pandemia de COVID-19
- Enfoque en mejorar y diferenciar el producto, dejando la gestión de infraestructura a Google
Palabras clave: Uber, Big Data, Machine Learning, almacén de datos, Vertica, ETL, SQL, Hadoop, lago de datos, Presto, Apache Spark, Apache Hive, Apache Parquet, HDFS, Hoodie, Apache Hudi, código abierto, Google Cloud, infraestructura, escalabilidad, latencia, compresión de datos, migración a la nube.