El Big Data de Uber

Nombre del podcast: Big Data e Inteligencia Artificial
Nombre del episodio: 53. El Big Data de Uber
Duración: 15 minutos

El podcast «Big Data e Inteligencia Artificial» aborda en su episodio 53 la evolución del manejo de datos en Uber, desde sus inicios hasta la actualidad. Los puntos principales son:

Inicios de Uber (2009):

  • Uso de bases de datos transaccionales clásicas (MySQL, PostgreSQL)
  • Datos almacenados en tablas separadas
  • Consultas SQL personalizadas
  • Manejo de algunos terabytes de datos

Primer almacén de datos (2014):

  • Objetivo: agregar todos los datos en un mismo lugar
  • Uso de Vertica como almacén de datos
  • Desarrollo de canalizaciones ETL (Extracción, Transformación, Carga)
  • Interfaz SQL sencilla para acceso a datos

Limitaciones del primer almacén:

  • Problemas de fiabilidad y calidad de datos
  • Dificultad para introducir nuevas fuentes de datos
  • Altos costes de escalamiento
  • Necesidad de borrar datos antiguos para liberar espacio

Transición al ecosistema Hadoop (2015):

  • Implementación de un lago de datos Hadoop
  • Uso de herramientas de código abierto: Presto, Apache Spark, Apache Hive
  • Reducción de costes
  • Uso de Apache Parquet para compresión de datos
  • Manejo de 10 petabytes de datos

Limitaciones de la arquitectura Hadoop:

  • Alta latencia (24 horas) para acceso a nuevos datos
  • Ineficiencias con HDFS al manejar muchos archivos pequeños

Mejoras y desarrollos propios:

  • Desarrollo de la librería Hoodie (luego Apache Hudi)
  • Contribuciones a la comunidad de código abierto

Situación actual y futuro

  • Acuerdo con Google Cloud para migrar toda la infraestructura
  • Motivación: problemas de suministro durante la pandemia de COVID-19
  • Enfoque en mejorar y diferenciar el producto, dejando la gestión de infraestructura a Google

Palabras clave: Uber, Big Data, Machine Learning, almacén de datos, Vertica, ETL, SQL, Hadoop, lago de datos, Presto, Apache Spark, Apache Hive, Apache Parquet, HDFS, Hoodie, Apache Hudi, código abierto, Google Cloud, infraestructura, escalabilidad, latencia, compresión de datos, migración a la nube.