Nombre del podcast: Big Data e Inteligencia Artificial
Nombre del episodio: 59. ¿Qué es la ingeniería de características?
Duración: 24 minutos
Este episodio del podcast «Big Data e Inteligencia Artificial» se centra en la ingeniería de características, un aspecto crucial del proceso de machine learning. La presentadora, Marta Arroyo, explica que las características son datos transformados en formato numérico para que los modelos de machine learning puedan interpretarlos. La ingeniería de características implica manipular y transformar los datos de manera óptima para representar mejor el problema a resolver.
Se discuten varios tipos de datos y técnicas de transformación, como el escalado de variables numéricas y la codificación de variables categóricas. La presentadora enfatiza la importancia de crear nuevas características basadas en el conocimiento del dominio y la intuición, así como el uso de algoritmos para generar características más complejas.
El episodio también aborda la selección de características para evitar el sobreajuste y mejorar el rendimiento del modelo. Se mencionan brevemente algunas técnicas de selección de características, aunque se sugiere un episodio futuro para profundizar en este tema.
Esquema de puntos principales
- Definición de características en machine learning
- Importancia de la ingeniería de características
- Tipos de datos y transformaciones comunes
a. Variables numéricas: escalado, discretización
b. Variables categóricas: codificación one-hot, codificación ordinal - Creación de nuevas características
a. Basadas en conocimiento del dominio
b. Mediante operaciones matemáticas
c. Cruzando características existentes - Características aprendidas (ej. embeddings)
- Selección de características
a. Importancia para evitar sobreajuste
b. Métodos básicos de selección
Palabras clave: ingeniería de características, machine learning, transformación de datos, escalado, codificación, variables categóricas, variables numéricas, creación de características, selección de características, embeddings, sobreajuste, rendimiento del modelo, conocimiento del dominio, intuición, big data, inteligencia artificial