El machine learning se centra en aplicaciones que aprenden de la experiencia y mejoran su toma de decisiones o su precisión predictiva a lo largo del tiempo.
¿Qué es el machine learning?
El machine learning es una rama de la inteligencia artificial (IA) centrada en la creación de aplicaciones que aprenden de los datos y mejoran su precisión con el tiempo sin estar programadas para hacerlo.
En ciencia de datos, un algoritmo es una secuencia de pasos de procesamiento estadístico.
Los algoritmos están ‘entrenados’ para encontrar patrones y características en cantidades masivas de datos con el fin de tomar decisiones y predicciones basadas en datos nuevos. Cuanto mejor sea el algoritmo, más precisas serán las decisiones y predicciones a medida que procesa más datos.
Hoy en día, nos rodean ejemplos de machine learning. Los asistentes digitales buscan en la web y reproducen música en respuesta a nuestros comandos de voz. Los sitios web recomiendan productos, películas y canciones en función de lo que compramos, vimos o escuchamos antes. Los robots aspiran nuestros pisos mientras lo hacemos. . . algo mejor con nuestro tiempo. Los detectores de spam evitan que los correos electrónicos no deseados lleguen a nuestras bandejas de entrada. Los sistemas de análisis de imágenes médicas ayudan a los médicos a detectar tumores que podrían haber pasado por alto. Y los primeros coches autónomos están saliendo a la carretera.
Podemos esperar más. A medida que los macrodatos siguen creciendo, la informática se vuelve más poderosa y asequible, y los científicos de datos siguen desarrollando algoritmos más capaces, el aprendizaje automático impulsará una eficiencia cada vez mayor en nuestra vida personal y laboral.
¿Cómo funciona el machine learning?
Hay cuatro pasos básicos para crear una aplicación (o modelo) de machine learning. Por lo general, estos los realizan científicos de datos que trabajan en estrecha colaboración con los profesionales de negocios para quienes se está desarrollando el modelo.
Paso 1: Seleccione y prepare un conjunto de datos de entrenamiento
Los datos de entrenamiento son un conjunto de datos representativos de los datos que el modelo de machine learning ingiere para resolver el problema para el que está diseñado. En algunos casos, los datos de entrenamiento se etiquetan como datos, “etiquetados” para destacar las características y clasificaciones que el modelo deberá identificar. Otros datos no están etiquetados y el modelo deberá extraer esas características y asignar clasificaciones por sí solo.
En cualquier caso, los datos de capacitación deben prepararse adecuadamente: aleatorizados, deducidos y verificados en busca de desequilibrios o sesgos que puedan afectar la capacitación. También debe dividirse en dos subconjuntos: el subconjunto de entrenamiento, que se usará para entrenar la aplicación, y el subconjunto de evaluación, que se usa para probarlo y refinarlo.
Paso 2: Elija un algoritmo para ejecutar en el conjunto de datos de entrenamiento
Una vez más, un algoritmo es un conjunto de pasos de procesamiento estadístico. El tipo de algoritmo depende del tipo (etiquetado o no etiquetado) y la cantidad de datos en el conjunto de datos de entrenamiento y del tipo de problema a resolver.
Los tipos comunes de algoritmos de machine learning para usar con datos etiquetados son los siguientes:
- Algoritmos de regresión: la regresión lineal y logística son ejemplos de algoritmos de regresión que se utilizan para comprender las relaciones en los datos. La regresión lineal se utiliza para predecir el valor de una variable dependiente en función del valor de una variable independiente. La regresión logística se puede utilizar cuando la variable dependiente es de naturaleza binaria: A o B. Por ejemplo, se podría entrenar un algoritmo de regresión lineal para predecir las ventas anuales de un vendedor (la variable dependiente) en función de su relación con la educación del vendedor o los años de experiencia. experiencia (las variables independientes). Otro tipo de algoritmo de regresión llamado máquina de vectores de soporte es útil cuando las variables dependientes son más difíciles de clasificar.
- Árboles de decisión: los árboles de decisión utilizan datos clasificados para hacer recomendaciones basadas en un conjunto de reglas de decisión. Por ejemplo, un árbol de decisiones que recomienda apostar por un caballo en particular para ganar, colocar o mostrar podría usar datos sobre el caballo (por ejemplo, edad, porcentaje de victorias, pedigrí) y aplicar reglas a esos factores para recomendar una acción o decisión.
- Algoritmos basados en instancias: un buen ejemplo de un algoritmo basado en instancias es K-Vecino más cercano o k-nn. Utiliza la clasificación para estimar la probabilidad de que un punto de datos sea miembro de un grupo u otro en función de su proximidad a otros puntos de datos.
Los algoritmos para usar con datos sin etiquetar incluyen los siguientes:
- Algoritmos de agrupación en clústeres: piense en los clústeres como grupos. La agrupación se centra en identificar grupos de registros similares y etiquetar los registros de acuerdo con el grupo al que pertenecen. Esto se hace sin conocimiento previo de los grupos y sus características. Los tipos de algoritmos de agrupación en clústeres incluyen la agrupación en clústeres K-means, TwoStep y Kohonen.
- Algoritmos de asociación: los algoritmos de asociación encuentran patrones y relaciones en los datos e identifican relaciones frecuentes “si-entonces” llamadas reglas de asociación.
Son similares a las reglas utilizadas en la minería de datos.
- Redes neuronales: una red neuronal es un algoritmo que define una red en capas de cálculos con una capa de entrada, donde se ingieren los datos; al menos una capa oculta, donde los cálculos son
Paso 3: entrenar el algoritmo para crear el modelo
El entrenamiento del algoritmo es un proceso iterativo: implica ejecutar variables a través del algoritmo, comparar la salida con los resultados que debería haber producido, ajustar pesos y sesgos dentro del algoritmo que podrían producir un resultado más preciso y ejecutar las variables nuevamente hasta que el algoritmo devuelve el resultado correcto la mayor parte del tiempo. El algoritmo entrenado y preciso resultante es el modelo de machine learning, una distinción importante a tener en cuenta, porque “algoritmo” y “modelo” se utilizan incorrectamente de manera intercambiable, incluso por expertos en aprendizaje automático.
Paso 4: usar y mejorar el modelo
El último paso es utilizar el modelo con nuevos datos y, en el mejor de los casos, mejorar su precisión y eficacia con el tiempo. El origen de los nuevos datos dependerá del problema que se resuelva. Por ejemplo, un modelo de machine learning diseñado para identificar spam ingerirá mensajes de correo electrónico, mientras que un modelo de machine learning que impulsa un robot aspirador ingerirá datos resultantes de la interacción del mundo real con muebles movidos u objetos nuevos en la habitación.
Este articulo puede interesarle Máquinas virtuales: ¿Qué son y cuáles son sus beneficios?