Aprendizaje no supervisado by Damian Dapueto

Aprendizaje No Supervisado

2022-04-14 01:02:08 UTC

Un ejemplo de aprendizaje no supervisado sería la de segmentar los pacientes que han sido atendidos en urgencias en grupos homogéneos pero sin un conocimiento previo de los grupos que queremos obtener; lo haríamos a partir de estructuras no evidentes subyacentes en los datos.

Algoritmo KMeans – Formas para encontrar el número K de iteración:

2022-04-14 01:03:07 UTC

Algoritmo PCA

2022-04-14 01:04:23 UTC

l análisis de componentes principales (Principal Component Analysis PCA) es un método de reducción de dimensionalidad que permite simplificar la complejidad de espacios con múltiples dimensiones a la vez que conserva su información.

Supóngase que existe una muestra con
nn individuos cada uno con
pp variables (

X
1X1,

X
2X2, ...,

X
pXp), es decir, el espacio muestral tiene
pp dimensiones. PCA permite encontrar un número de factores subyacentes
(zpp variables originales. Donde antes se necesitaban
pp valores para caracterizar a cada individuo, ahora bastan
zz valores. Cada una de estas
zz nuevas variables recibe el nombre de componente principal.

El método de PCA permite por lo tanto "condensar" la información aportada por múltiples variables en solo unas pocas componentes. Aun así, no hay que olvidar que sigue siendo necesario disponer del valor de las variables originales para calcular las componentes. Dos de las principales aplicaciones del PCA son la visualización y el preprocesado de predictores previo ajuste de modelos supervisados.

La librería scikitlearn contiene la clase sklearn.decomposition.PCA que implementa la mayoría de las funcionalidades necesarias para crear y utilizar modelos PCA. Para visualizaciones, Yellowbrick ofrece funcionalidades extra.

Aprendisaje No Supervisado - Algoritmos

boletindharmaprema — 2022-04-14 01:06:21 UTC

USOS COMUNES:
MKT - BIOLOGIA - SEGUROS - DESASTRES NATURALES

Parametricos / No Parametricos

Jerarquicos

Cluster - Agrupamientos
EJemplo de algoritmo de agrupamiento.
Agrupación K-Meedias
El algoritmo K-Means tiene como objetivo encontrar y agrupar en clases los puntos de datos que tienen una alta similitud entre ellos. En los términos del algoritmo, esta similitud se entiende como lo opuesto de la distancia entre puntos de datos. Cuanto más cerca estén los puntos de datos, más similares y con más probabilidades de pertenecer al mismo clúster serán.

Modelos de Mezcla Gaussiana (MMG)
Los Modelos de Mezcla Gaussiana son modelos probabilísticos que asumen que todas las muestras son generadas a partir de una mezcla de un número de finita de distribución gaussiana con parámetros desconocidos.
Pertenece al grupo de algoritmos de agrupamiento blando en el que cada punto de datos pertenecerá a cada grupo existente en el conjunto de datos, pero con diferentes niveles de pertenencia a cada grupo. Esta membresía se asigna como la probabilidad de pertenecer a un determinado grupo, que oscila entre 0 y 1.

Agrupamiento jerárquico: crea una jerarquía multinivel de clústeres mediante la creación de un árbol de clústeres.

Importancia del aprendizaje no supervisado

2022-04-14 01:07:42 UTC

El aprendizaje no supervisado pretende descubrir patrones previamente desconocidos en los datos, pero la mayoría de las veces estos patrones son aproximaciones pobres de lo que puede lograr el aprendizaje supervisado. Por ejemplo, los algoritmos no supervisados segmentarán a los clientes en grupos grandes en lugar de tratarlos como individuos y permitir que las empresas entreguen comunicaciones altamente personalizadas. La definición del aprendizaje no supervisado es que no se sabe cuál será el resultado para un modelo predictivo, lo que significa que el aprendizaje supervisado es más aplicable a contextos del mundo real.

El aprendizaje no supervisado pretende descubrir patrones previamente desconocidos en los datos, pero la mayoría de las veces estos patrones son aproximaciones pobres de lo que puede lograr el aprendizaje supervisado. Por ejemplo, los algoritmos no supervisados segmentarán a los clientes en grupos grandes en lugar de tratarlos como individuos y permitir que las empresas entreguen comunicaciones altamente personalizadas. La definición del aprendizaje no supervisado es que no se sabe cuál será el resultado para un modelo predictivo, lo que significa que el aprendizaje supervisado es más aplicable a contextos del mundo real.

Aprendizaje No Supervisado - Reglas de asociación (Association rules)

2022-04-14 01:08:05 UTC

Se pueden citar los modelos basados en el descubrimiento de reglas de asociación (Association Rules). A lo que también se le conoce como análisis de la cesta de la compra (Market Basket Analysis) ya que surgieron en este entorno. Siendo unos tipos de análisis extremadamente importantes dentro de la minería de datos. En estos análisis se busca identificar reglas las cuales predicen la probabilidad de que se observe un consecuente después de observar un antecedente en un registro. Lo que se suele denotar A => B, donde A es el antecedente y B el consecuente. Pudiendo ser tanto el antecedente como el consecuente un elemento o un conjunto de elementos. Para obtener las reglas se suele partir de una colección de transacciones con diferentes elementos. La importancia de las reglas generalmente se mide en base al soporte, la probabilidad de observar el antecede y consecuente en los registros, y confianza, la probabilidad de observar el consecuente una vez observado el antecedente. Siendo importante notar que el sentido de la regla lo define el valor de la confianza. Algunos de los algoritmos más utilizados para obtener las reglas de asociación son Apriori y Eclat.
apriori y eclat están como ejemplos del modelo

Segmentación de Audiencia

2022-04-14 01:10:08 UTC

Se suele utilizar el aprendizaje no supervisado para crear y descubrir patrones no conocidos en el comportamiento de los clientes de una web, app o comercio. Estos algoritmos pueden descubrir grupos que desconocíamos por completo o agrupar ciertas características que se correlacionan y que nosotros difícilmente lo hubiéramos identificado.

Algoritmo KMeans – Formas para encontrar el número K de iteración:

2022-04-14 01:15:04 UTC

la Densidad con Ruido (DBSCAN)

2022-04-14 01:16:45 UTC

La Agrupación Espacial Basada en Densidad de Aplicaciones con Ruido, o DBSCAN (Density-Based Spatial Clustering of Applications with Noise), es otro algoritmo de agrupación especialmente útil para identificar correctamente el ruido en los datos.

Criterios de Asignación de DBSCAN

Se basa en un número de puntos con un radio especificado ε y hay una etiqueta especial asignada a cada punto de datos. El proceso de asignación de esta etiqueta es el siguiente:

Es un número especificado (MinPts) de puntos vecinos. Se asignará un punto central si existe este número de puntos de los MinPts que caen en el radio ε
Un punto fronterizo caerá en el radio de ε de un punto central, pero tendrá menos vecinos que el número de MinPts.
Todos los demás puntos serán puntos de ruido.

Algoritmo DBSCAN

El algoritmo sigue la lógica:

Identificar un punto central y hacer un grupo para cada uno, o para cada grupo conectado de puntos centrales (si es que establecen que el criterio es el punto central).
Identificar y asignar puntos fronterizos a sus respectivos puntos centrales.

La siguiente figura resume muy bien este proceso y la notación comentada.
DBSCAN vs. K-Means Clustering

Modelo no supervisado

2022-04-14 01:18:14 UTC

https://healthdataminer.com/analitica-en-accion/modelos-no-supervisados-en-salud-clusterizando-celulas/

Algoritmo KMeans – Código Python

2022-04-14 01:18:15 UTC

K-Means con Python paso a paso | Aprende Machine Learning

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sb

from sklearn.cluster import KMeans

from sklearn.metrics import pairwise_distances_argmin_min

%matplotlib inline

from mpl_toolkits.mplot3d import Axes3D

plt.rcParams['figure.figsize'] = (16, 9)

plt.style.use('ggplot')

dataframe = pd.read_csv(r"analisis.csv")

dataframe.head()

dataframe.describe()

print(dataframe.groupby('categoria').size())

dataframe.drop(['categoria'],1).hist()

sb.pairplot(dataframe.dropna(), hue='categoria',size=4,vars=["op","ex","ag"],kind='scatter')

plt.show()

23 | X = np.array(dataframe[["op","ex","ag"]])y = np.array(dataframe['categoria'])X.shape

fig = plt.figure()

ax = Axes3D(fig)

colores=['blue','red','green','blue','cyan','yellow','orange','black','pink','brown','purple']

asignar=[]

for row in y:

asignar.append(colores[row])

ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=asignar,s=60)

Nc = range(1, 20)

kmeans = [KMeans(n_clusters=i) for i in Nc]

kmeans

score = [kmeans[i].fit(X).score(X) for i in range(len(kmeans))]

score

plt.plot(Nc,score)

plt.xlabel('Number of Clusters')

plt.ylabel('Score')

plt.title('Elbow Curve')

plt.show()

kmeans = KMeans(n_clusters=5).fit(X)

centroids = kmeans.cluster_centers_

print(centroids)

# Getting the values and plotting it

Python

1234567 | # Getting the values and plotting itf1 = dataframe['op'].valuesf2 = dataframe['ag'].values plt.scatter(f1, f2, c=asignar, s=70)plt.scatter(C[:, 0], C[:, 2], marker='*', c=colores, s=1000)plt.show()

f1 = dataframe['op'].values

f2 = dataframe['ex'].values

plt.scatter(f1, f2, c=asignar, s=70)

plt.scatter(C[:, 0], C[:, 1], marker='*', c=colores, s=1000)

plt.show()

Python

12345678910111213 | # Predicting the clusterslabels = kmeans.predict(X)# Getting the cluster centersC = kmeans.cluster_centers_colores=['red','green','blue','cyan','yellow']asignar=[]for row in labels: asignar.append(colores[row]) fig = plt.figure()ax = Axes3D(fig)ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=asignar,s=60)ax.scatter(C[:, 0], C[:, 1], C[:, 2], marker='*', c=colores, s=1000)

23456 | f1 = dataframe['ex'].valuesf2 = dataframe['ag'].values plt.scatter(f1, f2, c=asignar, s=70)plt.scatter(C[:, 1], C[:, 2], marker='*', c=colores, s=1000)plt.show()

Python

12345678 | copy = pd.DataFrame()copy['usuario']=dataframe['usuario'].valuescopy['categoria']=dataframe['categoria'].valuescopy['label'] = labels;cantidadGrupo = pd.DataFrame()cantidadGrupo['color']=colorescantidadGrupo['cantidad']=copy.groupby('label').size()cantidadGrupo

Python

1234567 | group_referrer_index = copy['label'] ==0group_referrals = copy[group_referrer_index] diversidadGrupo = pd.DataFrame()diversidadGrupo['categoria']=[0,1,2,3,4,5,6,7,8,9]diversidadGrupo['cantidad']=group_referrals.groupby('categoria').size()diversidadGrupo

#vemos el representante del grupo, el usuario cercano a su centroid

closest, _ = pairwise_distances_argmin_min(kmeans.cluster_centers_, X)

closest

users=dataframe['usuario'].values

for row in closest:

print(users[row])

Python

1234 | X_new = np.array([[45.92,57.74,15.66]]) #davidguetta new_labels = kmeans.predict(X_new)print(new_labels)

Clustering (Agrupamiento), K-Means

2022-04-14 01:22:09 UTC

El clustering consiste en la agrupación automática de datos. Es un tipo de aprendizaje automático no-supervisado. En castellano se denomina agrupamiento. Vamos a ver en más detalle en qué consiste el clustering, el algoritmo de agrupamiento más popular: K-Means y algunos ejemplos en python.

Por ejemplo, se puede utilizar para detectar las posiciones de ciertos jugadores dentro de la cancha.
La idea de este ejercicio es agrupar (clustering) en cuatro grupos (cluster) a los jugadores en función de sus características de juego (portero, defensa, central, delantero). El objetivo será ver si las diferentes agrupaciones que el algoritmo detecta son coherentes con las dinámicas del fútbol.

K-means es un algoritmo de clasificación no supervisada (clusterización) que agrupa objetos en k grupos basándose en sus características. El agrupamiento se realiza minimizando la suma de distancias entre cada objeto y el centroide de su grupo o cluster. Se suele usar la distancia cuadrática.

Lo importante en este caso es detectar la cantidad de K o grupos. Para ello existen dos métodos. Elbow o Sulhuette.

Método del codo (Elbow Method)

Este método utiliza los valores de la inercia obtenidos tras aplicar el K-means a diferente número de Clusters (desde 1 a N Clusters), siendo la inercia la suma de las distancias al cuadrado de cada objeto del Cluster a su centroide:

Isolation Forest o Detección de Anomalías // Sala 4

2022-04-14 01:22:13 UTC

Isolation Forest es un método utilizado para la detección de anomalías fuero de los valores normales del dataset o dataframe.
Dicho método presenta una manera diferente para aislar explícitamente las anomalías utilizando árboles binarios, lo que demuestra una nueva posibilidad de un detector de anomalías más rápido que apunta directamente a las anomalías sin perfilar todas las instancias normales.

En cuanto a las ventajas y aplicaciones, lo mismo habilita la posibilidad de detectar anomalías dentro de dataset de gran tamaño, lo cual resulta dificultoso de manera visual, consumiendo así, menor cantidad de memoria.

Por ejemplo, en el siguiente enlace es posible encontrar un modelo diseña para la detección de anomalías dentro de valores aleatorias. Si bien el mismo se basa en un dataset pequeño, este presenta de manera gráfica y simple los casos en los que se podría utilizar este tipo de métodología.

Link al Dataset:
https://scikit-learn.org/stable/auto_examples/ensemble/plot_isolation_forest.html

Ejemplo de Aplicacion de Algoritmos No Supervisados

2022-04-14 01:23:21 UTC

Un ejemplo es la construccion de Sistemas de Recomendacion. Son esos sitemas que le recomiendan cosas al Usuario segun sus preferencias.

Los sistemas de recomendacion pueden ser:
*Por contenido: Recomienda segun productos similares que le gustan al usuario
*Colaborativo: Recomienda en base a loque otros usuarios similares les gusta

https://www.kaggle.com/code/basu369victor/recommender-system-using-un-supervised-learning/notebook