k-NN (k-vecino más cercano): descripción general, ejemplo simple

Contenido de este artículo

1 Knn: Pasos
2 1. Toma un conjunto de datos con categorías conocidas
3 2. Agrupe los datos
4 3. Agrega una celda con una categoría desconocida
5 4. Encuentra la «k»
6 5. Localiza los “k” vecinos más cercanos
7 6. Clasifica el nuevo punto
8 Redactor del artículo
9 ¿Te hemos ayudado?

Puedes opinar sobre este contenido:

Actualizado el 6 de diciembre de 2021, por Luis Benites.

K-nn (k-Nearest Neighbor) es una técnica de clasificación y regresión no paramétrica . La idea básica es que ingrese un conjunto de datos conocido, agregue un desconocido y el algoritmo le dirá a qué clase pertenece ese punto de datos desconocido. La incógnita se clasifica por simple votación vecinal, donde “gana” la clase de vecinos cercanos. Su uso más popular es para la toma de decisiones predictivas. Por ejemplo:

¿Un cliente incumplirá un préstamo o no?
¿El negocio va a generar ganancias?
¿Deberíamos expandirnos a un determinado segmento del mercado?

El siguiente ejemplo simple muestra cómo funciona k-nn.

Knn: Pasos

1. Toma un conjunto de datos con categorías conocidas

En este paso inicial, solo está recopilando los datos sin clasificar y sin procesar. En este ejemplo, los datos están claramente categorizados con liebres y tortugas.

2. Agrupe los datos

Tienes algunas opciones en este paso; Cómo agrupa los datos depende de usted. (por ejemplo, con PCA u otro método de agrupación ).

3. Agrega una celda con una categoría desconocida

4. Encuentra la «k»

Tal vez el paso más desafiante es encontrar un k que sea «perfecto». La raíz cuadrada de n (la cantidad de elementos en el conjunto de datos) es un lugar fácil para comenzar.

√(n)
= √(8)
= 2,82
= ≅ 3

Aunque la raíz cuadrada de n es simple, no es el método más preciso. Idealmente, debería usar un conjunto de entrenamiento (es decir, un conjunto bien categorizado) para encontrar una «k» que funcione para sus datos. Elimine algunos puntos de datos categorizados y conviértalos en «desconocidos», probando algunos valores de k para ver qué funciona. Un método de codo puede funcionar bien, donde encuentra un k óptimo basado en las tasas de error más bajas. Para obtener una breve descripción del método del codo, consulte: Determinación del número de grupos en una imagen .

5. Localiza los “k” vecinos más cercanos

Para este ejemplo, solo usé el visual para ubicar a los vecinos más cercanos.

6. Clasifica el nuevo punto

El nuevo punto se clasifica por mayoría de votos. Si la mayoría de tus vecinos son tortugas, lo más probable es que tú también seas una tortuga. En este caso, dos de cada tres vecinos del desconocido son liebres, por lo que el nuevo punto se clasifica como liebre.

Ver también: agrupamiento K-nn explicado en una imagen .

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Equipo de Statologos

Luis Benites

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Director de Statologos.com
Dereck Amesquita

I am a Bachelor of Science in Economics gratuaded from the National University of San Agustin. I have experience in Python, R and other languages, I also have knowledge of statistics and econometrics. If you need help on some issues you can write to me.
Statistics content writer
Cisco Pfoccori

15 años haciendo SEO, monetizando, haciendo nichos y ayudando a empresas a mejoras sus estrategia digital. Pueden contactarme si necesitan mejorar su digitalización, actualmente trabajo para CirculoSEO.
Editor de contenido y SEO