K 최근접 이웃

🦭 AI&Big Data/ML

K 최근접 이웃

계란소년 2025. 2. 27. 15:23

머신러닝

특성(Feature): 데이터를 설명하는 다양한 요소들을 특성이라고 한다.
예를 들어, 집 가격 예측에서는 면적, 방 개수, 위치 등이 특성이 될 수 있다.

분류 문제와 이진 분류

머신러닝 문제 중 하나는 분류(Classification) 문제

여러 개의 클래스 중에서 하나를 선택하는 문제

예를 들어, 이메일이 스팸인지 스팸 아님인지 구분하는 문제는 이진 분류(Binary Classification)에 해당

이진 분류: 두 개의 클래스 중 하나를 고르는 문제 (예: 이메일이 스팸인지 아닌지)
다중 클래스 분류: 여러 개의 클래스 중 하나를 고르는 문제 (예: 동물 종류를 고르는 문제)

훈련(Training)과 예측(Prediction)

훈련(Training): 머신러닝 모델에 데이터를 제공하여 모델이 데이터를 학습하고, 규칙을 찾아내는 과정
예측(Prediction): 훈련된 모델을 사용하여 새로운 데이터에 대해 결과를 예측하는 과정

K-최근접 이웃(K-Nearest Neighbors, KNN)

K-최근접 이웃(KNN) 알고리즘은 주변 데이터와의 거리를 측정하여 예측을 하는 방법

훈련 과정을 따로 거치지 않고, 데이터를 메모리에 저장한 뒤, 예측 시 주변 데이터를 참고한다.

훈련: 실제로 규칙을 학습하는 과정은 없으며, 모든 데이터를 메모리에 저장
예측: 예측하고자 하는 데이터와 가장 가까운 K개의 데이터를 찾아, 이들의 다수결로 예측 결과를 결정
특징
- 직선 거리(Euclidean distance) 또는 맨해튼 거리(Manhattan distance)를 사용하여 데이터를 비교한다.
- 예를 들어, 데이터 A의 K개의 최근접 이웃을 살펴보고, 그들의 분류가 무엇인지 다수결로 예측한다.
- K값을 자유롭게 설정할 수 있으며, 주로 홀수 값을 사용하여 다수결이 유효하게 된다.

장점
- 구현이 간단하고 직관적임
- 훈련 과정이 필요 없으므로 데이터 학습 시간이 짧다.
단점
- 데이터가 많을 경우 계산 시간이 많이 걸리고, 메모리가 많이 소모됨
- 새로운 데이터에 대해 예측할 때 전체 데이터와 비교해야 하기 때문에 시간이 오래 걸릴 수 있다.

사이킷런에서 KNN 사용하기

사이킷런 라이브러리에서 KNN을 구현하는 방법은 매우 간단하다.

KNeighborsClassifier() 클래스를 사용하여 KNN 모델을 생성하고, 데이터를 훈련시킨다.

주요 메서드

fit(): 주어진 데이터로 모델을 훈련
model.fit(X_train, y_train)
predict(): 훈련된 모델을 사용하여 예측
predictions = model.predict(X_test)
score(): 모델의 성능을 측정
accuracy = model.score(X_test, y_test)

from sklearn.neighbors import KNeighborsClassifier

# KNN 모델 생성 (이웃의 수는 3으로 설정)
model = KNeighborsClassifier(n_neighbors=3)

# 훈련 데이터로 모델 학습
model.fit(X_train, y_train)

# 테스트 데이터로 예측
predictions = model.predict(X_test)

# 모델 성능 평가
accuracy = model.score(X_test, y_test)
print(f"Accuracy: {accuracy * 100:.2f}%")

KNN 주요 매개변수

n_neighbors: 사용할 이웃의 수(K 값)
metric: 거리 계산 방법 (1: 맨허튼거리, 2: 유클리디안 거리)
weights: 이웃의 중요도를 설정 (예: uniform: 모든 이웃 동일 가중치, distance: 가까운 이웃에 더 많은 가중치)

저작자표시 변경금지 (새창열림)