딥러닝

🦭 AI&Big Data/DL

딥러닝

계란소년 2025. 3. 5. 19:10

딥러닝과 신경망

머신러닝의 한 분야로, 인공 신경망(ANN)을 기반으로 대량의 데이터를 학습하여 뛰어난 성능을 발휘하는 알고리즘

딥러닝은 여러 층을 통해 점점 더 추상화된 특징을 학습하며, 복잡한 패턴을 인식하고 문제를 해결하는 데 뛰어난 성능을 보인다.

특히 딥러닝은 대규모 데이터와 강력한 계산 능력을 활용하여 모델이 점점 더 강력한 예측 능력을 발휘하도록 한다.

딥러닝 vs 전통적인 머신러닝

전통적인 머신러닝에서는 특징 추출(Feature Engineering)을 사람이 직접 해야 한다.
딥러닝은 자동 특징 학습(Representation Learning)을 통해 데이터를 자동으로 분석하고 중요한 특징을 학습한다.

전통적인 머신러닝 모델은 주로 단일 층에서 주어진 특징을 바탕으로 예측을 수행
딥러닝 모델은 다층 신경망을 사용하여 점점 더 복잡한 패턴을 자동으로 학습

장점, 단점

장점

복잡한 문제 해결: 여러 층을 통해 복잡한 패턴을 학습
자동화된 특징 학습: 사람이 직접 특징을 추출할 필요 없이, 모델이 자동으로 중요한 특징을 학습

단점

데이터 요구량: 딥러닝 모델은 많은 양의 데이터가 필요
시간과 자원: 훈련 과정이 시간이 오래 걸리며, 강력한 하드웨어(GPU)가 필요

인공 신경망(ANN)

개념: 인간의 뇌를 모방한 학습 시스템으로, 여러 개의 뉴런이 연결되어 정보를 처리

뉴런: 노드와 연결로 구성 ( Input -> 처리 -> Output)

각 뉴런은 입력값에 가중치를 곱하고, 그 결과를 활성화 함수를 통해 출력으로 변환

신경망의 기본 구성 요소는 입력층, 은닉층, 출력층으로 이루어져 있으며, 각 층은 이전 층의 출력을 입력으로 받아 처리하고, 그 결과를 다음 층으로 전달한다.

기본적인 신경망은 입력층과 출력층만 있을 수 있지만, 은닉을 추가하면 신경망의 정확도가 크게 향상된다. 여러 뉴런들이 서로 다른 입력의 조합을 통해 더 복잡한 패턴을 학습할 수 있게 하고, 이때 모든 연결에 가중치가 부여되는 것은 아니다. 예를 들어, 면적과 도시와의 거리는 가중치를 가질 수 있지만, 침실 수나 부동산 연령은 가중치가 없을 수도 있다. 이처럼 신경망은 변수들 중 중요한 것만 선택하여 계산에 반영한다.

신경망의 층

입력층: 첫 번째 층으로 입력 변수들이 들어감
은닉층: 이 층의 뉴런들이 입력을 처리하고 가중치를 통해 변수의 중요도가 출력에 영향을 미친다.
출력층: 마지막 층으로, 가중치와 활성화된 입력을 바탕으로 예측된 값을 출력

입력 신호 처리: 신호를 흡수한 후 출력 결정
Threshold(임계값): 일정 신호량 초과 시 출력
Computation(계산): 입력값과 가중치의 합산 후 활성화 함수 적용
Summation = x1w1 + x2w2 + ... + xnwn
Threshold보다 크면 1, 작으면 0 출력

신경망 활성화 함수

활성화 함수는 뉴런이 신호를 전달할지 말지를 결정하는 역할

Summation 결과에 따라 출력 결정

임계값 함수 (Threshold Function): 이진 분류에서 사용되며, 입력값이 일정 기준을 넘으면 1, 그렇지 않으면 0을 출력
시그모이드 함수 (Sigmoid Function): 출력값이 0과 1 사이로, 확률을 예측하는 데 유용
정류화 함수 (ReLU, Rectified Linear Unit): 0 이하의 값은 0으로 처리하고, 그 이상의 값은 그대로 출력
하이퍼볼릭 탄젠트 함수 (Tanh): 시그모이드와 유사하지만, 출력값이 -1과 1 사이로 변경

오차 역전파(Backpropagation) 과정에서 활성화 함수의 도함수 값이 여러 번 곱해지면 기울기 소실 문제가 발생할 수 있다.

Sigmoid와 같은 활성화 함수에서 발생하는데, 도함수가 0과 1/4 사이 값을 가지기 때문

그라디언트가 여러 번 곱해질수록 값이 0에 수렴하게 되어, 결국 오차의 기울기(dE/dw)가 0이 되어 가중치 업데이트가 멈추게 된다.

-> ReLU함수 사용

ReLU는 도함수 값이 0 또는 1로 결정되기 때문에, 기울기가 0으로 사라지는 문제가 발생하지 않는다.
즉, 오차가 전달되지 않거나 100% 전달되기 때문에 기울기 소실 문제가 방지
그러나 ReLU도 모든 뉴런의 도함수 값이 0이 되어 기울기 소실이 발생할 수 있으며 -> Leaky ReLU 사용으로 방지

퍼셉트론 구성 요소

연결 강도
입력의 선형 조합
입력의 비선형 변환

인공 뉴런(퍼셉트론) 모으면 -> 인공신경망(ANN)이 된다.

주어진 Perceptron의 출력을 구해보자.

1. 가중합 계산 (Weighted Sum)

각 입력값과 가중치가 주어졌으므로, 가중합을 계산

Summation = x1w1 + x2w2 + ... + xnwn

2. Hard Limit Activation Function 적용

f(x) = 1 (if x>= 0) , 0 (if x < 0)

3. 최종 출력 값

Perceptron의 출력 값 y=f(x)

Multi-Layer Perceptron (MLP)

여러 개의 뉴런을 쌓은 층을 여러 개 연결하여 만든 모델
Fully Connected Layer: 각 뉴런이 다음 층의 모든 뉴런과 연결

경사 하강법 (Gradient Descent)

모델의 가중치를 업데이트하는 최적화 알고리즘

오차 함수(손실 함수)의 기울기를 계산하고, 이를 통해 가중치를 오차가 최소화되는 방향으로 조정한다.

경사하강법을 통해 모델은 반복적으로 가중치를 업데이트하며 점점 더 정확한 예측을 할 수 있도록 학습된다.

1. 배치 경사하강법 (Batch Gradient Descent)

전체 데이터셋을 한 번에 사용하여 기울기를 계산하고, 한 번의 가중치 업데이트를 수행
장점: 전체 데이터셋을 바탕으로 계산하므로 수렴 경로가 안정적이고, 최적해를 찾을 가능성이 높다.
단점: 전체 데이터셋을 메모리에 올려야 하므로 대용량 데이터셋에서 시간이 많이 걸리고, 메모리 부담이 크다.
국소적 최적값(local minimum)에 빠질 수 있는 위험이 있다. 왜냐하면, 배치 경사하강법은 전체 데이터에 대한 평균적인 기울기를 기반으로 업데이트를 하기 때문에, 데이터의 전체적인 경향만 반영 -> 이로 인해 경로가 국소적 최적값에 빠져버릴 수 있다.

2. 확률적 경사하강법 (Stochastic Gradient Descent)

각 데이터 샘플을 하나씩 처리하면서 가중치를 업데이트하는 방식
배치 경사하강법보다 훨씬 빠르게 업데이트
장점: 처리 속도가 빠르고, 각 샘플에 대해 빠르게 가중치를 조정할 수 있어 로컬 최소값을 피하는 데 유리
단점: 경사하강법의 수렴 경로가 불안정할 수 있으며, 너무 많은 업데이트가 이루어져서 수렴 속도가 느려질 수 있다.

3. 미니 배치 경사하강법 (Mini-Batch Gradient Descent)

배치 경사하강법과 확률적 경사하강법의 장점을 결합한 방식
데이터셋을 mini batch로 나누어, 각 배치에 대해 기울기를 계산하고 가중치를 업데이트
장점: 배치 경사하강법의 안정성과 확률적 경사하강법의 빠른 속도를 동시에 얻을 수 있다.
단점: 미니 배치 크기를 선택하는 것이 수렴 성능에 영향을 미칠 수 있으며, 너무 큰 배치는 계산 효율성을 떨어뜨릴 수 있다.

역전파와 Autograd

딥러닝 모델은 역전파 알고리즘을 사용하여 신경망의 가중치를 조정한다.

PyTorch는 Autograd 시스템을 통해 자동 미분을 지원하며, 경사하강법을 쉽게 적용할 수 있도록 한다.

역전파 과정에서는 출력층에서 오차를 계산하고, 이를 역방향으로 전파하여 각 가중치의 기울기를 계산하고, 이를 통해 신경망은 점점 더 정확한 예측을 할 수 있게 된다.

PyTorch와 텐서 연산

딥러닝 모델을 구현, 학습 위한 라이브러리

텐서(Tensor)

텐서: 벡터와 행렬을 일반화한 개념으로, 다차원 배열
랭크(rank): 텐서의 차원 수
Shape: 각 축의 크기를 나타내는 튜플
Type: 텐서의 데이터 타입

CUDA & cuDNN

CUDA: GPU를 통해 병렬 연산을 처리하는 플랫폼
cuDNN: GPU 연산을 최적화하는 라이브러리

import torch

# 텐서 정의 및 기울기 계산
w = torch.tensor(1.0, requires_grad=True)  # 기울기 계산을 위한 텐서
a = w * 3
l = a ** 2

# 역전파(backpropagation)
l.backward()

# 기울기 출력
print(w.grad)  # 기울기 값 18 출력

requires_grad=True로 설정된 텐서는 미분(기울기 계산) 과정을 추적

모델 훈련 및 학습 흐름

데이터셋 준비: 훈련 데이터와 테스트 데이터를 분리
모델 정의: 신경망 모델을 정의
훈련: 경사하강법과 역전파를 통해 모델을 학습
평가: 학습된 모델을 평가하여 성능을 확인
가중치 저장: 학습된 가중치를 저장하고, 나중에 다시 사용

import torch
import torch.nn as nn
import torch.optim as optim

# 간단한 신경망 모델 정의
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(2, 4)
        self.fc2 = nn.Linear(4, 1)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# 모델, 손실 함수, 옵티마이저 설정
model = SimpleNN()
criterion = nn.MSELoss()  # 평균 제곱 오차
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 데이터 예시
x_train = torch.tensor([[1.0, 2.0], [2.0, 3.0], [3.0, 4.0]])
y_train = torch.tensor([[5.0], [7.0], [9.0]])

# 학습 과정
for epoch in range(100):
    optimizer.zero_grad()  # 기울기 초기화
    output = model(x_train)  # 모델 예측
    loss = criterion(output, y_train)  # 오차 계산
    loss.backward()  # 역전파
    optimizer.step()  # 가중치 업데이트

    if epoch % 10 == 0:
        print(f"Epoch [{epoch+1}/100], Loss: {loss.item():.4f}")

평균 제곱 오차를 사용해 예측 값과 실제 값의 차이를 계산하고, 확률적 경사하강법을 사용해 모델을 학습

저작자표시 변경금지 (새창열림)