개념 시간의 흐름에 따라 수집된 데이터로, 특정 시간 간격을 두고 연속적으로 관측된 값을 의미시간에 따른 변화와 패턴을 분석하는 데 중점을 두기 때문에, 예측, 트렌드 분석, 이상 탐지 등에 유용하게 활용 모델전통적인 시계열 분석 모델 AR (Auto-Regressive) 모델: 과거 데이터(자기 회귀)를 기반으로 현재 값을 예측MA (Moving Average) 모델: 과거의 오차(잔차) 값을 기반으로 현재 값을 예측ARMA (Auto-Regressive Moving Average): AR과 MA 모델을 결합한 방식ARIMA (Auto-Regressive Integrated Moving Average) 모델: 비정상 시계열 데이터를 차분하여 안정적으로 만든 후 예측하는 모델SARIMA (Seasonal..
Monday(03.10) 예비군 이슈 ... Tuesday(03.11) https://koreatstm.tistory.com/266 시계열 데이터개념 시간의 흐름에 따라 수집된 데이터로, 특정 시간 간격을 두고 연속적으로 관측된 값을 의미시간에 따른 변화와 패턴을 분석하는 데 중점을 두기 때문에, 예측, 트렌드 분석, 이상 탐지 등koreatstm.tistory.com 오늘 6시부터 프로젝트 준비를 했다.지민이랑 명희랑 셋이 프로젝트 조가 되었고, 재미있는 데이터를 사용해보자 해서, 네이버웹툰 데이터를 가지고 개발을 진행했다.해당 데이터로 뭘 할 수 있을까 고민을 해봤는데, 마땅히 써먹을 수 있는 데이터가 아니다라고 판단해서, 그러면 댓글을 크롤링 해와서 이걸로 개발을 시작해보자 라는 계획을 가졌다. W..
딥러닝과 신경망 머신러닝의 한 분야로, 인공 신경망(ANN)을 기반으로 대량의 데이터를 학습하여 뛰어난 성능을 발휘하는 알고리즘딥러닝은 여러 층을 통해 점점 더 추상화된 특징을 학습하며, 복잡한 패턴을 인식하고 문제를 해결하는 데 뛰어난 성능을 보인다.특히 딥러닝은 대규모 데이터와 강력한 계산 능력을 활용하여 모델이 점점 더 강력한 예측 능력을 발휘하도록 한다. 딥러닝 vs 전통적인 머신러닝 전통적인 머신러닝에서는 특징 추출(Feature Engineering)을 사람이 직접 해야 한다.딥러닝은 자동 특징 학습(Representation Learning)을 통해 데이터를 자동으로 분석하고 중요한 특징을 학습한다. 전통적인 머신러닝 모델은 주로 단일 층에서 주어진 특징을 바탕으로 예측을 수행딥러닝 모델은 ..
비지도 학습이란? 타깃 값을 알 수 없거나 예측할 수 없는 데이터를 학습하는 방법지도 학습과 달리 정답(라벨)이 없으며, 데이터의 패턴을 발견하고 그룹화하는 데 초점을 맞춤ex) 군집, 차원축소 1. 군집 알고리즘 (Clustering) 비슷한 샘플끼리 그룹으로 묶는 과정, 이를 수행하는 알고리즘클러스터: 군집에서 만들어진 각 그룹 K-Means 군집 알고리즘 K-Means는 가장 널리 사용되는 군집 알고리즘으로, K개의 클러스터 중심(센트로이드, Centroid)을 자동으로 찾는 방식K-Means 알고리즘 작동 방식임의로 K개의 클러스터 중심을 지정각 샘플을 가장 가까운 클러스터 중심에 할당클러스터에 속한 샘플들의 평균값을 계산하여 새로운 클러스터 중심을 갱신클러스터 중심이 더 이상 변화하지 않을 때까..
1. 결정 트리 데이터를 트리 구조로 분류하는 지도 학습 알고리즘각 노드에서 특정 기준을 바탕으로 데이터를 분할하고, 최종적으로 각 리프 노드에서 예측 값을 결정 특징해석이 쉬우며 시각적으로 표현 가능과대적합(overfitting)될 가능성이 있음분할 기준에 따라 성능이 달라질 수 있음 사이킷런을 활용한 결정 트리 구현from sklearn.tree import DecisionTreeClassifier# 모델 생성 및 학습dt = DecisionTreeClassifier(max_depth=3, random_state=42)dt.fit(X_train, y_train)# 예측y_pred = dt.predict(X_test) 교차 검증과 검증 세트 교차 검증 모델을 평가할 때 데이터를 여러 번 학습 및 검증하..
1. 로지스틱 회귀 로지스틱 회귀는 이름에서 "회귀"라는 단어가 포함되어 있지만, 실제로는 분류 문제를 해결하는 알고리즘이다.주로 이진 분류에서 사용되며, 예측 값을 0과 1 사이의 확률로 변환하여 결과를 제공선형 방정식을 기반으로 하며, 이 값을 시그모이드 함수를 통해 0과 1 사이의 확률 값으로 변환-> 분류 문제에서 각 클래스에 속할 확률을 계산 작동 원리 입력 데이터를 바탕으로 선형 방정식을 통해 예측값을 계산그러나 이 예측값은 확률이 아니므로, 이를 시그모이드 함수에 통과시켜 0과 1 사이의 확률로 변환한다.이진 분류에서 확률값이 0.5보다 크면 양성 클래스, 작으면 음성 클래스로 예측from sklearn.linear_model import LogisticRegression# 모델 생성lr ..
Monday(03.03) 오늘은 대체공휴일이라, 집에서 redis 공부를 했다.https://koreatstm.tistory.com/257 Tuesday(03.04)https://koreatstm.tistory.com/259 Wednesday(03.05)https://koreatstm.tistory.com/260https://koreatstm.tistory.com/262 Thursday(03.06)https://koreatstm.tistory.com/264 Friday(03.07) 원-핫 인코딩 범주형 데이터를 머신러닝 모델이 이해할 수 있는 숫자 형태로 변환하기 위해서 사용머신러닝 모델은 숫자 데이터를 다룬다.대부분의 머신러닝 알고리즘(특히 거리 기반 알고리즘, 예: K-Means, KNN 등)은 숫자..
Redis는 대용량 트래픽을 처리해야 하는 웹 애플리케이션에서 필수적인 도구로 사용된다. 앞으로 할 프로젝트에서 필요할 것 같아 공부를 하기로 했다. Redis란?빠르고 효율적인 데이터 처리의 핵심Redis는 매우 빠른 성능을 자랑하는 NoSQL 데이터베이스로, 데이터를 메모리(RAM)에 저장하여 처리 속도가 뛰어난 시스템MySQL과 같은 전통적인 RDBMS는 데이터를 디스크에 저장하는 방식이기 때문에 상대적으로 데이터 처리 속도가 느리지만, Redis는 데이터를 메모리에서 직접 처리함으로써 훨씬 빠른 속도를 제공한다.장점인메모리 데이터 처리: Redis는 데이터를 메모리에 저장하고 처리한다. 따라서 데이터 조회나 수정 속도가 매우 빠르고, 특히 대용량 트래픽을 처리할 때 Redis의 속도가 가장 큰 강..