'🦭 AI&Big Data/ML' 카테고리의 글 목록

2025.03.19· 🦭 AI&Big Data/ML

개념 MinIO란? MinIO는 AWS S3와 호환되는 오브젝트 스토리지 시스템으로, 데이터를 저장하고 관리하는 역할 실습 요청사항 data는 minio의 raw-data 버킷에서 가져와서 airflow로 매 시간 정각에 실행되는, 로그는 mlflow에 남는 pipeline dag를 완성dag이름은 00_airflow_mlops.py로 합니다.experiment 이름은 fisa-ml 사고과정 MinIO에서 데이터를 가져와서, 데이터를 처리한 후, MLflow에 로깅하는 데이터 파이프라인을 구축하는 DAG를 만들면 된다. MinIO에서 raw-data 버킷에 있는 data.csv 파일을 가져옴가져온 데이터를 처리하여 통계값(평균)을 계산MLflow에 로그를 기록하여 실험 관리매 시간 정각(0분)마다 실행..

비지도학습

2025.03.05· 🦭 AI&Big Data/ML

비지도 학습이란? 타깃 값을 알 수 없거나 예측할 수 없는 데이터를 학습하는 방법지도 학습과 달리 정답(라벨)이 없으며, 데이터의 패턴을 발견하고 그룹화하는 데 초점을 맞춤ex) 군집, 차원축소 1. 군집 알고리즘 (Clustering) 비슷한 샘플끼리 그룹으로 묶는 과정, 이를 수행하는 알고리즘클러스터: 군집에서 만들어진 각 그룹 K-Means 군집 알고리즘 K-Means는 가장 널리 사용되는 군집 알고리즘으로, K개의 클러스터 중심(센트로이드, Centroid)을 자동으로 찾는 방식K-Means 알고리즘 작동 방식임의로 K개의 클러스터 중심을 지정각 샘플을 가장 가까운 클러스터 중심에 할당클러스터에 속한 샘플들의 평균값을 계산하여 새로운 클러스터 중심을 갱신클러스터 중심이 더 이상 변화하지 않을 때까..

결정 트리 & 앙상블

2025.03.05· 🦭 AI&Big Data/ML

1. 결정 트리 데이터를 트리 구조로 분류하는 지도 학습 알고리즘각 노드에서 특정 기준을 바탕으로 데이터를 분할하고, 최종적으로 각 리프 노드에서 예측 값을 결정 특징해석이 쉬우며 시각적으로 표현 가능과대적합(overfitting)될 가능성이 있음분할 기준에 따라 성능이 달라질 수 있음 사이킷런을 활용한 결정 트리 구현from sklearn.tree import DecisionTreeClassifier# 모델 생성 및 학습dt = DecisionTreeClassifier(max_depth=3, random_state=42)dt.fit(X_train, y_train)# 예측y_pred = dt.predict(X_test) 교차 검증과 검증 세트 교차 검증 모델을 평가할 때 데이터를 여러 번 학습 및 검증하..

로지스틱 회귀

2025.03.05· 🦭 AI&Big Data/ML

1. 로지스틱 회귀 로지스틱 회귀는 이름에서 "회귀"라는 단어가 포함되어 있지만, 실제로는 분류 문제를 해결하는 알고리즘이다.주로 이진 분류에서 사용되며, 예측 값을 0과 1 사이의 확률로 변환하여 결과를 제공선형 방정식을 기반으로 하며, 이 값을 시그모이드 함수를 통해 0과 1 사이의 확률 값으로 변환-> 분류 문제에서 각 클래스에 속할 확률을 계산 작동 원리 입력 데이터를 바탕으로 선형 방정식을 통해 예측값을 계산그러나 이 예측값은 확률이 아니므로, 이를 시그모이드 함수에 통과시켜 0과 1 사이의 확률로 변환한다.이진 분류에서 확률값이 0.5보다 크면 양성 클래스, 작으면 음성 클래스로 예측from sklearn.linear_model import LogisticRegression# 모델 생성lr ..

회귀

2025.02.28· 🦭 AI&Big Data/ML

회귀KNN 회귀는 가장 가까운 k개의 이웃을 찾아 예측값을 계산하는 방법이다.하지만 멀리 있는 이웃들이 예측에 영향을 미치면 정확도가 떨어질 수 있다. 이런 문제를 해결하려면 회귀 모델을 사용한다.모델 파라미터는 모델이 학습을 통해 자동으로 조정되는 값하이퍼파라미터는 모델 학습 전에 사용자가 설정하는 값회귀회귀는 연속적인 타깃 변수와 설명 변수(특성) 사이의 관계를 모델링하는 기법. 주로 예측 문제에서 사용되며, 선형 회귀는 가장 기본적인 형태로, 두 변수 간의 관계를 직선(또는 고차원에서는 초평면)으로 나타낸다. K-최근접 이웃 회귀 회귀 문제에 KNN 알고리즘을 적용한 것회귀는 연속적인 값을 예측하는 문제로, 분류 문제와 달리 예측하려는 값이 여러 클래스 중 하나가 아니라 실수 값ex) 경제 성장률 ..

K 최근접 이웃

2025.02.27· 🦭 AI&Big Data/ML

머신러닝특성(Feature): 데이터를 설명하는 다양한 요소들을 특성이라고 한다.예를 들어, 집 가격 예측에서는 면적, 방 개수, 위치 등이 특성이 될 수 있다. 분류 문제와 이진 분류머신러닝 문제 중 하나는 분류(Classification) 문제여러 개의 클래스 중에서 하나를 선택하는 문제예를 들어, 이메일이 스팸인지 스팸 아님인지 구분하는 문제는 이진 분류(Binary Classification)에 해당이진 분류: 두 개의 클래스 중 하나를 고르는 문제 (예: 이메일이 스팸인지 아닌지)다중 클래스 분류: 여러 개의 클래스 중 하나를 고르는 문제 (예: 동물 종류를 고르는 문제) 훈련(Training)과 예측(Prediction)훈련(Training): 머신러닝 모델에 데이터를 제공하여 모델이 데이터를..

인공지능

2025.02.27· 🦭 AI&Big Data/ML

인공지능이란?사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술기본적으로 인간의 지능을 모방하려는 시도에서 시작됨우리가 하는 다양한 작업들을 컴퓨터가 할 수 있도록 하여, 일상 생활의 효율성을 높이고 있다. 강인공지능 vs 약인공지능강인공지능(AGI, Artificial General Intelligence)인간과 유사한 수준의 지능을 가진 컴퓨터 시스템다양한 문제를 스스로 해결할 수 있으며, 스스로 학습하고 추론할 수 있는 능력을 가진다.현재는 연구 단계에 있으며, 실현되지는 않았다.약인공지능(ANI, Artificial Narrow Intelligence)특정 문제를 해결하는 데 특화된 AI. 현재 우리가 사용하는 대부분의 AI 시스템은 이 범주에 속한다.예를 들어, 음성 인식..

티스토리툴바