https://koreatstm.tistory.com/188 쿠버네티스쿠버네티스를 알아보기 앞서, 오케스트레이션과 그에 관련한 개념들을 알아보자!! 기본개념 로드밸런싱개념: 여러 컨테이너에 요청을 분산시켜 부하를 균등하게 배분하는 것방법: 로드밸런싱koreatstm.tistory.com저번에 쿠버네티스의 기본 개념과 구조에 대해서 알아봤다. 이번에는 세부적인 내용을 뜯어보도록 하자 네트워크 연결도커는 컨테이너 내부와 컨테이너 외부의 네트워크가 독립적이다.쿠버네티스는 파드 내부의 네트워크를 공유하기에 같은 파드의 컨테이너는 동일 네트워크를 공유한다.이때, 중요한 것은 파드의 네트워크와 로컬 컴퓨터의 네트워크는 독립적으로 분리된다.따라서, 쿠버네티스로 파드에서 컨테이너(예: flask)를 띄우고 요청 했을 ..
개념 MinIO란? MinIO는 AWS S3와 호환되는 오브젝트 스토리지 시스템으로, 데이터를 저장하고 관리하는 역할 실습 요청사항 data는 minio의 raw-data 버킷에서 가져와서 airflow로 매 시간 정각에 실행되는, 로그는 mlflow에 남는 pipeline dag를 완성dag이름은 00_airflow_mlops.py로 합니다.experiment 이름은 fisa-ml 사고과정 MinIO에서 데이터를 가져와서, 데이터를 처리한 후, MLflow에 로깅하는 데이터 파이프라인을 구축하는 DAG를 만들면 된다. MinIO에서 raw-data 버킷에 있는 data.csv 파일을 가져옴가져온 데이터를 처리하여 통계값(평균)을 계산MLflow에 로그를 기록하여 실험 관리매 시간 정각(0분)마다 실행..
MLOps Machine Learning Operations머신러닝(ML) 모델을 배포, 모니터링, 유지 관리하는 일련의 과정을 의미목표: ML 모델의 개발 생명 주기를 자동화하고 최적화하는 것이 목표필요성워크플로우 자동화: 모델 개발, 학습, 배포, 모니터링 등 전체 파이프라인 자동화안정성: 모델을 프로덕션 환경에 안정적으로 배포하고, 지속적인 모니터링을 통해 이상 상황 감지 및 대응확장성: 데이터와 트래픽에 맞게 인프라 확장모니터링: 실시간 성능 지표, 로그, 알림 통해 성능 저하, 오류 모니터링장점빠른 배포: 머신러닝 모델의 배포 과정을 자동화협업 효율성 향상: 데이터 과학자, 개발자, 운영팀의 협업모델 성능 향상: 모니터링&필요 시 업데이트vs DevOps공통점: 둘 다 소프트웨어 개발과 운영을 ..
Monday(03.17) https://koreatstm.tistory.com/268 AirflowMLOps Machine Learning Operations머신러닝(ML) 모델을 배포, 모니터링, 유지 관리하는 일련의 과정을 의미목표: ML 모델의 개발 생명 주기를 자동화하고 최적화하는 것이 목표필요성워크플로우 자동화:koreatstm.tistory.com Tuesday(03.18)수업 AirFlow 실습https://koreatstm.tistory.com/268#%EC%8B%A4%EC%8A%B5-1 특강 입사지원서류 작성 가이드 1. 입사지원서류란?입사지원서는 내가 어떤 사람인지 보여주는 중요한 도구, 면접 기회를 얻는 첫 번째 관문나의 강점과 경험을 효과적으로 보여주어야 한다. 2. 지원서 작성 ..
개념 시간의 흐름에 따라 수집된 데이터로, 특정 시간 간격을 두고 연속적으로 관측된 값을 의미시간에 따른 변화와 패턴을 분석하는 데 중점을 두기 때문에, 예측, 트렌드 분석, 이상 탐지 등에 유용하게 활용 모델전통적인 시계열 분석 모델 AR (Auto-Regressive) 모델: 과거 데이터(자기 회귀)를 기반으로 현재 값을 예측MA (Moving Average) 모델: 과거의 오차(잔차) 값을 기반으로 현재 값을 예측ARMA (Auto-Regressive Moving Average): AR과 MA 모델을 결합한 방식ARIMA (Auto-Regressive Integrated Moving Average) 모델: 비정상 시계열 데이터를 차분하여 안정적으로 만든 후 예측하는 모델SARIMA (Seasonal..
Monday(03.10) 예비군 이슈 ... Tuesday(03.11) https://koreatstm.tistory.com/266 시계열 데이터개념 시간의 흐름에 따라 수집된 데이터로, 특정 시간 간격을 두고 연속적으로 관측된 값을 의미시간에 따른 변화와 패턴을 분석하는 데 중점을 두기 때문에, 예측, 트렌드 분석, 이상 탐지 등koreatstm.tistory.com 오늘 6시부터 프로젝트 준비를 했다.지민이랑 명희랑 셋이 프로젝트 조가 되었고, 재미있는 데이터를 사용해보자 해서, 네이버웹툰 데이터를 가지고 개발을 진행했다.해당 데이터로 뭘 할 수 있을까 고민을 해봤는데, 마땅히 써먹을 수 있는 데이터가 아니다라고 판단해서, 그러면 댓글을 크롤링 해와서 이걸로 개발을 시작해보자 라는 계획을 가졌다. W..
딥러닝과 신경망 머신러닝의 한 분야로, 인공 신경망(ANN)을 기반으로 대량의 데이터를 학습하여 뛰어난 성능을 발휘하는 알고리즘딥러닝은 여러 층을 통해 점점 더 추상화된 특징을 학습하며, 복잡한 패턴을 인식하고 문제를 해결하는 데 뛰어난 성능을 보인다.특히 딥러닝은 대규모 데이터와 강력한 계산 능력을 활용하여 모델이 점점 더 강력한 예측 능력을 발휘하도록 한다. 딥러닝 vs 전통적인 머신러닝 전통적인 머신러닝에서는 특징 추출(Feature Engineering)을 사람이 직접 해야 한다.딥러닝은 자동 특징 학습(Representation Learning)을 통해 데이터를 자동으로 분석하고 중요한 특징을 학습한다. 전통적인 머신러닝 모델은 주로 단일 층에서 주어진 특징을 바탕으로 예측을 수행딥러닝 모델은 ..
비지도 학습이란? 타깃 값을 알 수 없거나 예측할 수 없는 데이터를 학습하는 방법지도 학습과 달리 정답(라벨)이 없으며, 데이터의 패턴을 발견하고 그룹화하는 데 초점을 맞춤ex) 군집, 차원축소 1. 군집 알고리즘 (Clustering) 비슷한 샘플끼리 그룹으로 묶는 과정, 이를 수행하는 알고리즘클러스터: 군집에서 만들어진 각 그룹 K-Means 군집 알고리즘 K-Means는 가장 널리 사용되는 군집 알고리즘으로, K개의 클러스터 중심(센트로이드, Centroid)을 자동으로 찾는 방식K-Means 알고리즘 작동 방식임의로 K개의 클러스터 중심을 지정각 샘플을 가장 가까운 클러스터 중심에 할당클러스터에 속한 샘플들의 평균값을 계산하여 새로운 클러스터 중심을 갱신클러스터 중심이 더 이상 변화하지 않을 때까..