๊ฐ๋
MinIO๋? MinIO๋ AWS S3์ ํธํ๋๋ ์ค๋ธ์ ํธ ์คํ ๋ฆฌ์ง ์์คํ
์ผ๋ก, ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ๊ด๋ฆฌํ๋ ์ญํ ์ค์ต ์์ฒญ์ฌํญ data๋ minio์ raw-data ๋ฒํท์์ ๊ฐ์ ธ์์ airflow๋ก ๋งค ์๊ฐ ์ ๊ฐ์ ์คํ๋๋, ๋ก๊ทธ๋ mlflow์ ๋จ๋ pipeline dag๋ฅผ ์์ฑdag์ด๋ฆ์ 00_airflow_mlops.py๋ก ํฉ๋๋ค.experiment ์ด๋ฆ์ fisa-ml ์ฌ๊ณ ๊ณผ์ MinIO์์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์์, ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ํ, MLflow์ ๋ก๊น
ํ๋ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๋ DAG๋ฅผ ๋ง๋ค๋ฉด ๋๋ค. MinIO์์ raw-data ๋ฒํท์ ์๋ data.csv ํ์ผ์ ๊ฐ์ ธ์ด๊ฐ์ ธ์จ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ์ฌ ํต๊ณ๊ฐ(ํ๊ท )์ ๊ณ์ฐMLflow์ ๋ก๊ทธ๋ฅผ ๊ธฐ๋กํ์ฌ ์คํ ๊ด๋ฆฌ๋งค ์๊ฐ ์ ๊ฐ(0๋ถ)๋ง๋ค ์คํ..
MLOps Machine Learning Operations๋จธ์ ๋ฌ๋(ML) ๋ชจ๋ธ์ ๋ฐฐํฌ, ๋ชจ๋ํฐ๋ง, ์ ์ง ๊ด๋ฆฌํ๋ ์ผ๋ จ์ ๊ณผ์ ์ ์๋ฏธ๋ชฉํ: ML ๋ชจ๋ธ์ ๊ฐ๋ฐ ์๋ช
์ฃผ๊ธฐ๋ฅผ ์๋ํํ๊ณ ์ต์ ํํ๋ ๊ฒ์ด ๋ชฉํํ์์ฑ์ํฌํ๋ก์ฐ ์๋ํ: ๋ชจ๋ธ ๊ฐ๋ฐ, ํ์ต, ๋ฐฐํฌ, ๋ชจ๋ํฐ๋ง ๋ฑ ์ ์ฒด ํ์ดํ๋ผ์ธ ์๋ํ์์ ์ฑ: ๋ชจ๋ธ์ ํ๋ก๋์
ํ๊ฒฝ์ ์์ ์ ์ผ๋ก ๋ฐฐํฌํ๊ณ , ์ง์์ ์ธ ๋ชจ๋ํฐ๋ง์ ํตํด ์ด์ ์ํฉ ๊ฐ์ง ๋ฐ ๋์ํ์ฅ์ฑ: ๋ฐ์ดํฐ์ ํธ๋ํฝ์ ๋ง๊ฒ ์ธํ๋ผ ํ์ฅ๋ชจ๋ํฐ๋ง: ์ค์๊ฐ ์ฑ๋ฅ ์งํ, ๋ก๊ทธ, ์๋ฆผ ํตํด ์ฑ๋ฅ ์ ํ, ์ค๋ฅ ๋ชจ๋ํฐ๋ง์ฅ์ ๋น ๋ฅธ ๋ฐฐํฌ: ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ฐฐํฌ ๊ณผ์ ์ ์๋ํํ์
ํจ์จ์ฑ ํฅ์: ๋ฐ์ดํฐ ๊ณผํ์, ๊ฐ๋ฐ์, ์ด์ํ์ ํ์
๋ชจ๋ธ ์ฑ๋ฅ ํฅ์: ๋ชจ๋ํฐ๋ง&ํ์ ์ ์
๋ฐ์ดํธvs DevOps๊ณตํต์ : ๋ ๋ค ์ํํธ์จ์ด ๊ฐ๋ฐ๊ณผ ์ด์์ ..
๊ฐ๋
์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์์ง๋ ๋ฐ์ดํฐ๋ก, ํน์ ์๊ฐ ๊ฐ๊ฒฉ์ ๋๊ณ ์ฐ์์ ์ผ๋ก ๊ด์ธก๋ ๊ฐ์ ์๋ฏธ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ์ ํจํด์ ๋ถ์ํ๋ ๋ฐ ์ค์ ์ ๋๊ธฐ ๋๋ฌธ์, ์์ธก, ํธ๋ ๋ ๋ถ์, ์ด์ ํ์ง ๋ฑ์ ์ ์ฉํ๊ฒ ํ์ฉ ๋ชจ๋ธ์ ํต์ ์ธ ์๊ณ์ด ๋ถ์ ๋ชจ๋ธ AR (Auto-Regressive) ๋ชจ๋ธ: ๊ณผ๊ฑฐ ๋ฐ์ดํฐ(์๊ธฐ ํ๊ท)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๊ฐ์ ์์ธกMA (Moving Average) ๋ชจ๋ธ: ๊ณผ๊ฑฐ์ ์ค์ฐจ(์์ฐจ) ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๊ฐ์ ์์ธกARMA (Auto-Regressive Moving Average): AR๊ณผ MA ๋ชจ๋ธ์ ๊ฒฐํฉํ ๋ฐฉ์ARIMA (Auto-Regressive Integrated Moving Average) ๋ชจ๋ธ: ๋น์ ์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ฐจ๋ถํ์ฌ ์์ ์ ์ผ๋ก ๋ง๋ ํ ์์ธกํ๋ ๋ชจ๋ธSARIMA (Seasonal..
๋ฅ๋ฌ๋๊ณผ ์ ๊ฒฝ๋ง ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ๋ก, ์ธ๊ณต ์ ๊ฒฝ๋ง(ANN)์ ๊ธฐ๋ฐ์ผ๋ก ๋๋์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ ์๊ณ ๋ฆฌ์ฆ๋ฅ๋ฌ๋์ ์ฌ๋ฌ ์ธต์ ํตํด ์ ์ ๋ ์ถ์ํ๋ ํน์ง์ ํ์ตํ๋ฉฐ, ๋ณต์กํ ํจํด์ ์ธ์ํ๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.ํนํ ๋ฅ๋ฌ๋์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ฐ๋ ฅํ ๊ณ์ฐ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ด ์ ์ ๋ ๊ฐ๋ ฅํ ์์ธก ๋ฅ๋ ฅ์ ๋ฐํํ๋๋ก ํ๋ค. ๋ฅ๋ฌ๋ vs ์ ํต์ ์ธ ๋จธ์ ๋ฌ๋ ์ ํต์ ์ธ ๋จธ์ ๋ฌ๋์์๋ ํน์ง ์ถ์ถ(Feature Engineering)์ ์ฌ๋์ด ์ง์ ํด์ผ ํ๋ค.๋ฅ๋ฌ๋์ ์๋ ํน์ง ํ์ต(Representation Learning)์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ๋ถ์ํ๊ณ ์ค์ํ ํน์ง์ ํ์ตํ๋ค. ์ ํต์ ์ธ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ฃผ๋ก ๋จ์ผ ์ธต์์ ์ฃผ์ด์ง ํน์ง์ ๋ฐํ์ผ๋ก ์์ธก์ ์ํ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ..
๋น์ง๋ ํ์ต์ด๋? ํ๊น ๊ฐ์ ์ ์ ์๊ฑฐ๋ ์์ธกํ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ ๋ฐฉ๋ฒ์ง๋ ํ์ต๊ณผ ๋ฌ๋ฆฌ ์ ๋ต(๋ผ๋ฒจ)์ด ์์ผ๋ฉฐ, ๋ฐ์ดํฐ์ ํจํด์ ๋ฐ๊ฒฌํ๊ณ ๊ทธ๋ฃนํํ๋ ๋ฐ ์ด์ ์ ๋ง์ถคex) ๊ตฐ์ง, ์ฐจ์์ถ์ 1. ๊ตฐ์ง ์๊ณ ๋ฆฌ์ฆ (Clustering) ๋น์ทํ ์ํ๋ผ๋ฆฌ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ๋ ๊ณผ์ , ์ด๋ฅผ ์ํํ๋ ์๊ณ ๋ฆฌ์ฆํด๋ฌ์คํฐ: ๊ตฐ์ง์์ ๋ง๋ค์ด์ง ๊ฐ ๊ทธ๋ฃน K-Means ๊ตฐ์ง ์๊ณ ๋ฆฌ์ฆ K-Means๋ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ตฐ์ง ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, K๊ฐ์ ํด๋ฌ์คํฐ ์ค์ฌ(์ผํธ๋ก์ด๋, Centroid)์ ์๋์ผ๋ก ์ฐพ๋ ๋ฐฉ์K-Means ์๊ณ ๋ฆฌ์ฆ ์๋ ๋ฐฉ์์์๋ก K๊ฐ์ ํด๋ฌ์คํฐ ์ค์ฌ์ ์ง์ ๊ฐ ์ํ์ ๊ฐ์ฅ ๊ฐ๊น์ด ํด๋ฌ์คํฐ ์ค์ฌ์ ํ ๋นํด๋ฌ์คํฐ์ ์ํ ์ํ๋ค์ ํ๊ท ๊ฐ์ ๊ณ์ฐํ์ฌ ์๋ก์ด ํด๋ฌ์คํฐ ์ค์ฌ์ ๊ฐฑ์ ํด๋ฌ์คํฐ ์ค์ฌ์ด ๋ ์ด์ ๋ณํํ์ง ์์ ๋๊น..
1. ๊ฒฐ์ ํธ๋ฆฌ ๋ฐ์ดํฐ๋ฅผ ํธ๋ฆฌ ๊ตฌ์กฐ๋ก ๋ถ๋ฅํ๋ ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ๊ฐ ๋
ธ๋์์ ํน์ ๊ธฐ์ค์ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถํ ํ๊ณ , ์ต์ข
์ ์ผ๋ก ๊ฐ ๋ฆฌํ ๋
ธ๋์์ ์์ธก ๊ฐ์ ๊ฒฐ์ ํน์งํด์์ด ์ฌ์ฐ๋ฉฐ ์๊ฐ์ ์ผ๋ก ํํ ๊ฐ๋ฅ๊ณผ๋์ ํฉ(overfitting)๋ ๊ฐ๋ฅ์ฑ์ด ์์๋ถํ ๊ธฐ์ค์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง ์ ์์ ์ฌ์ดํท๋ฐ์ ํ์ฉํ ๊ฒฐ์ ํธ๋ฆฌ ๊ตฌํfrom sklearn.tree import DecisionTreeClassifier# ๋ชจ๋ธ ์์ฑ ๋ฐ ํ์ตdt = DecisionTreeClassifier(max_depth=3, random_state=42)dt.fit(X_train, y_train)# ์์ธกy_pred = dt.predict(X_test) ๊ต์ฐจ ๊ฒ์ฆ๊ณผ ๊ฒ์ฆ ์ธํธ ๊ต์ฐจ ๊ฒ์ฆ ๋ชจ๋ธ์ ํ๊ฐํ ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ๋ฒ ํ์ต ๋ฐ ๊ฒ์ฆํ..
1. ๋ก์ง์คํฑ ํ๊ท ๋ก์ง์คํฑ ํ๊ท๋ ์ด๋ฆ์์ "ํ๊ท"๋ผ๋ ๋จ์ด๊ฐ ํฌํจ๋์ด ์์ง๋ง, ์ค์ ๋ก๋ ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.์ฃผ๋ก ์ด์ง ๋ถ๋ฅ์์ ์ฌ์ฉ๋๋ฉฐ, ์์ธก ๊ฐ์ 0๊ณผ 1 ์ฌ์ด์ ํ๋ฅ ๋ก ๋ณํํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณต์ ํ ๋ฐฉ์ ์์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ด ๊ฐ์ ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ํตํด 0๊ณผ 1 ์ฌ์ด์ ํ๋ฅ ๊ฐ์ผ๋ก ๋ณํ-> ๋ถ๋ฅ ๋ฌธ์ ์์ ๊ฐ ํด๋์ค์ ์ํ ํ๋ฅ ์ ๊ณ์ฐ ์๋ ์๋ฆฌ ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ์ ํ ๋ฐฉ์ ์์ ํตํด ์์ธก๊ฐ์ ๊ณ์ฐ๊ทธ๋ฌ๋ ์ด ์์ธก๊ฐ์ ํ๋ฅ ์ด ์๋๋ฏ๋ก, ์ด๋ฅผ ์๊ทธ๋ชจ์ด๋ ํจ์์ ํต๊ณผ์์ผ 0๊ณผ 1 ์ฌ์ด์ ํ๋ฅ ๋ก ๋ณํํ๋ค.์ด์ง ๋ถ๋ฅ์์ ํ๋ฅ ๊ฐ์ด 0.5๋ณด๋ค ํฌ๋ฉด ์์ฑ ํด๋์ค, ์์ผ๋ฉด ์์ฑ ํด๋์ค๋ก ์์ธกfrom sklearn.linear_model import LogisticRegression# ๋ชจ๋ธ ์์ฑlr ..
ํ๊ทKNN ํ๊ท๋ ๊ฐ์ฅ ๊ฐ๊น์ด k๊ฐ์ ์ด์์ ์ฐพ์ ์์ธก๊ฐ์ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ด๋ค.ํ์ง๋ง ๋ฉ๋ฆฌ ์๋ ์ด์๋ค์ด ์์ธก์ ์ํฅ์ ๋ฏธ์น๋ฉด ์ ํ๋๊ฐ ๋จ์ด์ง ์ ์๋ค. ์ด๋ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ฉด ํ๊ท ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ธ์ด ํ์ต์ ํตํด ์๋์ผ๋ก ์กฐ์ ๋๋ ๊ฐํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ธ ํ์ต ์ ์ ์ฌ์ฉ์๊ฐ ์ค์ ํ๋ ๊ฐํ๊ทํ๊ท๋ ์ฐ์์ ์ธ ํ๊น ๋ณ์์ ์ค๋ช
๋ณ์(ํน์ฑ) ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ธฐ๋ฒ. ์ฃผ๋ก ์์ธก ๋ฌธ์ ์์ ์ฌ์ฉ๋๋ฉฐ, ์ ํ ํ๊ท๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ํํ๋ก, ๋ ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ง์ (๋๋ ๊ณ ์ฐจ์์์๋ ์ดํ๋ฉด)์ผ๋ก ๋ํ๋ธ๋ค. K-์ต๊ทผ์ ์ด์ ํ๊ท ํ๊ท ๋ฌธ์ ์ KNN ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ๊ฒํ๊ท๋ ์ฐ์์ ์ธ ๊ฐ์ ์์ธกํ๋ ๋ฌธ์ ๋ก, ๋ถ๋ฅ ๋ฌธ์ ์ ๋ฌ๋ฆฌ ์์ธกํ๋ ค๋ ๊ฐ์ด ์ฌ๋ฌ ํด๋์ค ์ค ํ๋๊ฐ ์๋๋ผ ์ค์ ๊ฐex) ๊ฒฝ์ ์ฑ์ฅ๋ฅ ..
'๐ฆญ AI&Big Data' ์นดํ
๊ณ ๋ฆฌ์ ๊ธ ๋ชฉ๋ก
๋จ์ถํค
๋ด ๋ธ๋ก๊ทธ
๋ด ๋ธ๋ก๊ทธ - ๊ด๋ฆฌ์ ํ ์ ํ |
Q
Q
|
์ ๊ธ ์ฐ๊ธฐ |
W
W
|
๋ธ๋ก๊ทธ ๊ฒ์๊ธ
๊ธ ์์ (๊ถํ ์๋ ๊ฒฝ์ฐ) |
E
E
|
๋๊ธ ์์ญ์ผ๋ก ์ด๋ |
C
C
|
๋ชจ๋ ์์ญ
์ด ํ์ด์ง์ URL ๋ณต์ฌ |
S
S
|
๋งจ ์๋ก ์ด๋ |
T
T
|
ํฐ์คํ ๋ฆฌ ํ ์ด๋ |
H
H
|
๋จ์ถํค ์๋ด |
Shift + /
โง + /
|
* ๋จ์ถํค๋ ํ๊ธ/์๋ฌธ ๋์๋ฌธ์๋ก ์ด์ฉ ๊ฐ๋ฅํ๋ฉฐ, ํฐ์คํ ๋ฆฌ ๊ธฐ๋ณธ ๋๋ฉ์ธ์์๋ง ๋์ํฉ๋๋ค.