[머신러닝 전략] 머신러닝 문제해결 프로세스
#2023.08.22 빅리더 프로젝트 인턴십 #신백균 멘토님 #캐글 강의
목차
- 1.데이터에 현혹된 사례
- 2.머신러닝 문제해결 프로세스
- 3.실습(예시)
(참고로 본문에 사용된 이미지는 멘토님께서 현장에서 공유해주신 PPT 자료의 일부임을 밝힙니다.)
*멘토님 github
GitHub - BaekKyunShin/musthave_mldl_problem_solving_strategy: 《머신러닝·딥러닝 문제해결 전략》
《머신러닝·딥러닝 문제해결 전략》. Contribute to BaekKyunShin/musthave_mldl_problem_solving_strategy development by creating an account on GitHub.
github.com
1.데이터에 현혹된 사례
1.인과관계 & 상관관계 :
인과관계 : 특정 조건 아래서 실험을 해봐야 한다. 주의를 기울이는 것만으로도 good!
2. 평균으로의 회귀
극단적인 현상들은 평균으로 회귀하는 경향이 있다.
why? 성적 = 실력+운이 작용
운 => '확률오차'
2.머신러닝 문제해결 프로세스
머신러닝 문제해결 프로세스 : 문제 이해 > EDA > 전처리 > 베이스라인(뼈대) 모델
EDA : (피처가 많을수록) 시각화 많이 하는 것이 좋다!
Tip 머신러닝 프로세스에는 왕도는 없다!(정해진 올바른 길) 스스로 많이 생각하는 연습을 해보기!
요리를 할 때 최적의 간을 맞추는 것이 중요하다 -> 소금-설탕(하이퍼파라미터) 등의 양이 중요하다.
소금이 너무 많이 들어가면 짠 것처럼..
3.실습(예시) : 타이타닉
순서
1. 문제 파악
Titanic - Machine Learning from Disaster | Kaggle
www.kaggle.com
메모장에 먼저 피처(종류)만 보고(csv파일x) 나의 생각을 적어본다.
2. eda
Titanic EDA
Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster
www.kaggle.com
위 임베딩된 사이트 들어가면 eda 과정 코드가 있습니다!
3. 전처리
Titanic Modeling
Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster
www.kaggle.com
위 임베딩된 사이트 들어가면 전처리 과정 코드가 있습니다!
Tip
1)인코더 생성 : OrdinalEncoder() => (원래는) 피처 전용 인코더
2)훈련 데이터에서 인코딩 피팅 차이 :
ordinal_encoder.fit(train[string_features]) /
label encoding (원래는) 타겟 전용 인코더
단, 둘다 기능은 같다!
fit => 적용,학습
3) agg : aggregate (집합) => 집계함수(아래 이미지 참고)
소감 : 데이터 분석이 아직 낯설어 다루기가 벅차고 부담스러웠다.
그런데... 사례들을 들으면서, 데이터의 숨은 의미를 찾는 일은
문맥을 파악하고, 숨은 의미를 찾고, 결국엔 이 세상을 더 이해하는 일이란 걸 깨달았다.
너무 좋다!!!!!!!!!
설렌다...
익숙해질 것 같다.
이 세상을 더 잘 이해하게 될 생각에 설렌다..
(-> 데이터 분석이 좋아졌다..wow! 내가?)