캐글

[머신러닝 전략] 머신러닝 문제해결 프로세스

주니코니 2023. 8. 22. 14:44

#2023.08.22 빅리더 프로젝트 인턴십 #신백균 멘토님 #캐글 강의

 

목차

  • 1.데이터에 현혹된 사례
  • 2.머신러닝 문제해결 프로세스
  • 3.실습(예시)

(참고로 본문에 사용된 이미지는 멘토님께서 현장에서 공유해주신 PPT 자료의 일부임을 밝힙니다.)

*멘토님 github

 

GitHub - BaekKyunShin/musthave_mldl_problem_solving_strategy: 《머신러닝·딥러닝 문제해결 전략》

《머신러닝·딥러닝 문제해결 전략》. Contribute to BaekKyunShin/musthave_mldl_problem_solving_strategy development by creating an account on GitHub.

github.com


1.데이터에 현혹된 사례

1.인과관계 & 상관관계 : 

인과관계 : 특정 조건 아래서 실험을 해봐야 한다. 주의를 기울이는 것만으로도 good!

 

2. 평균으로의 회귀

극단적인 현상들은 평균으로 회귀하는 경향이 있다.

why? 성적 = 실력+이 작용

운 => '확률오차'


2.머신러닝 문제해결 프로세스

 

출처 : 신백균님 ppt

머신러닝 문제해결 프로세스 : 문제 이해 > EDA > 전처리 > 베이스라인(뼈대) 모델

EDA : (피처가 많을수록) 시각화 많이 하는 것이 좋다!

Tip 머신러닝 프로세스에는 왕도는 없다!(정해진 올바른 길) 스스로 많이 생각하는 연습을 해보기!

 

요리를 할 때 최적의 간을 맞추는 것이 중요하다 -> 소금-설탕(하이퍼파라미터) 등의 양이 중요하다.

소금이 너무 많이 들어가면 짠 것처럼..


3.실습(예시) : 타이타닉 

순서

1. 문제 파악

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

 

메모장에 먼저 피처(종류)만 보고(csv파일x) 나의 생각을 적어본다.


2. eda

 

Titanic EDA

Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster

www.kaggle.com

위 임베딩된 사이트 들어가면 eda 과정 코드가 있습니다!


3. 전처리

 

Titanic Modeling

Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster

www.kaggle.com

위 임베딩된 사이트 들어가면 전처리 과정 코드가 있습니다!

 

Tip

1)인코더 생성 : OrdinalEncoder() => (원래는) 피처 전용 인코더 

2)훈련 데이터에서 인코딩 피팅 차이 :

ordinal_encoder.fit(train[string_features]) /

label encoding (원래는) 타겟 전용 인코더 

단, 둘다 기능은 같다!

 fit => 적용,학습

3) agg : aggregate (집합) => 집계함수(아래 이미지 참고)


소감 : 데이터 분석이 아직 낯설어 다루기가 벅차고 부담스러웠다.

그런데... 사례들을 들으면서, 데이터의 숨은 의미를 찾는 일은

문맥을 파악하고, 숨은 의미를 찾고, 결국엔 이 세상을 더 이해하는 일이란 걸 깨달았다.

너무 좋다!!!!!!!!!

설렌다...

익숙해질 것 같다.

이 세상을 더 잘 이해하게 될 생각에 설렌다.. 

(-> 데이터 분석이 좋아졌다..wow! 내가?)