머신러닝

[혼공머신] 4주차_ tree 모델, 교차검증, 편향-분산

주니코니 2024. 1. 24. 23:09

본 게시글은 혼공학습단 11기로, 복습 차원에서 책 내용을 제 스타일대로 요약한 내용입니다.
#챕터5 #주니코니 #힘내랏❤️

목차
-결정트리의 장단점
-교차검증을 그림으로 설명
-랜덤 포레스트/엑스트라 트리
-그레디언트 부스팅
-편향과 분산
-참고자료


🌲결정트리의 장점
-직관적인 설명(보고하기에 좋음)
-특성중요도 계산 가능

print(dt.feature_importances_)

 
단점
제한없이(map_depth) 학습시 과대적합에 쉬움 = 가지치기!


🤞교차검증을 그림으로 설명

https://gilbertlim.github.io/machine%20learning/ml_cross_validation/

🌳랜덤 포레스트/엑스트라 트리
랜덤 포레스트 :
다수의 결정트리가 모인, 숲을 의미
bootstrap(bagging), 중복 허용해서 훈련 샘플을 만듦 -> 훈련셋 과대적합 ⬇️
단점은 계산속도가 느리다
 
엑스트라 트리 :
Extremely Randomized Trees의 줄임말로 랜덤 포레스트의 단점을 보완한 모델
전체 훈련 세트 사용하되 노드(특성) 랜덤으로 분할 -> 계산속도가 ⬆️


⬆️그레디언트 부스팅
불균형 데이터에 좋음
왜? 
아래 설명 발견 ㅎㅎ

7. 그래디언트 부스팅 머신러닝: 이론부터 실제 적용까지 - skirttt

그래디언트 부스팅 머신러닝은 많은 데이터 과학자들이 자주 사용하는 강력한 알고리즘입니다. 복잡한 데이터 세트에서도 높은 성능을 발휘하는 이 그래디언트 부스팅 머신러닝에 대해 자세히

skirttt.com


 
➡️편향과 분산

블로그 데이터마케팅 공부방

참고자료
트리설명이 참 잘되어있는 블로그가 있었다

앙상블(Ensemble) / Random Forest

앙상블: 일련의 예측기(분류나 회귀 모델) 앙상블 학습(Ensemble learning): 일련의 예측기로부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측을 얻을 수 있을 것 앙상블 방법(Ensemble method):

hororolol.tistory.com

랜덤 포레스트(Random Forest) 쉽게 이해하기 - 아무튼 워라밸

본 포스팅에서는 의사결정 트리의 오버피팅 한계를 극복하기 위한 전략으로 랜덤 포레스트(Random Forest)라는 방법을 아주 쉽고 간단하게 설명하고자 한다. 파이썬 머신러닝 라이브러리 scikit-learn

hleecaster.com

 
편향과 분산 설명 잘되어있는 블로그가 있었다

머신러닝 모델 측면의 편향(bias)과 분산(variance) 개념 이해

편향(bias)과 분산(variance) 데이터 분석을 하다보면 편향(bias)와 분산(variance)이란 용어를 자연스럽게...

blog.naver.com