머신러닝

[지도학습 : 앙상블 학습] 보팅, 배깅

주니코니 2023. 7. 21. 13:43

#빅리더
#장철원 대표님 강의

회사에서 소프트웨어 버전 업데이트는 잘하지 않는다 ⭐⭐
(n년 뒤 하이퍼파라미터나 라이브러리 등 옵션이 달라졌을 수도)
-> 어떤 회사에서는 파이썬 2를 쓴다 
-> 함부로 업데이트 하지말자...결론 ㅎ
 
라이브러리의 단점은?
개발자가 하라는대로 해야함


앙상블

들어가기 전에 ----
classification > regression :
분류가 더 어렵다 
그럼 둘중 뭘 하냐?
싹다..해봐...ㅎ( =_= )
-> 앙상블 학습 : 싹다 합체해서 다 해보자
*분류는 a 아니면 b 처럼 결과가 명확한데, regression의 결과(예측값)은 결과값(숫자만)으로 더 좋다, 나쁘다를 말하기엔 어렵다
 


보팅이란? 
vote 투표하다
장점은? 민주주의 ㅋ 단점은..소수의 의견은 ㅠ_ㅠ => 처음부터 모델종류 다 때려박지 말고 각각의 모델을 먼저 분류해서 정확도 등 체크하고, 넣어보자! 
 
 
결론
보팅은...노가다의....세상...
 


배깅이란?
bag(가방,짐)+ing = bagging
랜덤 추출
 
추출방법에는 두가지 있다
복원추출 : 뺀 걸 다시 넣는 것
비복원추출 : 로또추첨 
 
#데이터 표준화 standardlization
의사결정나무나 랜덤포레스트에서는 안하는 게 좋을수도있따!!!!!!!!!!!!!!
값끼리의 간격이 좁아져서 잘 분류가 안될수가 있다
근데..알수있는건아니니까...우선..둘다해봐서 판단해..^^


엑셀(파이썬 대신) 전처리 가능할까? NO🥲🥲🥲🥲
엑셀 : 데이터 용량이 제한적 (여는 데만 30분 걸릴 수도 있다-_-..)
그래서 데이터를 db에 보관한다 그리고 파이썬 쓴당ㅎ  
엑셀 처음에 잘 쓰다가.. 파이썬이 나온 것임
파이썬으로 작업 다하고 결과값을 엑셀로 정리 
 
⭐⭐⭐⭐⭐
[-> db를 다룰 수 있는 문법은? sql 
 -> DA 직무는 SELECT 문을 많이 씀(INSERT 권한 X)
 -> DE 직무는 INSERT 문을 많이 씀]
 -> DS 직무는 둘다 씀
(원 데이터는 DBA(+DE) 직무가 다룸) ]