[지도학습 : 앙상블 학습] 보팅, 배깅
#빅리더
#장철원 대표님 강의
회사에서 소프트웨어 버전 업데이트는 잘하지 않는다 ⭐⭐
(n년 뒤 하이퍼파라미터나 라이브러리 등 옵션이 달라졌을 수도)
-> 어떤 회사에서는 파이썬 2를 쓴다
-> 함부로 업데이트 하지말자...결론 ㅎ
라이브러리의 단점은?
개발자가 하라는대로 해야함
앙상블
들어가기 전에 ----
classification > regression :
분류가 더 어렵다
그럼 둘중 뭘 하냐?
싹다..해봐...ㅎ( =_= )
-> 앙상블 학습 : 싹다 합체해서 다 해보자
*분류는 a 아니면 b 처럼 결과가 명확한데, regression의 결과(예측값)은 결과값(숫자만)으로 더 좋다, 나쁘다를 말하기엔 어렵다
보팅이란?
vote 투표하다
장점은? 민주주의 ㅋ 단점은..소수의 의견은 ㅠ_ㅠ => 처음부터 모델종류 다 때려박지 말고 각각의 모델을 먼저 분류해서 정확도 등 체크하고, 넣어보자!
결론
보팅은...노가다의....세상...
배깅이란?
bag(가방,짐)+ing = bagging
랜덤 추출
추출방법에는 두가지 있다
복원추출 : 뺀 걸 다시 넣는 것
비복원추출 : 로또추첨
#데이터 표준화 standardlization
의사결정나무나 랜덤포레스트에서는 안하는 게 좋을수도있따!!!!!!!!!!!!!!
값끼리의 간격이 좁아져서 잘 분류가 안될수가 있다
근데..알수있는건아니니까...우선..둘다해봐서 판단해..^^
엑셀(파이썬 대신) 전처리 가능할까? NO🥲🥲🥲🥲
엑셀 : 데이터 용량이 제한적 (여는 데만 30분 걸릴 수도 있다-_-..)
그래서 데이터를 db에 보관한다 그리고 파이썬 쓴당ㅎ
엑셀 처음에 잘 쓰다가.. 파이썬이 나온 것임
파이썬으로 작업 다하고 결과값을 엑셀로 정리
⭐⭐⭐⭐⭐
[-> db를 다룰 수 있는 문법은? sql
-> DA 직무는 SELECT 문을 많이 씀(INSERT 권한 X)
-> DE 직무는 INSERT 문을 많이 씀]
-> DS 직무는 둘다 씀
(원 데이터는 DBA(+DE) 직무가 다룸) ]