본문 바로가기

머신러닝17

머신러닝 알고리즘 빠르게 훑어보기! 목차 -지도학습 -비지도학습 -앙상블 -pca -교차검정 2023. 9. 11.
다중 회귀모델의 규제 : 라쏘, 릿지, 엘라스틱넷 목차 -규제란 -종류 및 언제 쓰는가 규제란 규제 = Regularization = 패널티 = 변수 선택 = 하이퍼파라미터 알파(규제강도) 다중 회귀모델에서는 여러 독립변수들의 각각의 최적의 가중치(기울기)를 찾는 것이 핵심인데 그 방법으로는 규제를 가하는 것이다. 즉! -설명력이 좋은 변수는 남기고 좋지 않은 변수는 버리는 방식 -규제란 다른 쉬운 말로 변수선택 -과적합 방지 -회귀식을 더 간단하게 만들어 연산 속도를 높이고 일반화를 잘 유도 종류 및 언제 쓰는가 절댓값 그래프는 다이아몬드 모양 제곱의 합의 그래프는 원형 모양 1. L1 라쏘(lasso = 올가미란 뜻, 절댓값) : 설명력이 낮은 변수를 0에 가깝게(영향력 감소) 일부 피처들이 중요하지 않다면 라쏘를 절댓값은 미분하기가 복잡하다(차원축.. 2023. 9. 10.
회귀분석이란 무엇이고 언제 쓸까?(통계학) 목차 회귀분석 종류 선형회귀분석의 종류 기울기=회귀계수=가중치 상관계수는 회귀계수와 같나 분산과 표준편차 편차=잔차=오차 최소제곱법 회귀식의 적합도(결정계수) 회귀계수 검정(귀무-연구가설) 아래 내용은 강서대학교 이상철 교수님 수업을 정리한 것입니다! 회귀분석 종류 선형회귀분석 : 경영학쪽에서 비선형회귀분석: 자연과학(의 시계열) 로지스틱회귀분석 : 금융(분류라서) 선형회귀분석의 종류 단순 선형회귀분석 : 사회과학쪽에서 잘 쓰이지 x => 독립변수가 하나인 경우는 드물어서 다중 선형회귀분석 : 독립변수가 여러개인 경우 기울기=회귀계수=가중치 수학에서는 기울기 통계학에서는 회귀계수(0~1값)라고 한다 계수란 관련성을 수치화한 것(정수화) 데이터마이닝에선 가중치라고 한다 상관계수는 회귀계수와 같나 상관계수란.. 2023. 9. 9.
알고리즘과 모델의 구분 헷갈린 개념을 딱 잡아주는 자료를 발견해, 공유합니다! 영상 내용의 핵심을 정리하자면, 알고리즘은 다음과 같습니다. 그렇다면 데이터-학습-알고리즘-모델이란? 2023. 8. 27.
머신러닝의 역할과 일반화, standardization과 normalization, 최적화, 릿지라쏘 목차 -머신러닝의 역할 -왜 모델을 적용할까 -일반화 -성능평가하는 이유 -standardization과 normalization -최적화의 역할 -릿지라쏘 2023. 8. 26.
[지도학습 : 앙상블 학습] 보팅, 배깅 #빅리더 #장철원 대표님 강의 회사에서 소프트웨어 버전 업데이트는 잘하지 않는다 ⭐⭐ (n년 뒤 하이퍼파라미터나 라이브러리 등 옵션이 달라졌을 수도) -> 어떤 회사에서는 파이썬 2를 쓴다 -> 함부로 업데이트 하지말자...결론 ㅎ 라이브러리의 단점은? 개발자가 하라는대로 해야함앙상블들어가기 전에 ---- classification > regression : 분류가 더 어렵다 그럼 둘중 뭘 하냐? 싹다..해봐...ㅎ( =_= ) -> 앙상블 학습 : 싹다 합체해서 다 해보자 *분류는 a 아니면 b 처럼 결과가 명확한데, regression의 결과(예측값)은 결과값(숫자만)으로 더 좋다, 나쁘다를 말하기엔 어렵다 보팅이란? vote 투표하다 장점은? 민주주의 ㅋ 단점은..소수의 의견은 ㅠ_ㅠ => 처음부터.. 2023. 7. 21.
파라미터 하이퍼 파라미터의 차이, 정규화 표준화의 차이(머신러닝이란? 사이킷런(knn)) 사이킷런 : 모든 모델 다 쓸 수 있는 파이썬 라이브러리 ❤️(사이킷런은 사랑이다..!) 머신러닝으로 할 수 있는 두가지는? 예측과 분류 regression 회귀 : 예측 classification 분류 지도 학습 clustering 분류 cf. 비지도 학습 dimentionality reduction : 차원축소 예측과 분류 둘다 가능(보조 도구) 알고리즘 종류 : 1. k-최근접 이웃(knn) : 유클리디언 거리(피타고라스의 정리) k는 내가 선정(1-nearest neighbor, 2, 3,----) => 하이퍼 파라미터에 해당 k와 비교대상이 있어야 한다!(training data가 늘 있어야 한다) 컴퓨터를 이루는 세가지 : cpu, 램, ssd(하드 디스크의 발전) 램 - 주 기억 장치 but.. 2023. 7. 21.
코랩 - 데이터 어떻게 불러오나요? 2023.07.17 빅리더 임선집 대표님 강의 #1 ⭐ colab은 구글 거라서 db를 활용하려면 google drive와 연동해야한다 그리고 1. 왼쪽 상단의 아이콘 '돋보기 - x - 파일 모양'을 클릭한다(클릭하면 주황색이 됨) 2. 세번째 아이콘('연동,mount') 클릭 후 실행시키기 * 이미 해둔 상태라 \ bar 가 그어져있다 or colab에서 다음과 같이 입력 후 실행 from google.colab import drive drive.mount('/content/drive') 그랬는데도 content 파일 안에 drive 파일이 안보인다면? 3. googledrive에 db(예를 들면 csv 파일)을 올리고 4 .colab notebook 파일안에 이동시켜 놓는다 * 아래 노란색 뫼비우스.. 2023. 7. 17.