본문 바로가기

머신러닝17

[혼공머신] 6주차_인공신경망, dnn 본 게시글은 혼공학습단 11기로, 복습 차원에서 책 내용을 제 스타일대로 요약한 내용입니다. #챕터7 #주니코니 #힘내랏❤️#마지막!!!#야홍#우선가볍게쓰고나중에알게되면보완해야지 🌳목차 -왜 대부분 딥러닝에서는 경사하강법을 쓴다고 써있는거지? -loss 함수의 역할은 활성화함수와 달리 무엇이고 구조는 어떻게 되는가 -이미지가 아닌 정형데이터를 다룰 때 input 층에 어떤 식으로 데이터가 입력되는지?(row&column) -epoch의 의미 -은닉층은 하이퍼파라미터인데 갯수 정할 때 데이터에서 참고하는 점은? -예시문제 -왜 대부분 딥러닝에서는 경사하강법을 쓴다고 써있는거지? : 딥러닝이라는 게 빅데이터에 강점을 가지고 있어서 머신러닝처럼 함수식이 간단하지 않을 것. 그래서 경사하강법을 쓰는 게 아닐까... 2024. 2. 15.
[혼공머신] 5주차_k-means, PCA 본 게시글은 혼공학습단 11기로, 복습 차원에서 책 내용을 제 스타일대로 요약한 내용입니다. #챕터6 #주니코니 #힘내랏❤️ 목차 -k-means 알고리즘 작동 방식 -PCA(주성분 분석) k-means 클러스터링 : k-means 알고리즘이란 지정한 k-개의 평균값을 가지고 클러스터링하는 것을 의미한다. 작동 방식은 간략히 말하자면 다음과 같다. 1. 임의로 중심점을 찍고 그룹화 한다 2. 데이터 포인트마다 중심점에서 가깝게 재분류된다 3. 재분류된 그룹 내 관측치들의 평균값을 토대로 중심점을 (재)계산한다(평균값-> 중심점) 4. 클러스팅이 잘되기까지 2번부터의 과정을 반복! 그림으로 말하자면 👍🏻 PCA(주성분 분석) : 주성분 분석이란 Principal Component Analysis의 약자로,.. 2024. 2. 1.
[혼공머신] 4주차_ tree 모델, 교차검증, 편향-분산 본 게시글은 혼공학습단 11기로, 복습 차원에서 책 내용을 제 스타일대로 요약한 내용입니다. #챕터5 #주니코니 #힘내랏❤️목차 -결정트리의 장단점 -교차검증을 그림으로 설명 -랜덤 포레스트/엑스트라 트리 -그레디언트 부스팅 -편향과 분산 -참고자료🌲결정트리의 장점 -직관적인 설명(보고하기에 좋음) -특성중요도 계산 가능print(dt.feature_importances_) 단점 제한없이(map_depth) 학습시 과대적합에 쉬움 = 가지치기!🤞교차검증을 그림으로 설명 🌳랜덤 포레스트/엑스트라 트리 랜덤 포레스트 : 다수의 결정트리가 모인, 숲을 의미 bootstrap(bagging), 중복 허용해서 훈련 샘플을 만듦 -> 훈련셋 과대적합 ⬇️ 단점은 계산속도가 느리다 엑스트라 트리 : Extremely.. 2024. 1. 24.
pandas, 시리즈, 데이터 프레임 개념이 살짝 헷갈리던 와중 기가 막힌 설명을 발견했다..🤞 그외 pandas 문법 등 자세히 보기 : 판다스(pandas) 기본 사용법 익히기 데이터 분석을 위한 파이썬 라이브러리인 판다스(pandas) 의 기본 사용법을 소개해 놓은 ‘10 Minutes to pandas’ 를 번역해 놓은 글입니다. pandas 의 기본 사용법을 익히시려는 분들에게 실습을 천천히 dandyrilla.github.io 2024. 1. 23.
[혼공머신] 3주차_로지스틱회귀&시그모이드, 소프트맥스 함수 본 게시글은 혼공학습단 11기로, 복습 차원에서 책 내용을 제 스타일대로 요약한 내용입니다. #챕터4 #주니코니 #힘내랏 목차 -로지스틱회귀란 -시그모이드 함수(로지스틱 함수) -소프트맥스 함수 로지스틱 회귀란 -분류 모델이다.(이진/ 다중 분류) -L2 규제다. 기본적으로 릿지 회귀와 같이 계수의 제곱을 규제한다. -시그모이드 함수로 확률을 얻고(이진) , 소프트맥스 함수로 확률을 얻는다.(분류) 시그모이드 함수 -하나의 선형 방정식(기울기)의 출력값을 0~1 사이로 압축한다. 소프트맥스 함수 -여러 개의 선형 방정식의 출력값을 0~1 사이로 압축하고, 전체 합이 1이 되도록 만든다.(지수 함수 사용) -n개의 z값을 확률로 변환한다. -클래스 개수만큼 방정식을 훈련한다. 2024. 1. 21.
[혼공머신] 2주차_knn 최적의 k값 찾기 시각화 본 게시글은 혼공학습단 11기로, 복습 차원에서 책 내용을 제 스타일대로 요약한 내용입니다. #챕터3 #주니코니 #힘내랏 목차🐻 - 주차별 미션 - knn 최적의 k값 찾기_시각화 #최적의 k값 찾기(그래프로) knr = KNeighborsRegressor() x = np.arange(5,45).reshape(-1,1) #5~45까지 x 좌표 만들기 for n in [1,5,10]: #k=1,5,10일때의 예측 그래프 knr.n_neighbors = n #n_neighbors = 이웃의 개수 정하기 knr.fit(train_input, train_target) prediction = knr.predict(x) plt.scatter(train_input,train_target) plt.plot(x,pred.. 2024. 1. 14.
[혼공머신] 1주차_머신러닝이란 본 게시글은 혼공학습단 11기로, 복습 차원에서 책 내용을 제 스타일대로 요약한 내용입니다. #챕터1~2 #주니코니 #힘내랏 목차🐻 - 주차별 미션 - 피처(feature) - fit() - knn 장단점 - numpy - score, predict() - 손코딩 실습 파일 1. 피처(feature) -데이터의 특징, 특성(feature)를 의미 -2개의 특성을 사용해 그래프를 그린다면 2차원 그래프 2. fit() 메서드 -사이킷런 패키지 내 함수로, (알고리즘을) 훈련함을 의미 -모델에 데이터를 전달하여 규칙을 학습하는 과정을 '훈련'이라 함 3. knn 장단점 -knn이란 k-Nearest Neighbors 알고리즘, 가장 가까운 k개의 데이터를 보고 다수결의 원칙을 따름 -장점 : 명확하고 간단한.. 2024. 1. 7.
lag feature, rolling feature 프로젝트 진행중 맞이한 문제.. 상황은 이렇다! TIP 1.시계열이라고 해서 꼭 굳이 lstm, 대신 lgbm을! 갓gbm 2.lag feature를 다양하게, 길게(꼭 특정 a시간이 아닌 24(시간)+ a) 잠깐! lag feature란 시차, 시간 위아래로 댕기는 것 3.rolling feature 쓰기(이동평균 추천) print('Rolling feature 만들기') for i in [7,10,14]: print('Rolling period:', i) all_df['rolling_mean_'+str(i)] = all_df.groupby(['store_id'])[TARGET].transform(lambda x: x.shift(SHIFT_DAY).rolling(i).mean()) all_df['rol.. 2023. 10. 5.
군집화와 k-means(데이터 마이닝) 목차 -군집화란? -계층적/비계층적 군집화 -how 그룹핑? -k-means *이상철교수님의 데이터마이닝 수업을 요약했습니다 군집화란? 그룹으로 묶어 구분하다 k-means는 비지도 학습이다 계층적 군집화와 비계층적 군집화 1.계층적 군집화 : 개체간 거리 계산, 병합+분리(두개에서부터 데이터 끝까지 다 묶어준다) 2.비계층적 군집화 : 사전에 그룹 수 지정해서 거리 계산 -현실에서 많이 쓰는 방법 -몇개의 군집이 정답인가? 하나씩 다 해봐야한다! - 대규모 데이터를 처리에 유용 -k means how 그룹핑? 나눌 때 '어떤 속성을 가지고' 그룹화를 시켜야하는데.. 1) 개체간 *거리를 계산해서 비슷한 개체끼리 나눈다. *피타고라스의 정의(유클리드 거리) 2) 표준화 시키고 그룹핑하기!(그렇지 않으면 .. 2023. 9. 21.