[임베딩]
#일정한 길이의 벡터로 변환
# [벡터 임베딩]
# word2vec: gpt2, bert 모델의 father, 유유상종 개념 ㅎ (비슷한 애들(여기서는 단어)은 주변에 있죠)
# 아래 임베딩 기술의 시작은 word2vec
# -원핫인코딩 : 공간낭비, 단어의미x(나타내지 못함)
# -dense vector 밀집벡터 : 공간낭비x, 실수로 표현, 저차원공간에 임베딩
# -슬라이딩 윈도우 : #https://jalammar.github.io/illustrated-word2vec/
# 미끄러지듯 앞뒤 단어 차례대로 둘씩, 하나의 묶음이 되어> dataset을 이룸 (input, output이 있는)
# 특정단어 앞뒤 단어로 빈칸 말 예측 가능
# -skipgram : 빈칸 단어 앞뒤로 2단어씩 보는 방법
자세한 내용은 아랫분 깃헙에 이미지로 정리되어있다.
https://jalammar.github.io/illustrated-word2vec/
The Illustrated Word2vec
Discussions: Hacker News (347 points, 37 comments), Reddit r/MachineLearning (151 points, 19 comments) Translations: Chinese (Simplified), French, Korean, Portuguese, Russian “There is in all things a pattern that is part of our universe. It has symmetry
jalammar.github.io
+ 역사를 잠깐 (아주 빠르게) 살펴보자면..
# [임베딩 알고리즘]
# 워드투벡터, 글로브, 패스트텍스트, 엘모 -> 트랜스포머 ->gpt/bert
'자연어 처리' 카테고리의 다른 글
[정규표현식] replace, series와 replace (2) | 2023.07.28 |
---|---|
추천 시스템 만들기 팁 (0) | 2023.07.25 |
[자연어 처리] 시스템 구현 단계, 언어 모델, 신경망 (0) | 2023.07.25 |
[정규표현식] re.함수명(패턴,문자열) (0) | 2023.07.25 |
[정규표현식] 이메일 주소 검사 (0) | 2023.07.24 |