#npl2 코랩 파일 참고
자연어 처리로 추천 시스템을 만들어보기 전 우선 관련 개념을 알자!
DTM : document term matrix 문서 단어 행렬
*term : 문서의 전~체 단어
ex
단어1 단어2 ... 단어M
문서 1 5(등장횟수) 0
문서 2
...
문서 N
TFIDF(TF*IDF)
TF 단어빈도
TDF 문서빈도의 역수
TF == DTM
ex tf(d,t) = 문서 d에서 단어 t의 등장 횟수
=> 코사인 유사도 (유클리디안 거리x)
* 단순히 두 거리만을 따지는 게 아니라 두 거리의 각을 기반으로 유사성을 따지는 방법
* 단순 정량x, 정성적 평가
*dot 함수, norm 함수 활용 => sklearn 라이브러리에 있다
from sklearn.metrics.pairwise import cosine_similarity
정리
추천 시스템 :
유사도 알고리즘을 활용하여 추천시스템 구현!
코사인 유사도 (유클리디안 거리x)
'자연어 처리' 카테고리의 다른 글
[정규표현식] replace, series와 replace (2) | 2023.07.28 |
---|---|
임베딩이란? (0) | 2023.07.28 |
[자연어 처리] 시스템 구현 단계, 언어 모델, 신경망 (0) | 2023.07.25 |
[정규표현식] re.함수명(패턴,문자열) (0) | 2023.07.25 |
[정규표현식] 이메일 주소 검사 (0) | 2023.07.24 |