[자연어 처리] 시스템 구현 단계, 언어 모델, 신경망
자연어 처리로 시스템 구현할 때 밟는 단계는 우선 다음과 같다. [데이터 수집] -DB 사용 -웹 사이트 크롤링 *웹 크롤링 도구 : 파이썬 라이브러리 selenium, BeautifulSoup -텍스트 증식 고려(권장하지 않음) -위키피디아, 북스코퍼스 등의 데이터 활용 [데이터 전처리] -토큰화, 정제, 불용어 처리, 인코딩, 패딩 등 다음 단계인 언어 모델 생성 단계를 조금 자세히 살펴보자면 [언어 모델 생성] -알고리즘 선택(머신러닝, 딥러닝, 데이터 마이닝 사용) -크게 두가지: 1.머신러닝 및 딥러닝 : '학습', 신경망 (기반) 모델 2.데이터 마이닝 : '통계' 기반 초창기 때 모델로 단어의 (배열) 순서에 대해 확률 부여 ex1) 나는 자연어 처리를 공부한다 (얘를 추천함)/ 나는 자연어..
2023. 7. 25.
[정규표현식] re.함수명(패턴,문자열)
[정규표현식] #match, search 잘 안쓰고 findall 많이씀. find도 종종 import re # re.함수명(패턴,문자열) # 문자열 속에 패턴이 존재합니까? 질문에 대한 답이 출력됨 ⭐⭐⭐많이 쓴다 re.search('^Hello','Hello, world!') #^ = Hello로 시작해라. re.search('^Hello', 'Hi Hello, world!') #매치안됨 re.search('world!$','Hello, world') #매치안됨 re.search('world!$','Hello, world!') #정확히 똑같아야한다 ⭐⭐⭐⭐⭐⭐⭐ #패턴에 있는 대괄호 의미 []: 문자 "한 글자"를 의미 ❤️ ex [a]: a문자 의미, [ab] a또는b문자 의미 [a-c] a또는 b..
2023. 7. 25.
[자연어 처리] 기본개념, 처리 순서
#빅리더 박길식 교수님 #colab 파일1(2개) 참고 [텍스트 처리] 1.토큰화 - 토큰이란? 작업 처리하는 단위(문자,단어,문장,문단), 문장 토큰화가 일반적 - 영어단위는 공백 단위로 분류하면 끝! * 단, 축약형('s), be 동사 통일(is,are,am), 고유명사 사이 공백 주의 * 전처리시 단어 통일 + 단어 합치기 작업 중요 ex 단어 합치기 : '_'사용 > Donald_Affri - 한글 : 언어 특성상 nltk 쓰면 단순히 띄어쓰기(공백)으로 해결하려함 -> 따로 분석기 필요 * 형태소 분석기 : 조사, 형용사 등 다 분리하는 작업 * ex 아버지가 방에 들어가신다/ 아버지가방에 들어가신다 * www.konlpy.org KoNLPy: Korean NLP in Python — KoNLP..
2023. 7. 24.