일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- tensorboard html5
- OPIC 당일치기
- OPIC 하루 전
- 강화학습 간단 정리
- DDPG
- OPIC 번개
- docker 환경 문제
- 빅데이터 분석기사 #빅분기실기 #데이터마님 # 빅분기실기준비
- ImportError: cannot import name 'Mapping' from 'collections' tensrorbaord
- gpt excel 사용
- ImportError: cannot import name 'Mapping' from 'collections'
- 엑셀에 ollama
- tersorboard mapping
- cross entoropy
- tesorboard
- 일기 #다짐
- AI생성함
- AI모델
- 음성전처리 #음성처리 #python 음성추출 # python 음성 추출 #moviepy
- 인간종말
- dice loss
- OPIC 시험 전날
- tensorboard 에러
- reinforced learning
- whisper jax
- focal loss
- OPIC 오늘 시작
- OPIC 하루전 시작
- 공개키 docker
- ollama
- Today
- Total
목록AI/딥러닝을 이용한 자연어처리 (6)
Moonie
출처 : //https://wikidocs.net/31766 06) 정수 인코딩(Integer Encoding) 컴퓨터는 텍스트보다는 숫자를 더 잘 처리 할 수 있습니다. 이를 위해 자연어 처리에서는 텍스트를 숫자로 바꾸는 여러가지 기법들이 있습니다. 그리고 그러한 기법들을 본격적으로 ... wikidocs.net 컴퓨터는 텍스트 보다 숫자를 더 잘 처리 함. 자연어 처리에서는 텍스트를 숫자로 바꾸는 여러가지 기법들이 존재하며 이를 적용하기 위한 첫 단계로 각 단어를 고유한 정수에 맵핑(mapping)시키는 전처리 작업이 필요. ex) 텍스트에 단어가 5,000개 존재 한다면 1~5000번 까지 단어와 매핑되는 고유한 정수, 다른 표현으로는 인덱스를 부여하며 보통 단어 등장 빈도수를 기준으로 정렬한 뒤에..

import re 파이썬에서 지원하고 있는 정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대하여 알아본다. 1. 정규 표현식 문법과 모듈 함수 파이썬에서는 정규 표현식 모듈 re를 이용하면 특정 규칙이 있는 텍스트를 빠르게 정제할 수 있음 1) 정규 표현식 문법 정규 표현식을 위해 사용되는 문법 중 특수 문자들은 아래와 같다. . 한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외) ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개) * 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상) + 앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상) ^ 뒤의 문자열로 ..

stop_words_list = stopwords.words('english') print('불용어 개수 :', len(stop_words_list)) print('불용어 10개 출력 :',stop_words_list[:10]) 불용어 - 자주 등장하지만 실제 의미 분석을 하는데에 거의 기여하지 않는 단어 ex) I, my, me, over, 조사, 접미사 NLTK 100여 개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있음 1. NLTK에서 불용어 확인하기 from nltk.corpus import stopwords from nltk.tokenize import word_tokenize from konlpy.tag import Okt stopwords.words("english")는 N..

https://wikidocs.net/21707 를 기반으로 작성되었습니다. 문제시 삭제하도록 하겠습니다. 코드들은 위의 홈페이지에서 기본적인 라이브러리를 설치되어 있다는 가정하게 진행됩니다. 정규화 기법 중 코퍼스에 있는 단어 개수를 줄일 수 있는 기법인표제어 추출(lemmatization)과 어간 추출(stemming)의 개념에 대해 알아본다. 이 두 작업이 갖고 있는 의미는 한 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다는 것이다. 이러한 방법들은 단어의 빈도수를 기반으로 문제를 풀고자 하는 뒤에서 학습하게 될 BoW(Bag of Words) 표현을 사용하는 자연어 처리 문제에서 주로 사용된다. 자연어 처리에서 전처리, 더 정확히는 정규화의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄..