'가짜 연구소_NLP 스터디' 카테고리의 글 목록

[NLP 스터디] 14장. BERT

Encoder의 구조 - Multi Head Attention - Add & Norm - Feed Forward neural network Decoder의 구조 - Masked Multi Head Attention - 미래의 단어에 Attention을 적용하면 안되기에 Masking - Multi Head Attention - Add & Norm - Feed Forward neural network Post-processing - Linear layer - Softmax layer - 가장 높은 확률값을 가지고 있는 것이 다음 단어가 된다 BERT - Pre-train : 사전 학습 - Downstream task : 구체적인 문제 에 적용되는 방법 - L (the number of layers) , A..

가짜 연구소_NLP 스터디 2022. 11. 22. 22:42

[NLP]CNN & 트랜스포머

- CNN 등장으로 딥러닝을 통해 이미지 인식을 위한 특성을 잡아냄 - CNN : 이미지의 특징을 잡아내기 위한 모델 - 최종적으로 구해지는 행렬을 "feature map"이라고 한다. - CNN에서는 Pooling연산(Pixel 수를 줄이는) -> max pooling, average pooling이 사용 - Convolution(합성곱 연산), Pooling이 적절히 반복되고 마지막에 fully connected layer를 두어 요약정보를 받아 최종 분류 CNN이 적용된다면? 이미지 분류 문서 분류 목적 픽셀 중심으로 윈도우 내에 있는 픽셀 파악 -> 주변 정보 요약 단어 중심으로 앞뒤 단어의 문맥 파악 -> 주변 정보 요약 데이터 형태 2차원 이미지 벡터(색상이 반영되면 3차원) 2차원 벡터(단어..

가짜 연구소_NLP 스터디 2022. 11. 15. 22:50

[NLP] 11장_Word2Vec, ELMo, Doc2Vec

- 임베딩 모델의 성능평가 A) Word2Vec의 경우 성능 평가를 위한 보편적인 지표 X A_논문) 단어 임베딩 모델 자체의 의미론적 특성 직접 평가 --> 유사도 검사 및 유추 검사 - 유사도 검사 (tiger - cat 7.5점) - 유추 검사(동일한 의미론적/문법적 관계에 있는 단어들은 벡터의 길이가 동일) 단어 임베딩 모델을 이용한 테스크의 성능을 비교함으로써 간접적으로 해당 모델 평가 --> 감정 분석 - Skip-gram의 성능을 더 좋게 하는 방법 A) Skip-gram의 성능을 더 좋게 하는 방법 --> 의미적으로 중요하지 않은 단어인 'the'같은 것 제외하는 쪽으로 +) Negative Sampling : 모델의 성능 향상을 위해 정답 분만이 아니라 오답도 학습시킨다.

가짜 연구소_NLP 스터디 2022. 11. 9. 02:23

[NLP스터디] 10장. RNN- 딥러닝을 이용한 문서 분류(수정)

- RNN(Recurrent Neural Networks) : 순환신경망, 즉 순차적인 영향을 표현(축적)하기 위한 모형(ex. 시계열) - 문맥은 단어들의 순서를 통해서 형성 ▷ RNN은 단어가 쓰여진 순서의 패턴으로 문맥을 파악하기에 좋은 모형! - RNN 신경망 모형의 입력은 내가 정한 수의 입력 - RNN의 출력인 o는 모형을 통해 예측하고 싶은 값 혹은 라벨로 구성 - 시계열의 앞 값들이 뒤에 미치는 영향은 은닉층의 노드들 간의 연결 통해 구현 - BUT RNN은 딥러닝의 대표적인 문제인 경사소실의 문제 심각! - ex. 문서 분류) 원핫 벡터(one- hot vector) -> 밀집 벡터(dense vector) -> RNN 모형의 입력으로 사용(-> hidden layer -> Output ..

가짜 연구소_NLP 스터디 2022. 11. 2. 03:09

[NLP 스터디] 10장_RNN - 딥러닝을 이용한 문서 분류

10장_ RNN - 딥러닝을 이용한 문서 분류 RNN(Recurrent Neural Networks): 시계열 데이터처럼 순차적인 영향을 표현(축적)하기 위한 모형 -> 단어가 쓰여진 순서의 패턴으로 문맥 파악 시계열의 앞 값들이 뒤에 미치는 영향은 은닉층의 노드들 간의 연결을 통해 구현 RNN의 출력인 o = “예측하고 싶은 값” or “라벨” 단어들의 순서를 통해 형성되는 문맥은 RNN으로 파악하기 good But RNN은 경사소실 문제가 심각 —> 그저 텍스트마이닝에 딥러닝 더하는 것의 출발점! 입력은 원핫 벡터로 표현하고 다시 짧은 길이의 밀집 벡터로 표현 대부분의 분석 방법론이 수치 형태의 데이터 다룸 그래서 범주형 데이터 → 수치형 데이터로 변환 (더미 변수의 이용(원핫 인코딩) & 임베딩) ..

가짜 연구소_NLP 스터디 2022. 10. 16. 23:46

[NLP 스터디] 9장_인공신경망과 딥러닝의 이해

9장_인공신경망과 딥러닝의 이해 딥러닝: ‘층이 깊은(은닉층을 여러 층으로 설계) 인공신경망을 사용하는 기계학습 알고리즘’ 가중치는 학습을 통해 결정되는데, 학습을 통해 노드가 생성해야 할 값의 정확도를 높이는 방향으로 가중치 조절 —> 즉 인공신경망에서의 학습은 올바른 가중치의 값을 구하는 것 출력층은 클래스의 수만큼의 노드로 구성(이항분류, 하나의 수치 예측 - 하나의 노드 구성) 학습: ‘학습 데이터를 이용해 올바른 가중치를 찾아가는 혹은 조정하는 과정’ —> 목표 출력값 혹은 실제 출력값을 매칭시킨 학습자료를 이용해서, 주어진 입력값에 매칭되는 출력값을 예측할 수 있도록 가중치를 조정하는 지도학습 이용 —> 가중치를 조정해서 손실함수의 값을 최소화시키는 것 —> 손실함수(loss(w))를 최소화하..

가짜 연구소_NLP 스터디 2022. 10. 16. 21:55

[NLP 스터디] 7회차. 토픽 모델링

- 토픽 모델링 : 주제를 파악할 때 쓰는 방법( 문서 분류 - 예측, 토픽 모델링 - 내용 분석) --> LDA 함께 사용되는 단어의 집합으로 문서에 담긴 주제를 표현하면 더 구체적, 명확하게 의미를 보여줄 수 있음 '내재된 주제의 분석'을 가능하게 하는 기법 --> (ex. 청와대 국민청원 토픽 모델링 결과 - 외교, 육아 등 주제 세분화, 구체화 가능) - LDA 모형 : 토픽 모델링에 가장 널리쓰이는 기본적인 알고리즘으로, 기본 가정은 문서들이 쓰여질 때 그 문서를 구성하는 몇 개의 토픽이 존재하며 각 토픽은 단어의 집합으로 구성됐다는 것. 즉 "내재한 토픽들을 유추하고자 하는 통계적인 방법론" - 토픽 모델링의 목적 1. 문서에 따른 토픽의 확률분포를 추정 --> 디리클레 분포 이용 *디리클레 ..

가짜 연구소_NLP 스터디 2022. 10. 16. 21:52

[1회차] NLP 스터디_0913

* word_tokenize와 달리 WordPunctTokenizer는 It's를 It, ', s 세 토큰으로 분리함(서로 다른 알고리즘에 기반해서) * 단어 분할 : 공백만으로 토큰화가 잘 되지 않을 때 단어 분리 --> KoNLPy * 정규 표현식 : regex, regexp라고 줄여서 표현,, 문자열에 대해 원하는 검색 패턴을 지정하는 방법 --> 메타 문자로 패턴을 표현 ---> 정규표현식 지원 라이브러리는 re *영어에서의 불용어 사전 -> stopwords 라이브러리 이용 * 영어에서의 스테머 알고리즘 -> 단어가 변형되는 규칙을 이용해 원형을 찾으므로, 그 결과가 항상 사전에 있는 올바른 단어가 되지는 않는다. * 랭카스터 스테머 * 표제어 추출 -> lemma로 변환한다는 뜻,, '단어의 ..

가짜 연구소_NLP 스터디 2022. 9. 21. 18:36

Noong

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

가짜 연구소_NLP 스터디

추가 정보

인기글

최신글

페이징

티스토리툴바