기계번역 분야에서의 RNN
RNN 모델은 LM뿐만 아니라, NLP 분야의 다양한 task에서 활용되고 있습니다. 이번 포스트에서는 기계 번역(Machine Translation) 분야를 다뤄보고자 합니다. encoder-decoder 모델 구조 RNN을 사용한 기계 번역 모델의 토대인, 두 개의 RNN으로 구성된 encoder-decoder 모델은 cho et al. 20...
RNN 모델은 LM뿐만 아니라, NLP 분야의 다양한 task에서 활용되고 있습니다. 이번 포스트에서는 기계 번역(Machine Translation) 분야를 다뤄보고자 합니다. encoder-decoder 모델 구조 RNN을 사용한 기계 번역 모델의 토대인, 두 개의 RNN으로 구성된 encoder-decoder 모델은 cho et al. 20...
n-gram Language Model(LM)은 어떤 단어들의 나열 $x^{(1)}, x^{(2)},…, x^{(t)}$ 이 주어졌을 때, 다음 단어 $x^{(t+1)}$가 등장할 확률을 계산하는 모델입니다. 이 때 모든 단어들은 미리 정의한 단어 사전 $V$에 포함되어 있음을 가정합니다. [P(x^{(t+1)} ...
보통 CNN 모델은 입력 이미지 사이즈가 고정되어 있어야 합니다. 이런 제약사항으로 인해, 임의의 사이즈 및 가로세로비를 갖는 이미지들에 대한 정확도가 감소할 수 있는데요. 본 논문에서는 이미지 사이즈에 관계없이, 고정된 길이의 representation을 생성하는 새로운 pooling 전략을 제안합니다. 저자들은 Spatial pyramid poo...
ResNet 등장 배경 모델이 깊을수록 학습하기 어려움 layer를 깊게 쌓을수록 모델이 보다 풍부한 feature를 학습할 수 있기 때문에 vision task에서 모델의 깊이는 모델의 성능을 결정짓는 매우 중요한 요소로 여겨짐 VGGNet도 3x3 크기의 작은 filter를 사용하여 layer를 깊이 쌓아 Ale...
비선형성 때문에 분류 결과가 어떻게 도출되었는지 자세한 정보를 제공하지 못함 → 예측 결과(value)를 분해해서 이미지 픽셀 각각의 기여도를 구한 다음, heatmap으로 시각화 pre-trained model에 적용하는 방식 pixel-wise training이나 pixel-wise labeling 불필요 layer-wise re...
주요 contribution 이전 연구와 달리 supervised 방식으로 학습한 모델을 시각화 주어진 이미지 대해서 특정 클래스의 spatial support 계산 (image-specific class saliency map) gradient 기반의 시각화 방법과 deconvolutional network reconstruction 사...
BERT는 대용량 corpus로 pre-training한 모델의 파라미터를 target task 수행을 위한 labeled data 학습 과정에서 fine-tuning하는 transfer-learning 모델입니다. Transformer의 Encoder만으로 구성되어 있다는 특징이 있습니다. 선행 연구와의 비교 BERT의 대표적인 선행연구로는 EL...
이번 포스트에서는 비선형 차원축소 기법 중 하나인 Kernel PCA에 대하여 알아보겠습니다. 이름에서 알 수 있듯이 Kernel trick과 PCA가 함께 사용되는 기법이기 때문에, 먼저 Kernel Trick과 PCA에 대한 이해가 필요한데요. PCA에 대한 설명은 이전 포스트을 참고하시면 됩니다. Kernel Trick 위 그림과 같이 in...
이번 포스트에서는 대표적인 차원 축소 기법 중 하나인 PCA에 대해 살펴보겠습니다. PCA는 주어진 데이터의 분산을 최대한 보존하면서 고차원 상의 데이터를 저차원 데이터로 변환하는 기법입니다. 아래 그림(출처)에서와 같이 데이터의 분산을 최대한 보존하는, 서로 직교(orthogonal)하는 축(component)을 찾고 그 축에 데이터를 project...
Hyperparameter Optimization(HPO) Exhaust search of the search space: Grid Search, Random Search Use of surrogate model: Bayesian Optimization, Tree-structured Parzen Estimators(TPE) Algorit...