[Paper Review] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Introduction Transformer가 NLP 분야의 새로운 표준으로 떠오르면서, Transformer를 vision 분야에도 적용하려는 다수의 연구가 진행되었습니다. 하지만 전체적인 CNN 구조를 유지한 모델이 많았는데요. 본 논문에서 제안하는 Vision Transformer는 기존 Transformer의 구조를 최대한 바꾸지 않고 높은 ...

Jan 23, 2023 Vision

[Paper Review] Attention is All You Need

Introduction sequence modeling 관점에서 RNN과 Transformer를 비교해보면 다음과 같이 정리할 수 있습니다. Challenges with RNNs Transformer Networks 멀리 떨어진 단어들 간의 의존성을 학습하기 어려움 ...

Jan 16, 2023 Language-Model

기계번역 분야에서의 RNN

RNN 모델은 LM뿐만 아니라, NLP 분야의 다양한 task에서 활용되고 있습니다. 이번 포스트에서는 기계 번역(Machine Translation) 분야를 다뤄보고자 합니다. encoder-decoder 모델 구조 RNN을 사용한 기계 번역 모델의 토대인, 두 개의 RNN으로 구성된 encoder-decoder 모델은 cho et al. 20...

Jan 9, 2023 Language-Model

Language Model: n-gram에서 RNN으로의 발전

n-gram Language Model(LM)은 어떤 단어들의 나열 $x^{(1)}, x^{(2)},…, x^{(t)}$ 이 주어졌을 때, 다음 단어 $x^{(t+1)}$가 등장할 확률을 계산하는 모델입니다. 이 때 모든 단어들은 미리 정의한 단어 사전 $V$에 포함되어 있음을 가정합니다. [P(x^{(t+1)} ...

Jan 2, 2023 Language-Model

[Paper Review] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

보통 CNN 모델은 입력 이미지 사이즈가 고정되어 있어야 합니다. 이런 제약사항으로 인해, 임의의 사이즈 및 가로세로비를 갖는 이미지들에 대한 정확도가 감소할 수 있는데요. 본 논문에서는 이미지 사이즈에 관계없이, 고정된 길이의 representation을 생성하는 새로운 pooling 전략을 제안합니다. 저자들은 Spatial pyramid poo...

Dec 26, 2022 Vision

[Paper Review] Deep Residual Learning for Image Recognition

ResNet 등장 배경 모델이 깊을수록 학습하기 어려움 layer를 깊게 쌓을수록 모델이 보다 풍부한 feature를 학습할 수 있기 때문에 vision task에서 모델의 깊이는 모델의 성능을 결정짓는 매우 중요한 요소로 여겨짐 VGGNet도 3x3 크기의 작은 filter를 사용하여 layer를 깊이 쌓아 Ale...

Dec 19, 2022 Vision

[Paper Review] On Pixel-Wise Explanations for Non-Linear Classifier Desisions by Layer-Wise Relevance Propagation

비선형성 때문에 분류 결과가 어떻게 도출되었는지 자세한 정보를 제공하지 못함 → 예측 결과(value)를 분해해서 이미지 픽셀 각각의 기여도를 구한 다음, heatmap으로 시각화 pre-trained model에 적용하는 방식 pixel-wise training이나 pixel-wise labeling 불필요 layer-wise relev...

Dec 12, 2022 XAI

[Paper Review] Deep inside Convolutional networks Visualising Image Classification Models and Saliency Maps

주요 contribution 이전 연구와 달리 supervised 방식으로 학습한 모델을 시각화 주어진 이미지 대해서 특정 클래스의 spatial support 계산 (image-specific class saliency map) gradient 기반의 시각화 방법과 deconvolutional network reconstruction 사...

Dec 5, 2022 XAI

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT는 대용량 corpus로 pre-training한 모델의 파라미터를 target task 수행을 위한 labeled data 학습 과정에서 fine-tuning하는 transfer-learning 모델입니다. Transformer의 Encoder만으로 구성되어 있다는 특징이 있습니다. 선행 연구와의 비교 BERT의 대표적인 선행연구로는 EL...

Nov 28, 2022 Language-Model

Kernel PCA

이번 포스트에서는 비선형 차원축소 기법 중 하나인 Kernel PCA에 대하여 알아보겠습니다. 이름에서 알 수 있듯이 Kernel trick과 PCA가 함께 사용되는 기법이기 때문에, 먼저 Kernel Trick과 PCA에 대한 이해가 필요한데요. PCA에 대한 설명은 이전 포스트을 참고하시면 됩니다. Kernel Trick 위 그림과 같이 in...

Nov 21, 2022 Data-Analysis