[Paper Review] LoRA: Low-Rank Adaptation of Large Language Models

지난 포스트에서 살펴봤듯이, GPT-3는 모델 크기 확장과 in-context learning으로 Zero-shot 성능을 크게 끌어올렸습니다. 하지만 여전히 fine-tuning이 필요한 영역은 존재합니다. GPT-3 저자들은 아래와 같이 모델의 한계를 확인했는데요. 저자들이 추정한 원인은 단방향 LM이 지닌 구조적 문제와 fine-tuning의 부...

Mar 15, 2024 Language-Model

[Paper Review] GPT-3: Language Models are Few-Shot Learners

이번 포스트에서는 지난 포스트에 이어 GPT-3(2020)에 대해 다뤄 보려고 합니다. GPT-3는 프롬프트 설계라는 새로운 연구 개발 영역을 개척하고, Large Language Model(LLM) 시대의 서막을 열었다는 점에서 주목할 만한 모델입니다. GPT-3에 대해 자세히 살펴보기에 앞서, 요즘 화두가 되고 있는 LLM의 발전 과정에 대해 간단...

Feb 19, 2024 Language-Model

Pytorch 모델 onnx 모델로 변환하기

ONNX는 클라우드, 모바일, 엣지 디바이스 등에서 모두 지원되어 인프라에 구애받지 않고 동일한 모델을 여러 환경에 배포할 수 있습니다. 또한 CUDAExecutionProvider, TensorRTExecutionProvider 등 다양한 하드웨어 가속기를 지원하여 여러 하드웨어 환경에서 최적화된 성능으로 추론을 수행할 수 있게 해 줍니다. 이러한 ...

Jan 15, 2024 Model-Serving

Mixed Precision과 Half Precision

Mixed Precision와 Half Precision는 데이터 타입과 연산 방식을 최적화하여 메모리 사용량을 줄이고 연산 속도를 높이기 위해 사용하는 기법입니다. 그러나 두 가지는 사용 방식과 적용 범위에서 차이가 있습니다. 1. Half Precision (FP16) Half Precision은 FP16(16-bit floating point...

Jan 8, 2024 Model-Serving

[Paper Review] VQ-VAE: Vector Quantised-Variational AutoEncoder

VQ-VAE는 VAE와 discrete latent representation을 결합한 모델입니다. continuous representation을 학습하는 VAE 모델과 비슷한 성능을 보이면서 discrete distribution의 유연성도 가지고 있는 모델인데요. VQ-VAE에 대해 자세히 알아 보기에 앞서, VAE와의 차이점을 정리해보면 다음과...

Oct 2, 2023 Vision

GANs for Image to Image translation

Image-to-Image translation은 주어진 이미지에서 특정한 attribute의 value를 다른 것으로 바꾸는 task를 말합니다. 예를 들어, 성별을 여성에서 남성으로 바꾸거나 얼굴에서 눈썹만 제거하는 것이 여기에 속합니다. 본 포스트에서 등장하는 주요 용어를 정리해보면 다음과 같습니다. attribute: 하나의 이미지에 내...

Sep 18, 2023 Vision

GANs for Single Image Super-Resolution

Single Image Super-Resolution(SISR)은 한 장의 저해상도 이미지를 고해상도 이미지로 변환하는 방법을 연구하는 분야입니다. 일반적으로, upsampling을 통해 저해상도 이미지의 width, height를 키운 다음, Neural Network에 통과시켜 세밀한 정보를 추가한 고해상도 이미지를 생성합니다. SISR은 학습 방...

Sep 4, 2023 Vision

[Paper Review] StyleGAN

본 포스트에서는 NVIDIA에서 발표한 이미지 생성 모델 StyleGAN에 대해 알아보려고 합니다. StyleGAN은 이미지의 특징 제어 관점에서 높은 성능을 달성한 모델인데요. StyleGAN에 대해 알아보기 전에, StyleGAN의 토대가 된 모델인 ProGAN을 살펴보겠습니다. ProGAN 역시 NVIDIA에서 발표한 모델로, ProGAN에서 생...

Aug 21, 2023 Vision

Generative Adversarial Networks

딥러닝 기반 생성 모델이 등장하기 전에는 주로 Markov chain과 같은 통계적인 방법에 의존해 데이터의 분포를 모델링하고, sample을 생성했습니다. 이 모델들은 이미지와 텍스트같이 복잡한 분포를 가진 데이터들을 모델링하는데 한계가 있었는데요. VAE, GAN과 같은 딥러닝 기반 생성 모델들은 neural network로 구성되어 있어 back...

Aug 7, 2023 Vision

분포 간의 거리를 측정하는 방법들

본 포스트에서는 생성 모델 GAN을 이해하기 위해 필요한 개념인 분포 간의 거리를 측정하는 방법들 KL divergence, JS divergence와 Wasserstein에 대해 정리해 보겠습니다. KL divergence는 우리가 분류 모델의 loss function으로 흔히 사용하는 Cross Entropy와 깊은 관계가 있습니다. KL dive...

Jul 3, 2023 Data-Analysis