IT 활용 기술/ai 기술관련

생성형 AI의 기본 개념

glasslego 2025. 3. 12. 15:00

생성형 AI(Generative AI)는 새로운 콘텐츠를 창작하거나 기존 콘텐츠를 변형할 수 있는 인공지능 시스템을 말합니다. 이는 단순히 주어진 입력에 대해 분류하거나 예측하는 판별 모델(Discriminative Models)과 구별됩니다.

생성형 AI의 핵심 능력은 다음과 같습니다:

  • 학습 데이터의 패턴과 구조를 파악
  • 이를 기반으로 유사하지만 새로운 데이터 생성
  • 텍스트, 이미지, 음악, 비디오 등 다양한 형태의 콘텐츠 생성

수학적 정의와 원리

생성형 AI는 확률론적 관점에서 정의될 수 있습니다:

1. 확률 분포 모델링

생성 모델은 실제 데이터의 확률 분포 $p_{data}(x)$를 학습하고, 이에 근사하는 모델 분포 $p_{model}(x; \theta)$를 구축합니다. 여기서 $\theta$는 모델의 파라미터입니다.

수학적으로 생성 모델의 학습 목표는 다음과 같이 표현할 수 있습니다:

$$\theta^* = \arg\min_\theta D(p_{data}(x) | p_{model}(x; \theta))$$

여기서 $D$는 두 확률 분포 간의 거리 또는 발산(divergence)을 측정하는 함수입니다. 흔히 사용되는 것으로는 KL-발산(Kullback-Leibler divergence)이 있습니다.

2. 생성 과정의 수학적 표현

생성 과정은 학습된 모델 분포로부터 샘플링하는 것으로 표현됩니다:

$$x_{new} \sim p_{model}(x; \theta^*)$$

여기서 $x_{new}$는 모델이 생성한 새로운 데이터 포인트입니다.

3. 잠재 변수 모델

대부분의 현대 생성 모델은 잠재 변수(latent variable) $z$를 도입하여 복잡한 데이터 분포를 모델링합니다:

$$p_{model}(x; \theta) = \int p_{model}(x|z; \theta)p(z)dz$$

여기서 $p(z)$는 잠재 공간의 사전 분포(prior distribution)이며, $p_{model}(x|z; \theta)$는 주어진 잠재 변수 $z$에 대한 $x$의 조건부 분포입니다.

주요 생성 모델의 수학적 접근

1. 생성적 적대 신경망(GAN)

GAN은 생성자 $G$와 판별자 $D$ 두 네트워크가 경쟁하며 학습합니다. 목적 함수는:

$$\min_G \max_D V(D, G) = \mathbb{E}{x \sim p{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]$$

2. 변분 오토인코더(VAE)

VAE는 인코더-디코더 구조와 변분 추론(variational inference)을 결합합니다. 손실 함수는:

$$\mathcal{L}(\theta, \phi; x) = -\mathbb{E}{z \sim q{\phi}(z|x)}[\log p_{\theta}(x|z)] + D_{KL}(q_{\phi}(z|x) | p(z))$$

여기서 $q_{\phi}(z|x)$는 인코더(근사 사후 분포), $p_{\theta}(x|z)$는 디코더(우도), $D_{KL}$은 KL-발산입니다.

3. 확산 모델(Diffusion Models)

확산 모델은 점진적으로 노이즈를 제거하는 과정을 학습합니다. 조건부 확률은:

$$p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$$

전체 생성 과정은 다음과 같이 표현됩니다:

$$p_\theta(x_0|x_T) = \int p_\theta(x_{0:T}|x_T)dx_{1:T-1} = \int \prod_{t=1}^{T} p_\theta(x_{t-1}|x_t)dx_{1:T-1}$$

4. 자기회귀 모델(Autoregressive Models)

자기회귀 모델(예: GPT 계열)은 시퀀스 데이터의 확률을 이전 요소들의 조건부 확률의 곱으로 분해합니다:

$$p(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} p(x_i | x_1, x_2, ..., x_{i-1})$$

Transformer 기반 언어 모델에서는 이 확률을 다음과 같이 모델링합니다:

$$p(x_i | x_1, x_2, ..., x_{i-1}) = \text{softmax}(W_o h_i + b_o)$$

여기서 $h_i$는 이전 토큰들의 정보를 인코딩하는 Transformer의 마지막 레이어 출력입니다.

생성형 AI의 평가 지표

생성형 AI의 성능을 평가하는 다양한 수학적 지표가 있습니다:

  1. Inception Score (IS): 생성된 이미지의 품질과 다양성을 측정 $$IS = \exp(\mathbb{E}{x \sim p_g}[D{KL}(p(y|x) | p(y))])$$
  2. Fréchet Inception Distance (FID): 생성된 이미지와 실제 이미지 간의 유사도 측정 $$FID = ||\mu_r - \mu_g||^2 + Tr(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})$$
  3. BLEU, ROUGE, METEOR: 생성된 텍스트의 품질을 평가하는 지표

이러한 수학적 정의와 원리는 현대 생성형 AI 시스템의 이론적 기반을 제공하며, 다양한 응용 분야에서 새로운 아이디어와 혁신을 이끌어내는 토대가 되고 있습니다.