
제 2장: Gemma 4 내부 구조 심층 분석
Gemma 4가 기존 OCR의 한계를 극복하고 '문서 지능'의 정점에 도달할 수 있었던 비결은 그 내부 아키텍처의 혁신에 있습니다. 과거의 모델들이 시각 인코더와 언어 모델을 단순히 어댑터(Adapter)로 이어 붙인 '결합형' 구조였다면, Gemma 4는 시각적 이해와 언어적 추론이 하나의 신경망 안에서 유기적으로 공존하는 '네이티브 멀티모달' 구조를 지향합니다. 이번 장에서는 Gemma 4의 핵심 아키텍처를 해부하여, 복잡한 문서를 인간처럼 읽어내는 기술적 실체를 분석합니다.
2.1 네이티브 멀티모달 토크나이저: 이미지는 어떻게 언어가 되는가?
기존의 OCR 시스템은 이미지를 텍스트로 '번역'한 후 모델에게 전달하는 단방향 프로세스를 가졌습니다. 이 과정에서 폰트의 크기, 강조 선, 표의 테두리 같은 핵심적인 시각적 정보는 모두 소실되었습니다. 하지만 Gemma 4는 이미지 그 자체를 고유한 의미를 가진 '시각적 단어(Visual Tokens)'로 직접 인식합니다.
2.1.1 시각적 패치 임베딩과 동적 해상도 (Dynamic Patch Embedding)
문서 이미지가 입력되면 모델은 이를 고정된 크기가 아닌, 정보 밀도에 따른 가변적인 패치(Patch) 단위로 분할합니다.
- 프로세스: 일반적으로 $14 \times 14$ 또는 $16 \times 16$ 크기의 그리드로 이미지를 쪼개며, 각 패치는 선형 투영(Linear Projection)을 통해 고차원 벡터로 변환됩니다. 이 벡터는 모델의 임베딩 공간(Embedding Space)에서 텍스트 토큰과 동일한 차원으로 매핑됩니다.
- 실무적 깊이: 특히 Gemma 4는 고해상도 문서 처리를 위해 '동적 해상도(Dynamic Resolution)' 기술을 사용합니다. 아주 작은 글씨가 밀집된 영수증 하단의 유의사항이나 복잡한 도면의 경우, 특정 영역을 더 세밀한 패치로 분할하여 인식률을 높입니다.
- 기술적 함의: 이는 단순한 픽셀 정보의 나열이 아닙니다. 글자의 모양뿐만 아니라 여백의 미학, 선의 굵기 변화, 심지어 직인에 의해 가려진 텍스트의 흔적까지도 벡터 정보로 보존함을 의미합니다. 덕분에 흐릿한 인보이스의 소수점($\cdot$)과 단순한 노이즈를 구분할 수 있는 고도의 공간 지능을 갖추게 됩니다.
2.1.2 유니파이드 어텐션과 인터리브드 토큰 (Unified Interleaved Processing)
Gemma 4의 혁신은 이미지 토큰과 텍스트 토큰을 차별하지 않고 동일한 어텐션 레이어(Attention Layer)에서 동시에 처리한다는 점에 있습니다.
- 수식적 구성: 입력 시퀀스 $S$는 이미지 패치 토큰($v$)과 텍스트 프롬프트 토큰($t$)이 혼합된 형태로 구성됩니다.$$S = \{v_1, v_2, \dots, v_n, t_1, t_2, \dots, t_m\}$$
- 상호작용 메커니즘: 모델은 "이 인보이스에서 'Total' 옆의 숫자를 추출해"라는 요청을 받으면, 텍스트 토큰인 'Total'($t_x$)과 이미지 내의 특정 좌표 패치($v_y$) 사이의 교차 상관관계(Cross-correlation)를 즉각적으로 계산합니다.
- 효과: 시각 정보와 언어 정보가 분리되지 않고 하나의 '문맥' 안에서 처리되므로, "위의 표를 JSON으로 변환해줘"와 같은 복잡한 지시 사항을 수행할 때 시각적 구조(표의 칸)와 언어적 의미(항목명)를 완벽하게 정렬(Alignment)할 수 있습니다.
2.2 고성능 추론의 핵심: MoE (Mixture of Experts) 아키텍처
OCR은 대량의 문서를 실시간으로 처리해야 하는 경제성이 필수적입니다. Gemma 4는 모든 파라미터를 매번 연산에 동원하는 대신, 데이터의 성격에 따라 최적의 경로만 활성화하는 MoE(Mixture of Experts) 구조를 통해 효율의 극치를 보여줍니다.
2.2.1 조건부 활성화와 라우팅 메커니즘 (Sparse Routing)
Gemma 4 내부에는 수십 개의 '전문가(Expert)' 신경망이 존재하며, 입력된 데이터가 '텍스트 위주'인지, '표 구조'인지, 혹은 '필기체'인지에 따라 라우터(Router)가 최적의 전문가 조합을 선택합니다.
- OCR 시나리오별 전문가 할당:
- 정형 데이터(표, 리스트) 입력 시: 구조 분석과 수치 추론에 특화된 전문가 노드군이 활성화되어 오차 없는 데이터 구조화를 수행합니다.
- 비정형 데이터(메모, 필기) 입력 시: 곡선 패턴과 필압, 시각적 노이즈 제거에 능숙한 전문가 노드군이 집중적으로 작동합니다.
- 경제적 이점: 모델의 전체 파라미터가 $27B$라 하더라도 실제 추론 시에는 그중 수분의 일인 $수 B$ 단위의 파라미터만 활성화됩니다. 이는 초거대 모델의 정확도를 유지하면서도, 추론 속도(Throughput)와 비용(TCO)은 중소형 모델 수준으로 낮추는 결정적인 요인이 됩니다.
2.2.2 GQA (Grouped Query Attention)를 통한 메모리 혁신
긴 문서를 처리할 때 가장 큰 병목은 GPU 메모리 점유율입니다. Gemma 4는 이를 해결하기 위해 GQA를 도입했습니다.
- 기술적 상세: 표준적인 Multi-Head Attention이 모든 Query마다 고유한 Key와 Value를 가지는 것과 달리, GQA는 여러 개의 Query가 하나의 KV-헤드 그룹을 공유하도록 설계되었습니다.
- 실무적 결과: 특히 다량의 이미지 토큰을 처리해야 하는 OCR 작업에서 KV-Cache 메모리 점유율을 $80\%$ 이상 획기적으로 절감합니다. 결과적으로 $100$페이지 이상의 방대한 금융 보고서를 한 번에 입력해도 메모리 부족(OOM) 현상 없이 안정적으로 전체 문맥을 관통하는 요약 및 추출 작업을 수행할 수 있습니다.
2.3 컨텍스트 윈도우 확장과 RoPE (Rotary Positional Embeddings)
문서 지능의 최종 관문은 '공간적 위치'에 대한 완벽한 이해입니다. 1페이지의 질문이 50페이지의 주석과 연결될 때, 모델은 그 위치와 거리를 수학적으로 인지해야 합니다.
2.3.1 2차원 공간 추론을 위한 RoPE 최적화
Gemma 4는 회전식 위치 임베딩(RoPE)을 개선하여, 텍스트의 선형적 순서뿐만 아니라 이미지 내의 2차원적 상대 위치(XY 좌표)를 벡터 공간에 투영합니다.
- 작동 원리: 특정 텍스트가 문서의 '우측 상단'에 있는지 '중앙 하단'에 있는지를 $cos, sin$ 함수 기반의 벡터 회전으로 인코딩하여 모델에게 주입합니다.
- 실무 사례: 복잡한 보험 약관이나 법률 문서에서 특정 조항이 '본문'의 일부인지, 아니면 '각주(Footnote)'인지 구분하는 결정적 기준은 텍스트 내용이 아니라 '물리적 위치'입니다. Gemma 4는 이 공간 정보를 활용해 문서의 레이아웃을 인간과 동일한 시각적 논리로 판별합니다.
2.3.2 무한에 가까운 문서 이해 (Long Context Capabilities)
$128K$ 이상의 압도적인 컨텍스트 윈도우를 지원함에 따라, 이제 문서를 페이지 단위로 잘게 쪼개어 처리한 뒤 다시 합치는 복잡한 '후처리 로직'이 필요 없습니다.
- 통합적 추론: 수십 장의 계약서 전체를 한 번에 모델의 '작업 기억 장치'에 올림으로써, 앞 장에서 언급된 정의(Definition)가 뒷 장의 조항에서 어떻게 변형되어 쓰였는지 모델이 스스로 추적할 수 있습니다. 이는 단순 OCR을 넘어선 '디지털 문서 분석가'로서의 자격을 부여합니다.
요약: Gemma 4의 아키텍처는 이미지를 언어의 일부로 받아들이는 토크나이저, 필요한 지능만 골라 쓰는 효율적인 MoE, 그리고 공간의 제약을 허무는 RoPE와 Long Context의 결합체입니다. 이러한 탄탄한 기반 위에서 우리는 단순한 글자 인식을 넘어, 문서의 영혼(구조와 맥락)을 이해하는 차세대 OCR 엔진을 구축할 수 있게 됩니다.
'VLM OCR' 카테고리의 다른 글
| 제 1장: 왜 OCR을 위해 Gemma 4인가? (0) | 2026.05.23 |
|---|---|
| Gemma 4: 엔터프라이즈급 VLM OCR 엔진 구축 실무 가이드 (0) | 2026.05.23 |