제 2장: Gemma 4 내부 구조 심층 분석Gemma 4가 기존 OCR의 한계를 극복하고 '문서 지능'의 정점에 도달할 수 있었던 비결은 그 내부 아키텍처의 혁신에 있습니다. 과거의 모델들이 시각 인코더와 언어 모델을 단순히 어댑터(Adapter)로 이어 붙인 '결합형' 구조였다면, Gemma 4는 시각적 이해와 언어적 추론이 하나의 신경망 안에서 유기적으로 공존하는 '네이티브 멀티모달' 구조를 지향합니다. 이번 장에서는 Gemma 4의 핵심 아키텍처를 해부하여, 복잡한 문서를 인간처럼 읽어내는 기술적 실체를 분석합니다.2.1 네이티브 멀티모달 토크나이저: 이미지는 어떻게 언어가 되는가?기존의 OCR 시스템은 이미지를 텍스트로 '번역'한 후 모델에게 전달하는 단방향 프로세스를 가졌습니다. 이 과정에서 ..