Attention

최근 GPT, Claude, DeepSeek 같은 대규모 언어 모델(LLM)이 보여주는 놀라운 추론 능력은 어디에서 기인할까요? 단순히 데이터를 많이 읽어서일까요? 그 핵심은 방대한 정보를 저장하는 **‘파라미터(Parameter)’**와, 그 정보들 사이에서 맥락을 짚어내는 **‘어텐션(Attention)’**의 상호작용에 있습니다. 오늘은 이 두 개념이 어떻게 ‘연관 지식의 중첩’을 만들고, 실시간으로 변별력 있는 답변을 생성하는지, 나아가 우리가 왜 프롬프트를 잘 써야 하는지 심층적으로 살펴보겠습니다. 1. 파라미터(Parameter): 지식이 중첩된 ‘다차원 도서관’ 많은 분이 파라미터 개수(예: 7B, 70B 등)를 단순히 ‘AI의 용량 혹은 크기’로 이해합니다. 하지만 더 정확한 표현은 **‘지식의 밀도와 중첩도’**입니다. ...