AI는 지금까지 방대한 데이터를 학습하며 발전해 왔지만 인간처럼 경험을 기억하고 재활용하는 능력이 없어, 학습에 한계가 있습니다. 구글 딥마인드에서 새로 발표한 논문에서는 AI에게 경험을 기억하는 방법을 제안하고 있는데요, 이에 대해 알아봅시다.
기존의 LLM은 교과서를 통째로 외우는 매개변수 학습(Parametric Learning)을 통해 지식을 습득해 왔습니다. 방대한 데이터의 패턴과 규칙을 내재화하는 방식이죠. 하지만 이런 접근은 새로운 정보가 생길 때마다 모델 전체를 다시 학습해야 하는 비효율성이 있으며, AI가 학습한 데이터에 없는 질문에는 제대로 답하지 못하는 한계가 있습니다.
반면, 우리 인간은 특정 사건이나 경험을 기억(Episodic Memory) 속에 저장해 두었다가, 나중에 비슷한 상황이 닥치면 ‘그때 이렇게 했었지’ 하고 떠올려 문제를 해결합니다. 즉, 잠재 학습(latent learning)이 가능하다는 거죠. 당장 사용되는 지식은 아니지만, 향후 잠재적인 활용을 위해 지식을 습득하는 것을 의미합니다. 필요할 때 경험을 꺼내 쓰는 유연한 지식 재활용이 아직 AI가 인간에 비해 부족하죠.
잠재 학습 검증
잠재 학습 가설을 검증하기 위해 4개의 벤치마크 테스트를 진행했고, 오라클 검색 메커니즘과 컨텍스트 내 학습을 통해 인간의 기억 방식을 모방할 수 있는지를 실험했습니다.
- 오라클 검색(Oracle Retrieval): LLM이 스스로 가장 유용한 과거 경험을 찾아내도록 합니다.
- 컨텍스트 내 학습(In-Context Learning): 과거에 습득한 내용을 활용해 현재 맥락에 맞게 지식을 활용하고 스스로 학습하는 방식입니다.
벤치마크 테스트
- Codebooks Task: LLM은 특정 코드를 학습하지만, 일부 코드는 정의만 알려주고 실제 사용 예시를 제공하지 않고, 새로운 코드를 받았을 때 정의만으로도 기존에 학습한 규칙을 적용해 정답을 생성하는지 테스트.
- Simple Reversals: 모델에게 'X는 Y를 포함한다'는 순방향 관계만 주로 학습시키고 학습하지 않은 역방향 질문(예: 'Y는 무엇에 포함되나요?')에 답하는 능력을 테스트. 예를 들어 '파리는 프랑스에 있다'를 학습시키고 '프랑스에 있는 도시'를 질문하는 테스트.
- Semantic Structure: 반전, 삼단논법 등 복잡한 복잡한 언어 관계 능력을 테스트
- Latent Gridworld Navigation: 강화 학습 환경에서, 에이전트가 특정 목표물을 찾아 이동하는 학습을 했는데, 학습 중에는 목표물 외의 다른 물체도 보게 됨. 에이전트는 이전에 본 적은 있지만 목표물이 아니었던 물체도 찾아갈 수 있는지 테스트.
테스트 결과
결과는 4개의 테스트에서 새로운 학습 데이터 없이도 유연하게 정보를 재사용하는 능력이 향상되는 것을 증명했습니다. AI가 즉각적인 사용 목적이 아닌, 잠재적인 미래 활용을 위해 정보를 습득할 수 있고 학습된 맥락과 관련 없던 정보를 유연하게 재사용할 수 있다는 새로운 이점을 제시한 거죠.
향후에는 방대한 메모리 속에서 적절한 경험을 찾아내는 지능형 검색 메커니즘에 대한 연구와 검색 품질과 문맥 내 학습 능력을 향상시키는 연구도 더 발전되기를 희망합니다. 인간과 유사한 지능을 가진 AI 기술이 개발되면 새로운 차원의 응용 분야가 발전될 것이니까요.