실수를 스스로 학습하는 AI

지난 포스트에서 AI가 과거 경험을 기억하게 하는 기술에 대해서 배워보았는데요, 이번에는 좀 더 깊은 연구를 구글에서 발표했습니다. 과거 경험을 재사용하여 새로운 추론 전략을 세우고 스스로 진화하는 AI 에이전트에 대한 것인데요, 알아보실까요?

기존 LLM 에이전트의 문제: '건망증'

현재의 대규모 언어 모델(LLM) 기반 에이전트들은 방대한 컨텍스트 창(Context Window)을 가지고 있음에도 불구하고, 새로운 작업을 시작할 때마다 과거의 상호작용 기록에서 아무것도 배우지 못한 것처럼 행동하는 근본적인 약점을 가집니다.

기존의 메모리 시스템은 크게 두 가지 문제점을 안고 있는데요:

원시 상호작용 기록 저장 (Raw Logs, Synapse): 발생한 모든 것을 기록하지만, 데이터가 너무 길고 노이즈가 많아 새로운 상황에 쉽게 적용할 수 있는 유용한 통찰력을 추출하기 어려움.
성공적인 워크플로만 저장 (Success Workflows, AWM): 성공적인 절차만 저장하므로 (예를 들어, 특정 웹사이트에서의 클릭 순서처럼 특정 상황에만 유효한 지식만 학습함), 더 높은 수준의 일반적인 전략을 포착하지 못함.

가장 중요한 것은, 이 두 방법 모두 실패로부터 얻는 가장 값진 교훈을 무시하거나 폐기한다는 점입니다.

ReasoningBank

따라서 이 논문은 LLM(대규모 언어 모델) 에이전트가 과거의 경험으로부터 지속적으로 학습하고 스스로 발전할 수 있도록 돕는 혁신적인 메모리(기억) 시스템인 ReasoningBank를 소개하는데요, 에이전트의 메모리를 단순한 기록 보관소(Passive Logger)에서 능동적인 학습 엔진(Active Learner)으로 바꾸기 위한 접근입니다.

에이전트가 겪는 성공적인 경험뿐만 아니라 실패한 경험으로부터도 교훈을 얻어 전략을 추출합니다. 이 과정은 다음과 같은 폐쇄 루프(Closed-loop)로 작동하며, 에이전트의 능력을 시간이 지남에 따라 향상시킵니다.

회상 (Retrieval): 에이전트가 새로운 작업을 접하면, ReasoningBank에서 현재 작업에 가장 관련성 높은 과거 전략과 통찰을 불러오고, 이 불러온 전략이 새로운 작업의 행동을 가이드합니다.
학습 및 통합 (Consolidation): 작업이 끝난 후, 에이전트는 그 경험(성공 여부와 상관없이)을 분석하고 핵심적인 새로운 추론 전략을 추출합니다. 이 새로운 학습 내용은 ReasoningBank에 업데이트되어 기억 저장소를 진화시킵니다.

💡기존 방식이 "어떤 행동을 했는지(Raw Trajectory)" 또는 "성공한 방법(Happy Path)"만 저장했다면, ReasoningBank는 "왜 성공/실패했고, 다음에 어떻게 해야 하는지"와 같은 높은 수준의 추론 원칙을 저장합니다.

MaTTS (기억을 인지하는 테스트-시간 확장)

논문은 ReasoningBank의 효과를 극대화하기 위해 MaTTS (Memory-aware Test-Time Scaling)라는 기법도 함께 제시합니다. ReasoningBank가 학습할 수 있는 더 풍부하고 다양한 경험을 생성하여 학습 엔진에 더 좋은 연료를 공급하는 방법이라고 볼 수 있어요.

MaTTS는 더 많은 태스크를 수행하는 대신, 하나의 작업에 대해 더 많은 컴퓨팅 자원을 할당하여 더 풍부하고 다양한 상호작용 경험을 생성합니다. 이렇게 생성된 다양한 경험은 ReasoningBank가 더 명확한 대조 신호(Contrastive Signals)를 얻어 더 고품질의 전략적 기억을 합성하도록 돕습니다. 반대로, ReasoningBank의 고품질 기억은 MaTTS의 확장된 탐색을 더욱 효과적인 방향으로 안내하는 시너지를 만들어내는 것이죠.

MaTTS는 병렬적으로도 순차적으로도 확장이 가능합니다. Self-Contrast 기법을 사용하여 병렬 시도들을 비교함으로써 성공적인 시도들 전반에 걸쳐 일관된 패턴을 식별하고, 우연으로 성공한 일회성 솔루션을 걸러낼 수도 있거나, 단일 loop 내에서 에러가 발생하거나 피드백을 받을 경우, 자가 개선 (self-refinement) 과정을 거쳐 장애물을 극복하는 방법에 대한 데이터를 생성합니다.

결론

ReasoningBank는 웹 브라우징이나 소프트웨어 엔지니어링과 같은 복잡한 벤치마크에서 기존의 메모리 메커니즘을 일관되게 능가하는 성능을 보였습니다. 에이전트가 경험으로부터 실제로 배우고, 실수를 줄이며, 스스로 전략적 능력을 진화시켜 장기적이고 복잡한 현실 세계의 문제 해결하는 AI 기술의 중요한 발전이라고 할 수 있죠.

그러나 이 시스템의 'LLM 심판관'의 역할에 대한 윤리적, 기술적 도전과제는 남아있습니다. 만약 에이전트의 지식 기반이 자체적인 판단에 의해 구축된다면, LLM에 결함이나 편향이 있을 경우 에이전트는 잘못된 교훈을 배우거나 나쁜 전략을 세울 위험에 대비할 수 있는가? 또는 외부 현실 점검 없이 스스로 생성한 지식이 오염되는 것을 어떻게 방지할 것인가에 대한 연구가 추가되어야 하는 상황이죠.

출처: ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

실수를 스스로 학습하는 AI

기존 LLM 에이전트의 문제: '건망증'

ReasoningBank

MaTTS (기억을 인지하는 테스트-시간 확장)

결론

Written by:

나두에이아이