글 아카이브

AGI보다 먼저 오는 문제는 메모리다

모델의 지능보다 먼저 해결해야 할 것은 세션과 작업 상태를 잇는 메모리 계층이라고 보는 이유.

작성자 김우주 게시일 2026년 3월 11일 수정일 2026년 3월 12일

한 줄 결론

지금의 AI에서 더 시급한 문제는 AGI의 도착보다, 끊기는 세션 사이에 판단과 상태를 잇는 메모리 구조를 설계하는 일이다.

3줄 요약

컨텍스트 윈도우가 커져도 작업 연속성은 자동으로 생기지 않는다.
좋은 메모리는 저장량이 아니라 다음 행동의 비용을 줄이는 선별 구조다.
요약과 압축은 유용하지만 메모리 자체를 대체하지는 못한다.

핵심 선언

문제는 메모리

오늘의 작업은 이미 끊기는 세션과 사라지는 판단을 견뎌야 한다.

Now

세션은 먼저 끊긴다

더 강한 모델보다 먼저 작업 상태가 사라진다.
Cost

설명 비용이 누적된다

같은 구조를 다시 훑고 다시 추론할수록 시간과 토큰이 새어 나간다.
Design

기억은 계층이어야 한다

좋은 메모리는 저장량이 아니라 다음 행동의 비용을 줄이는 선별 구조다.

왜 메모리인가?

최근의 메모리 연구들은 오늘의 LLM이 단순히 “더 똑똑해지는 것”만으로는 충분하지 않다고 말한다. 컨텍스트 윈도우가 아무리 커져도, 장기적인 작업 연속성과 상태 유지가 자동으로 해결되지는 않는다.^[1]

모델이 아무리 좋아져도 세션이 바뀌는 순간 계획, 결정, 작업 상태는 쉽게 끊긴다. 어떤 구조로 접근했는지, 무엇을 시도했는지, 어디서 실패했는지, 지금 어디까지 왔는지. 이런 맥락이 안정적으로 남지 않으면 사용자는 매번 다시 설명해야 하고, 모델은 매번 다시 구조를 훑고 다시 추론해야 한다. 결과는 비슷하다. 구조 파악 → 디버그 → 오류 → 재시도 → 다시 디버그. 문제는 이것이 단지 귀찮음의 문제가 아니라 비용과 시간의 문제라는 점이다.^[2]

나는 작업을 진행하며 이 문제를 현실적으로 마주했다. 대화를 끄고 다시 열면 이전 계획과 맥락이 끊기고, 마지막까지 만들어 둔 구조조차 새 세션에서는 처음 보는 코드가 된다. 그러면 다시 처음부터 설명하고, 모델은 다시 구조를 훑고, 같은 종류의 실수와 같은 종류의 토큰 낭비가 반복된다.

좋은 모델은 추론 비용을 줄여 주지만, 좋은 메모리는 재시작 비용을 줄여 준다.

우리는 옛부터 기억을 외부로 옮겼다

이 문제는 사실 AI만의 문제가 아니다. 인간도 오래전부터 자신의 기억을 외부로 옮겨 왔다. 동굴 벽화, 파피루스, 양피지, 메모, 일지, 문서 등 사람은 복잡할 수록 머릿속만으로 일하지 않고, 스스로 바깥에 기억 장치를 만든다.^[3]^[4]

그 점에서 오늘의 AI 개발은 묘하게 인간의 오래된 작업 방식으로 돌아가고 있다. 메모리 파일, 프로젝트 규칙, 장기 지식, 세션 요약, 재호출. OpenAI는 메모리를 별도 기능으로 다루고 있고, Anthropic은 Claude Code에서 프로젝트 단위 메모리 파일을 읽고 쓰는 방식을 공식 문서로 안내한다.^[5]^[6]

최근 OpenAI의 Pulse를 보면 이 흐름이 더 선명해진다. 공식 도움말 기준으로 Pulse는 과거 대화, 저장된 메모리, 피드백을 바탕으로 하루에 한 번 비동기 리서치를 수행하고, 그 결과를 다음 날 시각적 요약 형태로 보여 준다. 또한 Pulse가 제대로 작동하려면 saved memories와 chat history 참조가 함께 켜져 있어야 한다.^[7]^[8]

이 말은 중요하다. Pulse는 메모리의 대체물이 아니다. 오히려 메모리 위에 올라간 상위 경험에 가깝다. 다시 말해, 사용자가 나중에 읽을 수 있는 briefing이나 추천이 아무리 좋아져도, 그 바닥에 깔리는 기억층이 빈약하면 결국 품질도 함께 얇아질 수밖에 없다.^[9]

메모리는 신경망처럼 쌓이는 것보다 재구성되는 것에 가깝다

좋은 메모리는 단순한 저장소라기보다 계층적 구조에 가깝다.
우리의 기억도 모든 경험을 평평하게 저장하지 않는다. 어떤 기억은 빠르게 붙잡히고, 어떤 기억은 시간이 지나며 재배열되고, 일부는 더 일반화된 형태로 통합된다.^[10]

이런 관점은 레이 커즈와일이 말한 “계층적 패턴 인식”의 비유와도 어느 정도 맞닿아 있다. 그는 인간의 사고를 단순한 저장이 아니라, 여러 층위의 패턴이 연결되고 재구성되는 과정으로 보았다.^[11]
물론 이 설명이 현대 뇌과학의 정설로 받아들이기는 어렵지만, 기억을 “평평한 창고”가 아니라 “계층적 재구성 구조”로 보는 직관은 오늘의 메모리 설계에도 유용하다.^[12]

자연에 비유하면 좋은 메모리는 거대한 저장창고보다 균사체에 가깝다. 모든 것을 중앙에 쌓아 두는 대신, 필요한 순간에 필요한 연결만 살아 움직이게 한다. 멀린 셸드레이크가 균류 네트워크를 통해 보여 주듯, 중요한 것은 덩치가 아니라 연결과 교환의 구조다.^[13] 이 비유를 메모리에 옮기면, 좋은 기억은 많이 쌓인 데이터가 아니라 다음 행동을 가장 낮은 비용으로 이어 주는 연결 구조라고 말할 수 있다.

모든 것을 넣는다고 좋은 메모리가 되는 건 아니다

여기서 중요한 건, 메모리가 많다고 좋은 게 아니라는 점이다. 오히려 무차별적으로 쌓인 메모리는 다시 비용을 만든다. 모든 일기, 모든 대화, 모든 로그를 한 번에 먹이면, 모델은 필요한 것과 불필요한 것을 구분하기 위해 또 토큰을 써야 한다. 기억을 갖게 했더니, 오히려 기억을 뒤지는 비용 때문에 시스템이 무거워지는 역설이 생긴다.^[14]

이 점은 에이전트 연구에서도 나타난다. Generative Agents는 ‘모든 걸 다 저장해두고 나중에 뒤지는 방식’이 아니다. 경험을 기록한 뒤, reflection으로 그것을 더 압축된 의미와 패턴으로 정리해 둔다. 그리고 실제로 필요할 때만 관련 기억을 꺼내 행동 계획을 만든다.^[15] MemoryBank는 여기서 더 나아가, 기억도 사람처럼 시간이 지나면 희미해지고, 중요한 것은 더 오래 남도록 설계했다.^[16]
좋은 메모리의 핵심은 총량이 아니라 선별이다.

이 흐름을 도식으로 줄이면 다음과 같다.

flowchart LR A[기록] --> B[선별] B --> C[요약] C --> D[장기 기억] D --> E[재호출] E --> F[다음 행동]

메모리 flow

나는 한동안 몇 년간 쓴 일기와 기록을 통째로 모델에 넣어 더 깊은 대화를 만들고 싶었다. 결과는 단순했다. 비용은 커졌고, 맥락은 오히려 흐려졌고, 로컬 환경은 무거워졌다. 그 경험은 하나를 분명하게 가르쳐 줬다. 좋은 메모리는 모든 것을 저장하는 창고가 아니라, 다음 행동의 비용을 줄이는 구조여야 한다.

요약과 압축은 유용하지만, 기억의 대체물은 아니다

현재 메모리를 활용하는 기능 중 세션 요약과 컨텍스트 압축은 분명 유용하다. 다만 업체마다 방식은 다르고, 공개된 범위도 제한적이다. 어떤 서비스는 저장된 메모리와 과거 대화를 별도로 다루고, 어떤 서비스는 프로젝트 파일이나 규칙 파일을 시작점으로 삼는다.^[17]

요약의 가장 큰 문제는 내용의 와전이다. 사용자와 AI의 대화에서 전체 맥락, 대화 흐름, 일관된 주제, 도움되는 정보 등은 압축 과정에서 필연적으로 잘려 나간다.

압축은 효율을 얻는 대신 손실을 만든다. 최근 prompt compression 연구들도 downstream 성능만으로는 정보 손실을 충분히 평가할 수 없다고 지적하며, 원문 재구성 가능성과 정보 보존 자체를 따로 봐야 한다고 말한다.^[18]

단순함은 취향이 아니라 비용 절감이다

그래서 나는 메모리를 저장량의 문제가 아니라 설계의 문제라고 생각하게 됐다. 무엇을 남길지, 어떻게 요약할지, 무엇을 장기 기억으로 올릴지, 어떤 것은 버릴지. 결국 핵심은 단순함이다.

단순함은 취향이 아니라 비용 절감이다. 사용자에게는 이해 비용을 줄여 주고, 모델에게는 토큰 낭비를 줄여 주고, 로컬 환경에는 계산 부담을 줄여 준다.

좋은 메모리 시스템은 복잡한 것을 다 저장하는 시스템이 아니라, 복잡한 것 중 다시 꺼내 쓸 것만 남기는 시스템이다.^[20]

그래서 이 블로그에서 메모리를 다루려 한다

앞으로 AI를 사용하는 개인과 팀, 그리고 AI를 만드는 기업 모두에게 “어떤 메모리를 가질 것인가”는 점점 더 중요한 질문이 될 것이다. 모델은 계속 강해지겠지만, 작업의 연속성은 저절로 생기지 않는다. 연속성은 결국 설계해야 한다.^[21]

그래서 나는 이 블로그에서 메모리를 중요한 주제로 다루려 한다. 에이전트가 읽을 수 있는 문서 구조, 작업 상태를 잇는 로그, 토큰을 낭비하지 않는 요약, 사람과 모델이 함께 사용할 수 있는 외부 기억의 형태를 계속 정리할 생각이다. 내 관심은 결과를 전시하는 데보다, 판단의 근거와 변경 과정을 다시 사용할 수 있도록 남기는 데 있다.

AGI보다 먼저 오는 문제는 메모리다. 좋은 메모리는 거대한 저장소가 아니다. 끊기는 세션들 사이에 질서를 남기고, 연속적인 무작위성 속에서 다음 행동의 비용을 줄여 주는 구조다.

논점의 축

지금 필요한 질문은 모델이 얼마나 똑똑해질까가 아니다

AGI

미래형 명사

강한 지능의 약속은 아직 도착하지 않았다. 그래서 오늘의 운영 문제를 대신 해결해 주지 못한다.

Context

길어져도 끝난다

컨텍스트 창이 넓어져도 세션이 닫히는 순간 계획, 실패 이력, 작업 상태는 다시 흩어진다.

Memory

연속성의 설계

좋은 기억은 많이 쌓는 창고가 아니라 다음 행동의 비용을 줄이는 구조다.

인용

Charles Packer et al., “MemGPT: Towards LLMs as Operating Systems,” arXiv, 2023. 이 논문은 LLM의 한계를 “추론 부족”만이 아니라 “제한된 컨텍스트와 메모리 계층 부재”의 문제로 본다. arXiv ↩
MemGPT의 핵심 비유는 운영체제의 가상 메모리다. 필요한 정보를 고정된 컨텍스트 안에 모두 우겨 넣는 대신, 메모리 계층을 설계해야 한다는 주장이다. arXiv ↩
Andy Clark and David Chalmers, “The Extended Mind,” Analysis 58(1), 1998. 이 논문은 사고가 반드시 두개골 안에만 갇히지 않으며, 외부 도구와 기록이 실제 인지 과정의 일부가 될 수 있다고 주장한다. OUP Academic ↩
Atul Gawande, The Checklist Manifesto: How to Get Things Right, Metropolitan Books, 2009. 가완디는 체크리스트를 ‘전문성이 부족해서’가 아니라 ‘복잡성이 너무 커졌기 때문에’ 필요한 장치로 설명한다. Macmillan ↩
OpenAI, “Memory and new controls for ChatGPT.” OpenAI는 저장된 메모리와 chat history를 별도 제어 항목으로 분리한다. OpenAI ↩
Anthropic, “Manage Claude’s memory.” Claude Code는 세션 중 메모리 파일을 읽고 쓰며, 프로젝트 단위 기억을 별도로 관리한다. Anthropic Docs ↩
OpenAI Help, “ChatGPT Pulse.” OpenAI Help Center ↩
OpenAI Help, “Memory FAQ.” FAQ는 Pulse가 saved memories와 chat history를 함께 사용한다고 설명한다. OpenAI Help Center ↩
여기서 말하는 “상위 경험”은 브리핑·추천·요약 같은 사용자 경험 계층을 뜻한다. 공식 문서상 Pulse는 메모리를 사용해 작동하는 기능이지, 메모리를 대체하는 별도 기억 엔진으로 설명되지는 않는다. OpenAI Help Center ↩
Wenbo Sun et al., “Organizing memories for generalization in complementary learning systems,” Nature Neuroscience, 2023. 이 연구는 해마와 신피질 사이의 상보적 학습 체계와, 일부 기억이 일반화를 위해 재조직된다는 점을 다룬다. Nature ↩
Ray Kurzweil, How to Create a Mind: The Secret of Human Thought Revealed, Viking, 2012. ↩
이 대목은 커즈와일의 철학적·공학적 비유를 차용한 것이지, 특정 단일 뇌과학 이론을 확정적으로 채택하는 뜻은 아니다. ↩
Merlin Sheldrake, Entangled Life: How Fungi Make Our Worlds, Change Our Minds and Shape Our Futures, 2020. Penguin ↩
MemGPT는 이를 해결하기 위해 fast 메모리와 외부 메모리의 계층을 둔다. 핵심은 “전부 넣기”가 아니라 “필요한 것을 올바른 층에 두기”다. arXiv ↩
Joon Sung Park et al., “Generative Agents: Interactive Simulacra of Human Behavior,” arXiv, 2023. 이 논문은 observation, planning, reflection, retrieval이 함께 작동하는 구조를 제안한다. arXiv ↩
Wanjun Zhong et al., “MemoryBank: Enhancing Large Language Models with Long-Term Memory,” arXiv 2023; AAAI 2024. 에빙하우스 망각곡선에서 영감을 받은 메모리 update 메커니즘을 사용한다. arXiv ↩
OpenAI는 saved memories와 chat history를 별도 설정으로 다루고, Anthropic은 프로젝트 메모리 파일과 설정 파일을 공식 문서로 안내한다. OpenAI / Anthropic Docs ↩
W. Łajewska et al., “Understanding and Improving Information Preservation in Prompt Compression,” 2025. 이 연구는 prompt compression을 평가할 때 정보 보존과 재구성 가능성을 별도로 봐야 한다고 지적한다. ACL Anthology ↩
이 문단은 특정 단일 제품보다 여러 메모리 시스템의 공통 설계 문제를 요약한 해석이다. 공식 문서와 관련 연구 모두 “기억의 선별”과 “정보 손실 관리”가 중요하다는 점을 시사한다. ↩
Generative Agents, MemoryBank, MemGPT 모두 기억의 총량보다 retrieval, reflection, selection, tiering을 중시한다. MemGPT, Generative Agents, MemoryBank ↩
OpenAI와 Anthropic의 공식 문서는 모두 메모리를 별도의 사용자 제어 기능 또는 프로젝트 계층으로 다룬다. 이 자체가 연속성이 자동으로 생기지 않음을 보여 준다. OpenAI / Anthropic Docs ↩

자주 받는 질문

컨텍스트 윈도우만 더 길어지면 이 문제는 해결되지 않나?

긴 컨텍스트는 한 세션 안의 정보량을 늘려 줄 뿐, 세션이 끊긴 뒤 어떤 판단을 장기 기억으로 남기고 다시 불러올지까지 해결하지는 못한다.

요약 기능이 있으면 메모리는 따로 없어도 되지 않나?

요약은 필요한 압축 장치이지만, 무엇을 남기고 무엇을 버릴지에 대한 기준이 없으면 손실된 맥락을 되살릴 수 없다. 요약은 메모리를 다루는 도구이지 메모리 그 자체는 아니다.

개인 작업에서 가장 먼저 만들 외부 기억은 무엇인가?

다시 설명하기 싫은 판단부터 남기면 된다. 프로젝트 규칙, 작업 상태 로그, 실패 원인 기록처럼 다음 세션의 설명 비용을 줄여 주는 문서가 가장 먼저다.