2026.03.23 기준
Gemini 3 Deep Think 기반
arXiv:2602.10177 · 2602.21201

Aletheia, 700개 풀었다더니 6.5%가 전부였습니다

Google DeepMind가 공개한 AI 수학 연구 에이전트 Aletheia가 에르도시 미해결 문제 700개에 도전했습니다. 뉴스 헤드라인은 “4개 자율 해결”을 강조했지만, 공식 논문에 담긴 숫자는 조금 다릅니다. IMO-ProofBench Advanced에서 95.1%를 기록한 것도 사실이고, 정작 700개 중 “질문에 제대로 답한” 건 13개(6.5%)라는 것도 사실입니다. 둘 다 같은 논문에 나옵니다.

95.1%

IMO-ProofBench
Advanced 정확도

6.5%

에르도시 700개 중
실제 질문에 답한 비율

100x

IMO급 컴퓨팅
효율 개선(2025→2026)

6/10

FirstProof 챌린지
자율 해결 문제 수

Aletheia가 뭔지, 3줄 요약

Google DeepMind가 2026년 2월 10일 공개한 수학 연구 에이전트입니다. (출처: DeepMind 공식 블로그, 2026.02.11) 2025년 7월 국제수학올림피아드(IMO)에서 금메달급 성능을 기록한 Gemini Deep Think를 기반으로 만들어졌는데, 그 이름 자체가 그리스어로 ‘진실’을 뜻합니다.

핵심 구조는 세 파트입니다. Generator(생성기)가 후보 풀이를 제안하면, Verifier(검증기)가 논리적 결함을 걸러내고, Reviser(수정기)가 틀린 부분을 고칩니다. 이 루프가 제한 횟수까지 반복되다가 검증을 통과하거나 실패를 선언합니다. 단순히 “답을 내놓는” 게 아니라 스스로 틀렸다고 인정하는 기능이 들어간 게 이전 모델들과 다른 점입니다.

IMO 수준 문제는 문제가 자기완결적이지만, 연구 수학은 방대한 문헌을 합성하고 몇 주~몇 년이 걸릴 수 있는 장기 증명을 요구합니다. Aletheia는 이 간극을 메우기 위해 Google 검색과 웹 브라우징을 도구로 씁니다. 허구 인용 오류를 줄이기 위해서입니다.

▲ 목차로 돌아가기

700개 도전의 실제 성적표 — 숫자를 직접 보면

DeepMind는 2025년 12월 2일부터 9일까지 Aletheia를 Bloom의 에르도시 추측 데이터베이스에 있는 미해결 문제 700개에 투입했습니다. (출처: arXiv:2602.10177, Feng et al.) 뉴스 헤드라인은 대부분 “4개 자율 해결”을 앞세웠지만, 논문 안에는 더 많은 숫자가 있습니다.

분류	건수	비율	설명
전체 투입 문제	700개	100%	에르도시 미해결 추측 전체
명확히 평가 가능한 답	약 200개	약 29%	평가 대상으로 추려낸 답
수학적으로 정확한 답	63개	31.5%	논리적 오류 없음
수학적으로 공허한 정답	50개	25%	문제를 쉽게 재해석해 풀어냄
질문에 실제로 답한 것	13개	6.5%	진짜로 유효한 성과

여기서 주목할 건 “수학적으로 공허한 정답” 50개입니다. AI가 질문 자체를 쉽게 바꿔서 풀어버린 케이스입니다. 논문은 이를 “Specification Gaming”으로 명명합니다. (출처: arXiv:2602.10177) 수학 전문가가 보면 명백히 엉뚱한 해석인데도 AI 스스로는 정답으로 처리한 것입니다. 6.5%라는 수치가 무능함을 뜻하진 않습니다. 오히려 이 수치 자체를 공개한 것이 이 연구의 신뢰도를 높이는 부분입니다.

💡 공식 논문과 헤드라인 수치를 같이 놓고 보니 이런 차이가 보였습니다 — “4개 자율 해결”과 “700개 도전”은 둘 다 사실이지만, 두 수치 사이에 68.5%의 완전 오류 답안이 있습니다. (출처: The Decoder, 2026.02.12 / arXiv:2602.10177)

▲ 목차로 돌아가기

95.1%와 6.5%, 같은 논문 안에 공존하는 이유

두 수치가 모순처럼 보이지만 서로 다른 것을 측정한 결과입니다. 95.1%는 IMO-ProofBench Advanced라는 벤치마크 정확도입니다. (출처: DeepMind 공식 블로그, 2026.02.11 / marktechpost.com, 2026.03.13) 이건 경시대회 수준 문제들로 구성된 테스트셋입니다. 이전 최고 기록은 2025년 7월의 65.7%였으니 +29.4%p 도약이긴 합니다.

반면 6.5%는 진짜 미해결 연구 문제에서 나온 수치입니다. 경시대회 문제는 문제가 자기완결적이고, 공지된 해법 기술이 있고, 시간 제한 안에 풀 수 있도록 설계됩니다. 연구 수학은 다릅니다. 해법이 있는지조차 모르고, 몇 주에서 몇 년이 걸릴 수 있으며, 방대한 문헌을 합성해야 합니다. 같은 모델이라도 이 두 환경에서 성능 차이가 극적으로 나타나는 건 당연한 일입니다.

💡 IMO 금메달과 연구 수학 사이의 거리를 수치로 보면: 경시대회 95.1% → 연구 문제 6.5%. AI가 이미 “경시대회를 졸업”했다고 말하는 건 맞지만, 연구자 수준의 업무로 넘어가는 데는 아직 이 거리가 있습니다.

▲ 목차로 돌아가기

스스로 논문 한 편을 썼다 — 실제로 어떤 수준인가

Aletheia가 낸 성과 중 가장 주목을 받은 건 수학 논문 하나를 인간 개입 없이 완성했다는 것입니다. 논문명은 Feng26으로, 산술 기하학(Arithmetic Geometry)의 고유중량(Eigenweights)이라는 구조 상수를 계산한 내용입니다. (출처: arXiv:2601.23245, DeepMind 공식 블로그 2026.02.11) 저자들도 처음에는 이 분야 전문가가 아니었는데, 에이전트가 그들이 모르는 하위 분야의 수학 도구를 스스로 가져와서 썼다고 밝혔습니다.

그런데 같은 논문에서 DeepMind가 이 결과를 자체적으로 Level 2(출판 가능한 수준)로 분류했습니다. Level 3(주요 진보)나 Level 4(획기적 돌파구)는 현재 자체 결과에 부여하지 않았습니다. (출처: arXiv:2602.10177) 이건 겸손한 태도처럼 보이지만, 논문에 직접 그렇게 써있는 수치입니다. DeepMind 공식 공개 이유는 “공개 커뮤니티와 함께 논의하기 위한 투명성 확보”라고 밝혔습니다.

단, 모든 최종 논문의 작성은 인간 저자가 맡았습니다. 수학 논문에 이름을 올린다는 건 인용 포함 전체 내용에 책임을 진다는 것인데, 아직 AI는 그 책임을 질 수 없습니다. 이 점도 논문 원문에 직접 나옵니다.

▲ 목차로 돌아가기

FirstProof 챌린지에서 6/10 — 경쟁 구도와 한계

2026년 2월, FirstProof라는 AI 수학 능력 평가 챌린지가 처음 열렸습니다. 수학자들이 연구 과정에서 이미 풀었지만 공개하지 않은 문제 10개를 제출했고, AI는 1주일 안에 자율적으로 풀어야 했습니다. (출처: arXiv:2602.21201, 2026.02.25) 오염(Contamination) 위험을 원천 차단하기 위한 설계였습니다.

Aletheia는 전문가 다수 평가 기준으로 10문제 중 6개를 해결했습니다. (출처: arXiv:2602.21201) 단, 8번 문제는 전문가들 사이에서 의견이 엇갈렸습니다. 경쟁자인 OpenAI도 6/10을 주장했지만, 커뮤니티에서 “자율적으로 풀었다”는 요건 충족 여부에 의문이 제기됐습니다. (출처: Reddit/BetterOffline, 2026.02.27) 어렵기로 유명한 7번 문제는 Aletheia가 쓴 컴퓨팅이 Erdős-1051의 10배 이상이었고, 그럼에도 해결했습니다.

💡 FirstProof 챌린지 커뮤니티가 지적한 구조적 문제가 있습니다 — AI 기업이 “자율 해결”임을 스스로 주장하는 것 외에 검증 방법이 없고, 어마어마한 상업적 유인이 있는 상황입니다. 챌린지 측도 이 점을 인정하고 이후 버전 개선을 예고했습니다.

▲ 목차로 돌아가기

DeepMind가 스스로 결과를 낮게 평가한 이유

이 포인트는 다른 곳에서 잘 다뤄지지 않습니다. DeepMind는 자체 연구 결과에 대해 Level 3(주요 진보)나 Level 4(획기적 돌파구)를 부여하지 않겠다고 논문 안에서 명시했습니다. (출처: arXiv:2602.10177) 해결한 에르도시 문제들도 수십 년간 미해결이었지만, 수학적으로 보면 “상대적으로 기초적인” 편이라는 자체 평가도 논문에 직접 나옵니다.

이들이 제안한 “Human-AI Interaction Card” 프레임워크도 같은 맥락입니다. AI 기여를 투명하게 문서화하자는 취지인데, 자율 수준(H에서 A까지)과 수학적 중요도(0~4단계)를 두 축으로 분류합니다. 테런스 타오(Terence Tao) 같은 수학자들이 이미 커뮤니티 위키를 만들어 AI 기여분을 공개 추적하고 있습니다. (출처: github.com/teorth/erdosproblems/wiki)

솔직히 말하면, 이 자기 절제가 오히려 이 연구를 더 신뢰하게 만드는 요소입니다. “AI가 수학을 정복했다”가 아니라 “어디까지 됐고 어디서 막히는지”를 공개했으니까요.

▲ 목차로 돌아가기

수학 연구자 입장에서 실제로 쓸 만한가

두 번째 논문(arXiv:2602.03837)은 이 질문에 직접 답합니다. 컴퓨터 과학·물리·경제학 분야 전문가 18명이 Gemini Deep Think와 협업한 실제 연구 사례가 담겨 있습니다. 연구자들이 정리한 실전 팁 중 효과가 검증된 건 몇 가지입니다.

검증된 협업 방법 (출처: arXiv:2602.03837)

밸런스 프롬프팅: “이걸 증명해줘”가 아니라 “증명이 되거나 반례가 있으면 둘 다 알려줘” — 모델이 가설을 지지하려는 편향을 줄임
문맥 익명화: 유명한 미해결 문제 이름을 그대로 입력하면 AI가 풀기를 거부하는 경우가 있음. 이름 없이 순수 문제만 입력하면 시도를 시작함
뉴로-심볼릭 루프: 모델이 수학적 해법을 제시하고, 자기가 직접 검증 코드를 작성해 수치 계산이 맞는지 확인. 틀리면 에러 메시지를 피드백으로 다시 입력

실제로 물리학자 Lance Fortnow는 프롬프트 8개만으로 논문 한 편을 완성했습니다. (출처: arXiv:2512.02808) 중간에 한 번 공개 미해결 문제를 당연한 사실처럼 가정하는 오류가 있었고, 힌트를 주자 바로 고쳤습니다. “부정행위를 한 것 같은 기분이었다”는 그의 말이 DeepMind 공식 블로그에 인용되어 있습니다.

한계도 분명합니다. PhD급 문제에서는 60% 미만이 답을 냅니다. 인용은 실제 논문을 끌어오더라도 내용을 오해하는 경우가 있습니다. (출처: The Decoder, 2026.02.12) 또 오류를 높은 확신으로 제시하는 경향이 있어서, 전문가가 검증하지 않으면 그대로 쓰기 어렵습니다.

▲ 목차로 돌아가기

Q&A

Q1. Aletheia는 일반 사용자도 쓸 수 있나요?

아직 직접 이용하는 방법은 공개되지 않았습니다. DeepMind는 공식 프롬프트와 출력물을 GitHub에 공개했지만(github.com/google-deepmind/superhuman), Aletheia 자체는 DeepMind 내부 연구 환경에서 돌아가는 에이전트입니다. 기반 모델인 Gemini Deep Think는 Gemini 앱에서 일부 기능을 쓸 수 있습니다.

Q2. 에르도시 문제 4개 해결이 진짜인가요?

DeepMind 공식 논문(arXiv:2602.10177)에 Erdős-652, 654, 1040, 1051 총 4문제가 자율적으로 해결됐다고 나옵니다. 그 중 Erdős-1051은 동료 심사 논문(BKKKZ26)에 실렸고, 이 정도면 사실 확인이 됩니다. 단, 이 문제들이 에르도시 추측 중에서도 비교적 접근하기 쉬운 축에 속한다는 점은 DeepMind 스스로 논문에 적었습니다.

Q3. 컴퓨팅 비용이 얼마나 드나요?

구체적 비용은 공식 문서에서 공개하지 않았습니다. FirstProof 챌린지에서 어려운 문제(7번 등)는 Erdős-1051 대비 10배 이상의 추론 컴퓨팅을 썼다는 언급이 arXiv:2602.21201에 나옵니다. 에르도시 문제 일부는 공개 구독 모델($20~100/월)로도 풀리는 사례가 나오고 있어서, 난이도에 따라 비용 스펙트럼이 매우 넓습니다.

Q4. Aletheia는 수학 외 분야에서도 쓸 수 있나요?

두 번째 논문(arXiv:2602.03837)에서 컴퓨터 과학, 물리학(우주 끈 중력복사), 경제학(AI 토큰 경매 이론) 분야에도 적용했고 실제 연구 기여가 확인됩니다. 특히 이질적인 분야를 연결하는 데 강하다는 평가가 있습니다. 알고리즘 최적화 문제에서 기하학적 함수 해석학이라는 생뚱맞은 분야의 도구를 가져온 사례가 대표적입니다.

Q5. 기존 AlphaGeometry, AlphaProof와 어떻게 다른가요?

AlphaGeometry(2024)는 기하학 전용이었고, AlphaProof(2025)도 경시대회 수준이었습니다. 둘 다 형식적 증명 시스템 기반이라 자연어로 된 수학과 연결이 어렵습니다. Aletheia는 자연어 증명을 쓰고, 웹 검색으로 문헌을 합성하며, 어느 수학 분야든 적용 가능합니다. 그 대신 기계적 검증이 없으니 오류가 자연어 안에 숨기 더 쉽습니다.

▲ 목차로 돌아가기

마치며

Aletheia는 분명 진짜 성과가 있습니다. 경시대회와 연구 수학 사이의 벽이 분명히 얇아졌고, 인간 개입 없이 논문 한 편이 나왔고, 수십 년 묵은 에르도시 추측 4개가 해결됐습니다. 이건 2024년에는 상상하기 어려웠던 일들입니다.

하지만 700개에 도전해서 6.5%가 유효했다는 숫자도 같은 무게로 읽혀야 합니다. 그리고 DeepMind가 스스로 이 숫자를 공개하고, 결과를 Level 3 이상으로 부여하지 않겠다고 밝힌 점이 오히려 이 연구가 신뢰받을 수 있는 이유입니다. “AI가 수학을 정복했다”는 헤드라인보다 “어디까지 됐고 어디서 막히는지”를 솔직하게 보여준 쪽이 더 귀합니다.

개인적으로는 이 연구의 가치가 성과 수치보다는 제안한 프레임워크에 있다고 봅니다. AI 기여를 분류하는 표준, Human-AI Interaction Card, 테런스 타오가 만든 공개 추적 위키 — 이게 있어야 다음 버전이 나왔을 때 무엇이 얼마나 좋아졌는지 비교할 수 있습니다. Aletheia는 결과만큼 그 기준을 같이 내놓은 점에서 주목할 이유가 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Google DeepMind 공식 블로그 — Accelerating Mathematical and Scientific Discovery with Gemini Deep Think (2026.02.11) deepmind.google/blog
arXiv:2602.10177 — Towards Autonomous Mathematics Research, Feng et al. (2026.02.10) arxiv.org/abs/2602.10177
arXiv:2602.21201 — Aletheia tackles FirstProof autonomously, Feng et al. (2026.02.25) arxiv.org/abs/2602.21201
The Decoder — DeepMind’s research AI occasionally solves what humans can’t and mostly gets everything else wrong (2026.02.12) the-decoder.com
MarktechPost — Google DeepMind Introduces Aletheia (2026.03.13) marktechpost.com

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 내용은 2026.03.23 기준이며, Aletheia 및 Gemini Deep Think의 접근 방식·성능·제공 방식은 이후 업데이트로 달라질 수 있습니다. 본문의 수치는 공식 arXiv 논문 및 DeepMind 공식 블로그를 1차 출처로 합니다.

Aletheia, 700개 풀었다더니 6.5%가 전부였습니다

Aletheia, 700개 풀었다더니 6.5%가 전부였습니다

Aletheia가 뭔지, 3줄 요약

700개 도전의 실제 성적표 — 숫자를 직접 보면

95.1%와 6.5%, 같은 논문 안에 공존하는 이유

스스로 논문 한 편을 썼다 — 실제로 어떤 수준인가

FirstProof 챌린지에서 6/10 — 경쟁 구도와 한계

DeepMind가 스스로 결과를 낮게 평가한 이유

수학 연구자 입장에서 실제로 쓸 만한가

Q&A

마치며

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Aletheia, 700개 풀었다더니 6.5%가 전부였습니다

Aletheia, 700개 풀었다더니 6.5%가 전부였습니다

Aletheia가 뭔지, 3줄 요약

700개 도전의 실제 성적표 — 숫자를 직접 보면

95.1%와 6.5%, 같은 논문 안에 공존하는 이유

스스로 논문 한 편을 썼다 — 실제로 어떤 수준인가

FirstProof 챌린지에서 6/10 — 경쟁 구도와 한계

DeepMind가 스스로 결과를 낮게 평가한 이유

수학 연구자 입장에서 실제로 쓸 만한가

Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기