728x90
1970년대 레트로 체스에 무너진 GPT-4o,
반면 포켓몬 블루를 스피드런한 제미나이 2.5 프로,
그리고 마피아 게임을 장악한 클로드 3.7 소네트.
같은 시기 공개된 세 실험이 보여 주는 AI 에이전트 성능의 빛과 그림자를 점검합니다.
I. 서론
- GPT-4o: 1979년작 아타리 체스 ‘초급’ 난이도에 완패한 실험 결과가 미국 개발자 로버트 J. 카루소의 링크드인 포스트로 확산.
- 제미나이 2.5 프로: 1996년작 포켓몬 블루를 45분 만에 엔딩까지 주파했다는 실험이 보도.
- 클로드 3.7 소네트: 여러 LLM이 겨룬 마피아 게임 시뮬레이션에서 최고 승률을 기록.
세 결과가 전혀 다른 이유는 게임 종류와 인터페이스, 모델 설계 목표가 각기 다르기 때문입니다.
II. GPT-4o vs 아타리 체스 ― 왜 졌을까?
- 환경 제약
- 1.19 MHz 8-비트 CPU가 돌리는 고전 엔진은 현재 시점에서 매우 단순하지만, GPT-4o는 텍스트 기반 모델로서 픽셀 보드를 실시간 추론해야 하는 추가 부담이 있었다.
- 상태 관리 한계
- LLM은 회차별 기보·말 위치를 메모리로 유지해야 하는데, 인터페이스 지연과 함께 말 식별 오류를 반복.
- 결과
- 30수 내외에서 말 실수로 패배, “3학년 체스 클럽에서도 웃음거리”라는 혹평을 들음.
III. 제미나이 2.5 프로의 포켓몬 클리어
- 멀티모달 해석
- 화면 픽셀과 텍스트 대사를 동시에 인식해 맵 탐색, 전투 전략, 아이템 관리까지 자동화.
- 장기 목표 설정
- 짐 배지 8개 획득, 사천왕 격파, 포켓몬 교체 등 장기 플래닝을 수행하며 45분 만에 엔딩 달성.
- 의의
- 복잡한 RPG 시스템을 순차적으로 해결하며 에이전트형 LLM 가능성을 입증했다는 평가.
IV. 클로드 3.7 소네트, 마피아 게임 1위
- 사회적 추론
- 거짓 정보, 투표 심리, 역할 추정 등 언어 기반 심리전이 핵심인 게임에서 57.8 % 승률로 1위.
- 확장 사고 모드
- ‘Extended Thinking’ 옵션으로 장문의 내부 독백 후 발언, 논리적 설득력 강화.
- 시사점
- LLM이 단순 Q&A를 넘어 집단 심리 모델링까지 가능함을 보여 줌.
V. 게임 벤치마크가 말해 주는 것과 한계
게임 유형
|
대표 사례
|
측정 능력
|
드러난 약점
|
보드 퍼즐
|
아타리 체스
|
규칙 적용, 단기 탐색
|
시각 입력 해석, 상태 기억
|
RPG
|
포켓몬 블루
|
멀티모달 해석, 장기 계획
|
허용된 행동 집합 외 적응
|
사회 추론
|
마피아
|
거짓말, 협상, 추론
|
계산형 추론 대신 언어적 편향
|
- 장점: 점수와 승패가 명확, 재현성이 높다.
- 한계: 입력 방식과 프롬프트 구조에 따라 극단적 성능 차가 발생한다.
VI. 한국 AI 연구자에게 주는 교훈
- 인터페이스 설계: 텍스트-픽셀-행동을 통합하는 멀티모달 API 개발이 필수.
- 메모리 모듈: 게임 루프처럼 상태를 지속적으로 저장·갱신하는 에이전트 프레임워크 연구 강화.
- 벤치마크 다변화: 언어 지표뿐 아니라 시뮬레이션 기반 지표를 국내 표준으로 채택.
- 투명성: 마피아 게임처럼 속임수 전략이 증가할수록 의사결정 로그 공개가 중요.
결론
“체스 한 판으로 ‘멍청’이라 단정할 수 없고, 포켓몬 엔딩으로 ‘천재’라 칭송할 수도 없다.”
게임은 AI 능력을 비추는 좋은 거울이지만, 어떤 거울을 쓰느냐에 따라 전혀 다른 모습이 나타납니다.
GPT-4o의 패배는 시각·환경 적응 취약점을, 제미나이와 클로드의 승리는 멀티모달 이해와 사회적 추론의 급성장을 보여 줍니다.
결국 AI의 가치는 목표에 맞는 학습 구조와 인터페이스를 갖출 때 비로소 드러납니다. 다음 벤치마크는 또 어떤 게임으로 우리의 예상을 뒤집을까요?
참고자료
- LinkedIn – Robert J. Caruso, GPT-4o vs Atari Chess 실험 2025-06-08
- Tom’s Hardware – ChatGPT got absolutely wrecked by Atari 2600 chess 2025-06-10
- TechCrunch – Google’s Gemini has beaten Pokémon Blue (with a little help) 2025-05-03
- Ars Technica – Why Google Gemini’s Pokémon success isn’t all it’s cracked up to be 2025-05-05
- GitHub – LLM Mafia Game 프로젝트 2025-03-08
- Datumo – What if LLMs played a game of Mafia? 2025-03-18
태그
#AI게임벤치마크 #GPT4o #제미나이 #클로드 #아타리체스 #포켓몬블루 #마피아게임 #멀티모달AI #에이전트AI #팩트체크
728x90
'과학&IT' 카테고리의 다른 글
생각만으로 말하고 노래하다: 0.01초 음성 BCI 최초 구현 (4) | 2025.06.13 |
---|---|
태양의 남극, 인류 첫 근접 촬영…우주 기상 예보의 마지막 퍼즐 (6) | 2025.06.12 |
누리호 미사일 의혹? ― 1차 실패 2차 성공 뒤에 숨은 팩트를 해부한다 (2) | 2025.06.11 |
Strange Metals: 미래 기술을 바꿀 새로운 전기적 발견 (4) | 2025.06.10 |
“다음 팬데믹의 뇌관?” — 번성하는 야생동물 시장을 해부한다 (14) | 2025.06.06 |