과학&IT

GPT-4o는 체스에서 지고, 제미나이는 포켓몬을 깨고 ― AI 게임 벤치마크 뜯어보기

빛조각 2025. 6. 11. 15:00
728x90

GPT-4o는 체스에서 지고, 제미나이는 포켓몬을 깨고(지브리AI)

 

1970년대 레트로 체스에 무너진 GPT-4o,
반면 포켓몬 블루를 스피드런한 제미나이 2.5 프로,
그리고 마피아 게임을 장악한 클로드 3.7 소네트.
같은 시기 공개된 세 실험이 보여 주는 AI 에이전트 성능의 빛과 그림자를 점검합니다.


I. 서론

  • GPT-4o: 1979년작 아타리 체스 ‘초급’ 난이도에 완패한 실험 결과가 미국 개발자 로버트 J. 카루소의 링크드인 포스트로 확산.
  • 제미나이 2.5 프로: 1996년작 포켓몬 블루를 45분 만에 엔딩까지 주파했다는 실험이 보도.
  • 클로드 3.7 소네트: 여러 LLM이 겨룬 마피아 게임 시뮬레이션에서 최고 승률을 기록.

세 결과가 전혀 다른 이유는 게임 종류와 인터페이스, 모델 설계 목표가 각기 다르기 때문입니다.


II. GPT-4o vs 아타리 체스 ― 왜 졌을까?

  • 환경 제약
    • 1.19 MHz 8-비트 CPU가 돌리는 고전 엔진은 현재 시점에서 매우 단순하지만, GPT-4o는 텍스트 기반 모델로서 픽셀 보드를 실시간 추론해야 하는 추가 부담이 있었다.
  • 상태 관리 한계
    • LLM은 회차별 기보·말 위치를 메모리로 유지해야 하는데, 인터페이스 지연과 함께 말 식별 오류를 반복.
  • 결과
    • 30수 내외에서 말 실수로 패배, “3학년 체스 클럽에서도 웃음거리”라는 혹평을 들음.

III. 제미나이 2.5 프로의 포켓몬 클리어

  • 멀티모달 해석
    • 화면 픽셀과 텍스트 대사를 동시에 인식해 맵 탐색, 전투 전략, 아이템 관리까지 자동화.
  • 장기 목표 설정
    • 짐 배지 8개 획득, 사천왕 격파, 포켓몬 교체 등 장기 플래닝을 수행하며 45분 만에 엔딩 달성.
  • 의의
    • 복잡한 RPG 시스템을 순차적으로 해결하며 에이전트형 LLM 가능성을 입증했다는 평가.

IV. 클로드 3.7 소네트, 마피아 게임 1위

  • 사회적 추론
    • 거짓 정보, 투표 심리, 역할 추정 등 언어 기반 심리전이 핵심인 게임에서 57.8 % 승률로 1위.
  • 확장 사고 모드
    • ‘Extended Thinking’ 옵션으로 장문의 내부 독백 후 발언, 논리적 설득력 강화.
  • 시사점
    • LLM이 단순 Q&A를 넘어 집단 심리 모델링까지 가능함을 보여 줌.

V. 게임 벤치마크가 말해 주는 것과 한계

게임 유형
대표 사례
측정 능력
드러난 약점
보드 퍼즐
아타리 체스
규칙 적용, 단기 탐색
시각 입력 해석, 상태 기억
RPG
포켓몬 블루
멀티모달 해석, 장기 계획
허용된 행동 집합 외 적응
사회 추론
마피아
거짓말, 협상, 추론
계산형 추론 대신 언어적 편향
  • 장점: 점수와 승패가 명확, 재현성이 높다.
  • 한계: 입력 방식과 프롬프트 구조에 따라 극단적 성능 차가 발생한다.

VI. 한국 AI 연구자에게 주는 교훈

  1. 인터페이스 설계: 텍스트-픽셀-행동을 통합하는 멀티모달 API 개발이 필수.
  2. 메모리 모듈: 게임 루프처럼 상태를 지속적으로 저장·갱신하는 에이전트 프레임워크 연구 강화.
  3. 벤치마크 다변화: 언어 지표뿐 아니라 시뮬레이션 기반 지표를 국내 표준으로 채택.
  4. 투명성: 마피아 게임처럼 속임수 전략이 증가할수록 의사결정 로그 공개가 중요.

결론

“체스 한 판으로 ‘멍청’이라 단정할 수 없고, 포켓몬 엔딩으로 ‘천재’라 칭송할 수도 없다.”

게임은 AI 능력을 비추는 좋은 거울이지만, 어떤 거울을 쓰느냐에 따라 전혀 다른 모습이 나타납니다.
GPT-4o의 패배는 시각·환경 적응 취약점을, 제미나이와 클로드의 승리는 멀티모달 이해사회적 추론의 급성장을 보여 줍니다.
결국 AI의 가치는 목표에 맞는 학습 구조와 인터페이스를 갖출 때 비로소 드러납니다. 다음 벤치마크는 또 어떤 게임으로 우리의 예상을 뒤집을까요?


참고자료

  1. LinkedIn – Robert J. Caruso, GPT-4o vs Atari Chess 실험 2025-06-08
  2. Tom’s Hardware – ChatGPT got absolutely wrecked by Atari 2600 chess 2025-06-10
  3. TechCrunch – Google’s Gemini has beaten Pokémon Blue (with a little help) 2025-05-03
  4. Ars Technica – Why Google Gemini’s Pokémon success isn’t all it’s cracked up to be 2025-05-05
  5. GitHub – LLM Mafia Game 프로젝트 2025-03-08
  6. Datumo – What if LLMs played a game of Mafia? 2025-03-18

태그

#AI게임벤치마크 #GPT4o #제미나이 #클로드 #아타리체스 #포켓몬블루 #마피아게임 #멀티모달AI #에이전트AI #팩트체크

728x90