OpenAI O3·O4mini, 왜 AI 할루시네이션이 더 심해졌을까?

벤치마크 점수가 높으면 AI도 더 똑똑해진 걸까요? 최근 공개된 OpenAI의 O3, O4mini 모델은 평가 점수는 뛰어나지만, 실제 사용 경험에서는 더 많은 환각(hallucination) 현상으로 논란이 되고 있습니다. 과연 이게 단순한 오류일까요, 아니면 AI 평가 방식 자체의 한계일까요? 이번 글에서는 AI 할루시네이션의 원인을 살펴봅니다.

점수는 높지만 헛소리는 더 많다: O3·O4mini 환각 논란

믿었던 OpenAI 최신 모델, 왜 이러지?

OpenAI가 발표한 최신 모델 O3와 O4mini는 발표 당시부터 벤치마크 점수에서 뛰어난 성과를 보였습니다. 하지만 막상 실사용에 들어가면, 이전 모델인 O1보다도 더 많은 ‘헛소리’를 한다는 사용자의 지적이 잇따르고 있습니다.

예를 들어, 간단한 프로그래밍 질문에 존재하지 않는 함수나 기술을 언급하거나, 역사적 사실을 틀리게 설명하는 등의 문제가 발생합니다. 문제는 이러한 현상이 단순한 예외가 아니라는 점입니다.

AI 할루시네이션(Hallucination) 현상, 정확히 뭐길래?

AI에서 말하는 ‘환각’은, 실제로 존재하지 않는 사실을 그럴듯하게 말하는 현상을 의미합니다. GPT나 LLM 사용자라면 이런 경험 한 번쯤 겪으셨을 텐데요, 문제는 이 현상이 O3, O4mini에서 더 심해졌다는 겁니다.

OpenAI의 공식 시스템카드에 따르면,

  • O1의 환각 비율을 1.0이라고 할 때
  • O3는 약 2배,
  • O4mini는 무려 2.8~3배 가까이 환각 확률이 높아졌습니다.

OpenAI의 o3 및 o4-mini 모델에 대한 평가에서 할루시네이션 비율이 다음과 같이 보고되었습니다.

ai 할루시네이션
  • o3 모델: 정확도 59%, 할루시네이션 비율 33%
  • o4-mini 모델: 정확도 36%, 할루시네이션 비율 48%
  • o1 모델: 정확도 47%, 할루시네이션 비율 16%​
ai 할루시네이션

OpenAI의 시스템 카드 전체 내용 보기

성능 좋다던 모델, 왜 더 자주 틀릴까?

벤치마크 점수의 착시 효과

많은 사람들이 AI 모델 성능을 이야기할 때 “벤치마크 점수”를 가장 먼저 봅니다. 하지만 그 점수, 과연 실제 사용성까지 반영하고 있을까요?

현재 벤치마크는 주로 reasoning(추론) 기반 문제로 구성되며, 복잡한 논리 구조를 얼마나 잘 따라가는지를 측정합니다. 문제는 실생활에서 우리가 원하는 건 정확한 정보이지, 멋진 추론이 아니라는 점입니다.

추론 능력 vs. 정보 정확성의 딜레마

O3와 O4mini는 추론 성능은 향상됐지만, 아이러니하게도 정확한 정보를 말하지 못하는 경우가 더 늘었습니다. 이는 강화학습(RLHF)을 통해 모델이 논리 구조에 초점을 두도록 훈련됐기 때문이라는 분석도 있습니다.

이로 인해, 질문을 더 논리적으로 풀어내긴 하지만, 그 안에서 틀린 정보를 자연스럽게 섞는 경우가 많아졌죠. 결과적으로 “더 똑똑하게 말하지만, 더 자주 틀린다”는 아이러니한 결과가 나온 셈입니다.

벤치마크를 넘어, AI 모델 제대로 고르는 법

“높은 점수 = 좋은 모델” 공식은 깨졌다

실제로 O4mini는 2024년 기준 벤치마크에서 상당히 높은 점수를 기록했지만, 여러 개발자 커뮤니티에서는 “도저히 못 써먹겠다”는 피드백도 다수 올라왔습니다.

반면, 상대적으로 점수는 낮지만 실사용에 더 안정적인 모델로 평가되는 예시들도 있습니다.
예: Claude 계열, PaLM2, 일부 fine-tuned LLaMA 모델 등

환각을 줄이는 모델 선택법

최근에는 LLM의 환각률을 객관적으로 비교하는 Hallucination 리더보드가 등장하면서, 단순 성능 수치 외에 “얼마나 덜 틀리는가”를 따져보는 흐름이 생기고 있습니다.

이 리더보드는 다음 두 가지 지표를 중심으로 모델을 평가합니다.

  • Hallucination 비율 (거짓 정보 생성률)
  • Unanswerable 비율 (모를 때 ‘모른다’고 말하는 확률)

똑똑한 AI보다, 똑똑한 선택이 필요하다

O3, O4mini의 사례는 단순한 AI 성능 논쟁을 넘어, 우리가 AI를 평가하고 선택하는 기준 자체를 돌아보게 만듭니다. 높은 점수도 중요하지만, 실제로 덜 헷갈리고 잘 맞는 AI를 고르는 안목이 더 중요해진 것이죠.

관련 글

Leave a Comment