기후위기시계
실시간 뉴스
  • 챗GPT, 미국판 수능서 커닝했다?…학계 “답 외워서 상위 10% 성적”
[로이터] [연합]

[헤럴드경제=김유진 기자] 대화형 인공지능(AI) 챗GPT 최신판이 미국 대입시험에서 상위 10% 성적을 기록했다고 홍보했지만, 미리 알려준 답을 ‘커닝’한 결과라는 비판이 학계에서 나왔다.

22일(현지시간) 영국 일간 더타임스에 따르면 최근 GPT-4를 출시한 미 스타트업인 오픈AI는 이 시스템이 실제 대입과 변호사 시험에서 상위 10%를 기록해 인간과 맞먹는 능력을 보여줬다고 발표했다.

GPT-4는 전 세계에 퍼진 챗GPT의 최신판이다. 미국 모의 변호사 시험에서는 90번째, 대학 입학 자격시험인 SAT 읽기와 수학시험에서는 각각 93번째와 89번째의 백분위수를 기록했다는 것이다.

오픈AI는 "평소 대화에서는 이전 버전인 GPT-3.5와 차이가 크게 나지 않을 수 있다"면서도 "GPT-4는 훨씬 더 신뢰할 수 있고 창의적이며 더 미묘한 명령을 처리할 수 있다"고 말했다.

하지만 미국 프린스턴대 교수진은 이런 주장을 정면으로 반박했다.

이 대학 컴퓨터공학과 아르빈 나라야난 교수 등은 뉴스레터 '엉터리 AI'(AI Snake Oil)에 실은 글에서 자체 검증을 토대로 이같은 주장을 펼쳤다.

연구진에 따르면 GPT-4는 앞서 훈련받은 정보를 토대로 치렀다. 미리 시험지를 읽어본 뒤 시험을 치는 것과 다르지 않다는 지적이다. 단순히 기억하고 있던 정답을 되풀이하는 것만으로도 성적을 낼 수 있다는 게 이들의 해석이다.

특히 GPT-4는 2021년 9월까지 정보를 토대로 훈련을 했는데, 실제로 2021년 이전 문제를 풀었을 때는 10점 만점에 10점, 2021년 이후 문제는 쉬운 것도 다 틀려 0점을 받은 것으로 드러났다.

교수진은 "GPT-4가 훈련 세트(training set)에서 답을 암기할 수 있다는 점을 보여준다"고 주장했다.

개발사인 오픈AI는 GPT-4를 훈련하면서 어떤 정보를 썼는지 아직 공개하지 않고 있다.

챗GPT 시험 성적을 둘러싼 논란은 이번이 처음이 아니다. 미국 샌타페이연구소의 멜라니 미첼 교수에 따르면 챗GPT 첫 버전은 경영학석사(MBA) 시험에서 질문의 표현을 바꾸자 답을 찾지 못한 채 헤맨 것으로 나타났다.

오픈AI는 실제 시험과 훈련용 정보가 뒤섞이지 않도록 검토한다고 밝혔지만, 나라야난 교수진은 "피상적이며, 엉성하고, 불안정한 검토"라고 일축했다.

kacew@heraldcorp.com

맞춤 정보
    당신을 위한 추천 정보
      많이 본 정보
      오늘의 인기정보
        이슈 & 토픽
          비즈 링크