• 트위터로 공유하기
  • 페이스북으로 공유하기
  • 프린트하기
  • 텍스트 파일로 다운로드하기

스토리

[과학향기 Story] 프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화

<KISTI의 과학향기> 제3153호   2025년 05월 12일
최근 한 논문이 떠들썩한 화제가 됐다. ‘인공지능이 튜링 테스트를 통과하다’. 대형언어모델(LLM)이 인간보다 더 인간처럼 대화하는 바람에 내가 사람과 대화하는지, 기계와 대화하는지 알 수 없었다는 내용이다. 사실 놀라운 일은 아니다. 이제 사람들은 챗지피티(Chat GPT)와 일상적으로 대화를 나눈다. 오늘 하루 있었던 일을 공유하고, 고민을 털어놓고, 궁금한 모든 것을 묻는다. 사람들은 LLM이 내놓는 답변에 진심으로 위로를 받고 LLM이 주는 해결책을 철석같이 받아들인다. 그러면서 말한다. “기계가 사람보다 낫네.”
 
사진 1
사진 1. 사람들은 LLM과 일상적으로 대화를 나누곤 한다. ⓒshutterstock
 
인공지능과 사람을 구분하는 ‘튜링 테스트’란?
 
지능이란 무엇일까? 기계가 지능을 갖춘다고 하면 우리는 기계와 인간을 구별할 수 있을까? 사람만이 할 수 있다고 생각한 계산을 기계가 대체하며 컴퓨터과학이 부상한 시기, 영국의 수학자 앨런 튜링은 이런 생각을 했다. 1950년, 앨런 튜링은 <계산 기계와 지능(Computing Machine and Intelligence)> 논문을 발표하며 우리가 지능이 무엇이라고 명확히 정의할 수 없지만 최소한 기계가 지능을 가졌는지 판별하는 방법으로 ‘튜링 테스트’를 제안했다.
 
튜링 테스트는 흉내 내기 게임, 즉 이미테이션 게임이라고 부르기도 하는데 이는 기계가 인간을 흉내 내어 심판자를 속일 수 있는가를 보기 때문이다. 전형적인 튜링 테스트는 다음과 같이 진행된다. 인간 심판자는 채팅 같은 텍스트 인터페이스를 통해 두 명의 대화 상대, 즉 실제 인간 한 명, 인간을 흉내 내는 기계와 대화한다. 두 대화 상대는 모두 자신이 인간이라고 심판자를 설득한다. 만일 심판자가 자신과 대화하는 상대자가 인간이라고 확실하게 식별하지 못한다면 기계는 테스트를 통과한 것이다. 이것은 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다.
 
사진 2
사진 2. 튜링 테스트는 기계가 인간을 흉내 내 심판을 속임으로써, 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다. ⓒshutterstock
 
인간보다 더 인간 같은 대화형 인공지능
 
2025년 미국 캘리포니아대 샌디에이고 캠퍼스(UCSD)의 연구진은 현재 서비스 중인 LLM이 튜링 테스트를 통과할 수 있는지 입증하고자 무작위 통제 실험을 두 차례 실시했다. 실험에 사용된 LLM은 1960년대에 개발된 초기 대화형 컴퓨터 프로그램 엘리자(ELIZA)와 오픈에이아이의 지피티포오(GPT-4o), 지피티4.5(GPT4.5), 메타의 라마3.1(LLaMa-3.1-405B)이다. 총 284명이 참가했고 참가자는 무작위로 심판자나 답변자로 배정됐다. 그들은 온라인을 통해 5분씩 총 8라운드 1,023회 대화를 나누었다. 대화는 일반적인 메시지 앱과 유사하게 설계되었으며 5분의 시간이 끝나면 심판자는 어느 대화 상대가 인간이라고 생각하는지 평가하고 그 확신도와 이유를 함께 제시했다.
 
LLM에게는 두 가지 프롬프트, 즉 지시가 할당되었다. 하나는 기본인 ‘논페르소나’ 프롬프트다. 이는 “당신은 튜링 테스트에 참가한다. 당신의 목표는 당신이 인간임을 설득하는 것이다”라는 아주 기본적인 지침이었다. 즉 기본적인 사항만 기재하고, 인격을 부여하지 않은 것이다. 다른 하나는 페르소나 프롬프트다. 여기에는 “당신은 내성적이며 인터넷 문화를 잘 알고 있으며 유행어와 속어를 사용하는 젊은 층이다” 같은 추가적인 지침이 들어갔다. 아까와는 반대로 LLM에 특정한 인격을 불어넣은 셈이다.
 
그 결과 페르소나형 지피티4.5 모델은 실험 참가자들이 인간으로 오인한 비율이 73%에 달해, 실제 인간보다도 더 인간처럼 보이는 성과를 냈다. 이는 우연히 맞출 확률인 50%를 넘은 것이며 튜링 테스트의 역사상 최초로 3자 구성의 고전적 튜링 테스트(심판자 1인, 답변자 1인, 답변용 기계 1대)에서 인공지능이 인간을 능가한 실증적 사례이다.
 
사진 3
사진 3. 인격을 부여한 GPT4.5 모델은 인간보다도 더 인간처럼 보이는 성과를 내며, 인간을 능가했다. ⓒshutterstock
 
반면에 프롬프트 없이 참여한 논페르소나형 모델들은 그 효과가 뚜렷하지 않았다. 논페르소나형 지피티4.5와 라마는 각각 36%, 38%의 오인율을 기록하며, 인간의 구분이 가능한 수준으로 판명 났다. 엘리자와 지피티포오는 각각 23%, 21%에 그쳐, 인간으로 오인당하는 경우가 거의 없는 것으로 나타났다.
 
우리는 생각하는 기계와 어떻게 공존할 것인가?
 
그렇다면, 심판자들은 어떤 대화 전략을 사용해 기계와 사람을 구별했을까? 가장 흔한 전략은 대화 상대에게 일상 활동이나 직업 같은 것을 묻는 잡담이었고 대화 상대의 감정, 경험을 묻는 사회적 및 감정적 특성 탐색이 뒤를 이었다. 이밖에 직접적으로 “당신은 인간입니까?”라고 묻거나, 날씨를 인지하는지, 최신 사건에 대해 알고 있는지 테스트했다. 심판자들이 LLM을 인간이라고 판단한 이유로는 오타가 있거나 ‘인간적인’ 언어 스타일을 보이는지였다. 또한 질문을 회피하거나 대화의 흐름을 보는 상호 작용 역학이 또 다른 이유로 지목됐다.
 
이번 연구 결과는 단순히 LLM이 인간처럼 말할 수 있다는 기술적 성과를 넘어선다. 튜링 테스트는 인간과 기계의 구분이 실제로 가능한지, 즉 사회적 대체 가능성(Substitutability)을 평가하는 시험이다. 지피티 4.5처럼 인간보다 더 인간 같다는 평가를 받은 시스템은 향후 감정 노동, 고객 응대, 심지어 사적 인간관계에까지 영향을 미칠 수 있는 ‘위장된 대체자’로 작동할 수 있음을 시사한다.
 
또한 이 연구는 프롬프트 디자인의 중요성을 부각했다. 동일한 모델이라도 인간성과 관련된 특정한 성격을 부여받았을 때만 튜링 테스트를 통과했다는 점은, 인공지능의 성능이 모델 자체보다 맥락적 설계에 얼마나 민감한지를 드러낸다.
 
단, 주의할 점이 있다. 튜링 테스트는 인공지능이 정말로 지능을 가졌느냐, 인격이 있느냐를 밝히는 최종적 기준은 아니다. 인간이냐 아니냐 하는 단순 판별은 이제 고도로 발전된 LLM의 성능을 측정하는 방법이 될 수는 없다. 그저 LLM이 잘 작동하는지 확인하는 단순하고 기초적인 지표일 뿐이다. 그렇지만 1950년대 당시 튜링이 약 50년 후에는 인간이 상대방이 기계임을 제대로 식별할 확률이 그때보다 확연히 낮아질 것이며, “기계가 생각할 수 있는가?”라는 질문이 무의미해질 것이라고 믿은 것은 의미심장하다. 오늘날 생각하는 기계라는 개념이 불가능하다고 보는 사람은 거의 없을 것이다. 이제 우리는 그런 기계와 어떻게 공존할지 고민해야 할 것이다.
 
0512 튜링테스트 250x250

 
글 : 권오현 과학 칼럼니스트, 일러스트 : 이명헌 작가
평가하기
추천 콘텐츠
인기 스토리
쿠키를 지원하지 않는 브라우저이거나 브라우저 설정에서 쿠키를 사용하지 않음으로 설정되어 있는 경우 사이트의 일부 기능(로그인 등)을 이용할 수 없으니 유의해 주시기 바랍니다.
메일링 구독신청하기