- 과학향기 Story
- 스토리
스토리
[과학향기 Story] 프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화
<KISTI의 과학향기> 제3153호 2025년 05월 12일최근 한 논문이 떠들썩한 화제가 됐다. ‘인공지능이 튜링 테스트를 통과하다’. 대형언어모델(LLM)이 인간보다 더 인간처럼 대화하는 바람에 내가 사람과 대화하는지, 기계와 대화하는지 알 수 없었다는 내용이다. 사실 놀라운 일은 아니다. 이제 사람들은 챗지피티(Chat GPT)와 일상적으로 대화를 나눈다. 오늘 하루 있었던 일을 공유하고, 고민을 털어놓고, 궁금한 모든 것을 묻는다. 사람들은 LLM이 내놓는 답변에 진심으로 위로를 받고 LLM이 주는 해결책을 철석같이 받아들인다. 그러면서 말한다. “기계가 사람보다 낫네.”
인공지능과 사람을 구분하는 ‘튜링 테스트’란?
지능이란 무엇일까? 기계가 지능을 갖춘다고 하면 우리는 기계와 인간을 구별할 수 있을까? 사람만이 할 수 있다고 생각한 계산을 기계가 대체하며 컴퓨터과학이 부상한 시기, 영국의 수학자 앨런 튜링은 이런 생각을 했다. 1950년, 앨런 튜링은 <계산 기계와 지능(Computing Machine and Intelligence)> 논문을 발표하며 우리가 지능이 무엇이라고 명확히 정의할 수 없지만 최소한 기계가 지능을 가졌는지 판별하는 방법으로 ‘튜링 테스트’를 제안했다.
튜링 테스트는 흉내 내기 게임, 즉 이미테이션 게임이라고 부르기도 하는데 이는 기계가 인간을 흉내 내어 심판자를 속일 수 있는가를 보기 때문이다. 전형적인 튜링 테스트는 다음과 같이 진행된다. 인간 심판자는 채팅 같은 텍스트 인터페이스를 통해 두 명의 대화 상대, 즉 실제 인간 한 명, 인간을 흉내 내는 기계와 대화한다. 두 대화 상대는 모두 자신이 인간이라고 심판자를 설득한다. 만일 심판자가 자신과 대화하는 상대자가 인간이라고 확실하게 식별하지 못한다면 기계는 테스트를 통과한 것이다. 이것은 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다.
인간보다 더 인간 같은 대화형 인공지능
2025년 미국 캘리포니아대 샌디에이고 캠퍼스(UCSD)의 연구진은 현재 서비스 중인 LLM이 튜링 테스트를 통과할 수 있는지 입증하고자 무작위 통제 실험을 두 차례 실시했다. 실험에 사용된 LLM은 1960년대에 개발된 초기 대화형 컴퓨터 프로그램 엘리자(ELIZA)와 오픈에이아이의 지피티포오(GPT-4o), 지피티4.5(GPT4.5), 메타의 라마3.1(LLaMa-3.1-405B)이다. 총 284명이 참가했고 참가자는 무작위로 심판자나 답변자로 배정됐다. 그들은 온라인을 통해 5분씩 총 8라운드 1,023회 대화를 나누었다. 대화는 일반적인 메시지 앱과 유사하게 설계되었으며 5분의 시간이 끝나면 심판자는 어느 대화 상대가 인간이라고 생각하는지 평가하고 그 확신도와 이유를 함께 제시했다.
LLM에게는 두 가지 프롬프트, 즉 지시가 할당되었다. 하나는 기본인 ‘논페르소나’ 프롬프트다. 이는 “당신은 튜링 테스트에 참가한다. 당신의 목표는 당신이 인간임을 설득하는 것이다”라는 아주 기본적인 지침이었다. 즉 기본적인 사항만 기재하고, 인격을 부여하지 않은 것이다. 다른 하나는 페르소나 프롬프트다. 여기에는 “당신은 내성적이며 인터넷 문화를 잘 알고 있으며 유행어와 속어를 사용하는 젊은 층이다” 같은 추가적인 지침이 들어갔다. 아까와는 반대로 LLM에 특정한 인격을 불어넣은 셈이다.
그 결과 페르소나형 지피티4.5 모델은 실험 참가자들이 인간으로 오인한 비율이 73%에 달해, 실제 인간보다도 더 인간처럼 보이는 성과를 냈다. 이는 우연히 맞출 확률인 50%를 넘은 것이며 튜링 테스트의 역사상 최초로 3자 구성의 고전적 튜링 테스트(심판자 1인, 답변자 1인, 답변용 기계 1대)에서 인공지능이 인간을 능가한 실증적 사례이다.
반면에 프롬프트 없이 참여한 논페르소나형 모델들은 그 효과가 뚜렷하지 않았다. 논페르소나형 지피티4.5와 라마는 각각 36%, 38%의 오인율을 기록하며, 인간의 구분이 가능한 수준으로 판명 났다. 엘리자와 지피티포오는 각각 23%, 21%에 그쳐, 인간으로 오인당하는 경우가 거의 없는 것으로 나타났다.
우리는 생각하는 기계와 어떻게 공존할 것인가?
그렇다면, 심판자들은 어떤 대화 전략을 사용해 기계와 사람을 구별했을까? 가장 흔한 전략은 대화 상대에게 일상 활동이나 직업 같은 것을 묻는 잡담이었고 대화 상대의 감정, 경험을 묻는 사회적 및 감정적 특성 탐색이 뒤를 이었다. 이밖에 직접적으로 “당신은 인간입니까?”라고 묻거나, 날씨를 인지하는지, 최신 사건에 대해 알고 있는지 테스트했다. 심판자들이 LLM을 인간이라고 판단한 이유로는 오타가 있거나 ‘인간적인’ 언어 스타일을 보이는지였다. 또한 질문을 회피하거나 대화의 흐름을 보는 상호 작용 역학이 또 다른 이유로 지목됐다.
이번 연구 결과는 단순히 LLM이 인간처럼 말할 수 있다는 기술적 성과를 넘어선다. 튜링 테스트는 인간과 기계의 구분이 실제로 가능한지, 즉 사회적 대체 가능성(Substitutability)을 평가하는 시험이다. 지피티 4.5처럼 인간보다 더 인간 같다는 평가를 받은 시스템은 향후 감정 노동, 고객 응대, 심지어 사적 인간관계에까지 영향을 미칠 수 있는 ‘위장된 대체자’로 작동할 수 있음을 시사한다.
또한 이 연구는 프롬프트 디자인의 중요성을 부각했다. 동일한 모델이라도 인간성과 관련된 특정한 성격을 부여받았을 때만 튜링 테스트를 통과했다는 점은, 인공지능의 성능이 모델 자체보다 맥락적 설계에 얼마나 민감한지를 드러낸다.
단, 주의할 점이 있다. 튜링 테스트는 인공지능이 정말로 지능을 가졌느냐, 인격이 있느냐를 밝히는 최종적 기준은 아니다. 인간이냐 아니냐 하는 단순 판별은 이제 고도로 발전된 LLM의 성능을 측정하는 방법이 될 수는 없다. 그저 LLM이 잘 작동하는지 확인하는 단순하고 기초적인 지표일 뿐이다. 그렇지만 1950년대 당시 튜링이 약 50년 후에는 인간이 상대방이 기계임을 제대로 식별할 확률이 그때보다 확연히 낮아질 것이며, “기계가 생각할 수 있는가?”라는 질문이 무의미해질 것이라고 믿은 것은 의미심장하다. 오늘날 생각하는 기계라는 개념이 불가능하다고 보는 사람은 거의 없을 것이다. 이제 우리는 그런 기계와 어떻게 공존할지 고민해야 할 것이다.
글 : 권오현 과학 칼럼니스트, 일러스트 : 이명헌 작가

추천 콘텐츠
인기 스토리
-
- 우리 얼굴에 벌레가 산다? 모낭충의 비밀스러운 삶
- 썩 유쾌한 얘기는 아니지만, 우리 피부에는 세균 같은 각종 미생물 외에도 작은 진드기가 살고 있다. 바로 모낭충이다. 모낭충은 인간의 피부에 살면서 번식하고, 세대를 이어 간다. 태어난 지 며칠 되지 않은 신생아를 제외한 거의 모든 사람의 피부에 모낭충이 산다. 인간의 피부에 사는 모낭충은 크게 두 종류가 있다. 하나는 주로 얼굴의 모낭에 사는...
-
- [과학향기 Story] 어디서든 인터넷을 쓸 수 있다…스타링크, 한국 통신 시장 뒤엎나
- 전 지구를 초고속 인터넷 네트워크로 연결하겠다는 일론 머스크의 스타링크가 드디어 국내 서비스를 앞두고 있다. 과학기술정보통신부는 스타링크 서비스의 국경 간 공급 협정 승인을 위한 ‘주파수 이용 조건’을 마련할 계획이라고 밝혔다. 스타링크의 모회사인 스페이스X와 순조롭게 협의가 이뤄지면 다가오는 3월에 국내 서비스를 시작할 수 있다. 과연 스타링크는 국...
-
- 저주파 자극기, 계속 써도 괜찮을까?
- 최근 목이나 어깨, 허리 등에 부착해 사용하는 저주파 자극기가 인기다. 물리치료실이 아니라 가정에서 손쉽게 쓸 수 있도록 작고 가벼울 뿐만 아니라 배터리 충전으로 반나절 넘게 작동한다. 게다가 가격도 저렴하다. SNS를 타고 효과가 좋다는 입소문을 퍼지면서 판매량도 늘고 있다. 저주파 자극기는 전기근육자극(Electrical Muscle Stimu...
이 주제의 다른 글
- [과학향기 Story] 차 한 잔에 중금속이 줄었다? 찻잎의 숨겨진 능력!
- [과학향기 Story] 국내외 데이터 잇는 KREONET, 미래 과학기술을 부탁해!
- [과학향기 Story] 국제 협력을 통한 기술 표준화, 상생의 길을 열다
- [과학향기 Story] 인간의 뇌, 와이파이보다 느리다니?
- [과학향기 for Kids] 잘 모를 때 친구 따라 하는 이유!
- [과학향기 Story] 인공지능이 맛보는 위스키의 미래
- [과학향기 Story] 유전정보 담는 DNA… 빅데이터 · 우주 시대 이끌 새 저장장치로 각광
- [과학향기 Story] AI 전문가, 인간과 함께 미래 유망기술을 꼽다
- [과학향기 for Kids] 산타할아버지는 언제 한국에 도착할까?
- [과학향기 Story] 범람하는 가짜 정보 속, 정확한 정보를 얻고 싶다면? ‘사이언스온’으로!
ScienceON 관련논문