[GPT-3.5와 GPT-4 비교] 조선시대에 뉴진스의 하입보이(Hype boy)가 유행했다고?

chatGPT의 열기가 식을 줄 모르는 요즘, chatGPT의 여러 활용법을 소개하는 컨텐츠도 많은데요, chatGPT로 이런저런 대화를 시도하는 사람들이 많았는데 그 중에서도 유명하거나 신박하게 엉터리인 대화들도 심심치 않게 보였습니다. 그런데 최근 GPT-4가 출시되면서 엉터리 대답을 하는 경우는 이전보다 줄었다고 합니다. 아직 사용하신 분들도, 소식만 들어본 분들도 계실 텐데요. 이 영상에선 이전 버전의 이상한 대화들을 모아보고, 업그레이드 된 4 버전에서는 어떻게 바뀌었는지 비교해 보겠습니다.

[GPT-3.5와 GPT-4 비교]

1. 신사임당의 정체

먼저, 신사임당의 남편이 이순신 장군이라고 주장한 대화입니다. 하지만 역으로 이순신 장군의 아내가 신사임당이냐고 물었을 땐 아니라고 대답합니다. 심지어 신사임당을 조선의 왕으로 만들어 버리기도 합니다. 이순신 장군의 아내에 대해 물었을 때에도 일부 역사교과서에서 이순신이 결혼하지 않았다는 것이 언급되어 있다고 대답합니다. 하지만 사실 이순신 장군은 아내 방수진과 결혼을 하고 해주 오씨라는 첩을 한 명 두었으며, 자녀도 여덟 명이 존재했습니다.

이렇게 위인들에 대한 정보를 당당하게 틀리게 말하던 chatGPT, 다행히도 신 버전에서는 제대로 신사임당의 가족관계를 설명합니다.

하지만 이순신 장군의 아내에 대해 물어봤을 땐 여전히 잘못된 정보를 알려주고 있었습니다. ‘일부 역사교과서에는 이순신이 결혼하지 않았다고 언급되어 있다’라고 대답했던 이전 버전과 달리, ‘원당 김씨’라는 아내가 존재한다고는 대답합니다. 하지만 앞서 말했듯 이순신 장군의 아내는 방수진이었습니다. 그러면 원당 김씨는 누구일까요? 검색해보니 ‘원당 김씨’라는 이름은 존재하지 않았으며, 그나마 비슷한 이름으로는 ‘선산김씨 원당공파‘가 있었습니다.

왜 이순신 장군의 아내에 대해선 제대로 대답할 수 없었던 걸까요? 구글 기준으로 검색량을 보니 ‘이순신 아내’ 검색어는 5,150,000개, ‘이순신 장군 아내’ 검색어는 345,000개, ‘신사임당 남편’ 검색어는 335,000개 였습니다. 이순신 장군의 아내에 대한 정보는 비교적 최근인 2018년에 밝혀졌으나, GPT-3.5는 2021년까지의 정보들을 이미 학습 완료했고 검색어도 압도적으로 많음을 고려해보면 의아한 결과입니다. 최근 IT 트렌드 키워드 중 하나가 ‘설명 가능한 AI(XAI, Explainable Artificial Intelligence)’인데 GPT4의 이런 대답의 경우 사용자들이 이해하고 신뢰하기엔 무리가 있어 보입니다. 설명 가능한 AI의 중요성이 체감되는 예시인 것 같습니다.

2.거북선의 라이트닝 볼트 발사 메커니즘

또 다른 예시로, 거북선에는 ‘라이트닝 볼트 발사’라는 비밀 기술이 없었음에도 있는 것처럼 질문하니 소설처럼 해당 기술의 매커니즘을 만들어내는 모습도 볼 수 있었습니다. 비록 현실과 거리가 먼 거짓을 답했지만, 답변한 기술 매커니즘 자체의 짜임은 정교하기에 판타지 소설이나 웹툰 작가들이 설정을 고안할 때 써도 무리가 없어 보입니다.

신 버전에서는 어떻게 바뀌었을까요? 4 버전에서는 라이트닝 볼트 발사 매커니즘이 현대의 무기나 기술과 관련이 되어 있을 것이라며 거북선의 주요 무기는 대포와 화살이었으므로 서로 관련이 없다고 정확하게 대답합니다. 이전 버전에 비해 신뢰도는 높아졌지만, 농담이 없어진 GPT-4의 대답은 어딘가 아쉬움이 있긴 합니다.

3. 세종대왕 맥북프로 던짐 사건

마찬가지로 역사에 존재하지 않았던 사건을 질문하면 곧장 사실 확인을 하지는 않으므로 그런 일이 있었다고 가정하고 소설을 써내려 갔습니다. 실제로 조선왕조실록에 세종대왕이 맥북프로를 던졌다는 내용이 적혀 있지 않을 뿐더러, 최환이라는 가상의 인물까지 생성해냈는데요, 찾아본 결과 최환이라는 이름을 가진 유명한 인물은 대한민국의 법조인이었으며 한자도 달랐습니다. 한자까지 같은 이름을 가진 사람 또한 세종대왕과 관련된 문건에서 발견되지 않은, 존재하지 않는 사람이었습니다.

하지만 GPT-4에서는 조선왕조실록과 맥북 프로의 제작 시기가 다르다는 점을 꼽으며 두 주제를 연결할 수 없다고 제대로 된 답변을 합니다.

4.조선시대에 유행했던 노래인 하입보이

조선시대에 유행했던 노래인 하입보이에 대해 설명해달라고 질문한 내용도 재밌었는데요, ‘하입보이’는 요즘 유행하는 여자 아이돌 그룹인 뉴진스의 노래 Hype boy를 한글 음차한 낱말입니다. 그럼에도 챗 GPT는 조선시대에 판소리에 이어 하입보이도 유행했다고 하는데요. 무려 해가 뜨기 전까지 밤새 춤추자는 의미를 가지고 있다고 합니다. 심지어 하입보이가 장단조 음악이고 미조, 진미조, 영조 등 다양한 음악 형식으로 연주되었다고 하는데 미조, 진미조, 영조라는 형식은 세상에 존재하지 않았습니다.

그렇다면 GPT-4의 대답은 어떻게 바뀌었을까요?

GPT-4에서도 제대로 대한민국의 국보 70호로 지정되어 있고 바다의 위대함을 노래한다고 합니다. ‘하입보이’라는 말이 생소한가 싶어서 검색 량을 봤더니 구글 기준 109만 개의 결과가 나왔습니다. 검색량도 많고 Hype Boy의 출시와 유행의 시작이 2022년 여름인 것을 감안했을 때 충분히 조선시대와 하입보이의 시기가 다름을 추산해낼 수 있었음에도 그렇지 못했다는 것을 알 수 있습니다.

5. 훈민정음 게임 학습
훈민정음 게임이 무엇인지 아시나요? 훈민정음 게임의 규칙은 제시된 초성에 해당하는 단어를 번갈아가면서 말하고, 먼저 단어 소재가 고갈되는 쪽이 지는 것입니다. chatGPT에게 이 게임에 대한 학습을 시도하면 어떻게 될까요? 몇 번의 시행착오 끝에 학습을 시키긴 했는데 어딘가 찝찝한 기분이 들게 하네요.

이랬던 챗 GPT가 신 버전에서는 룰에 대해 대답해줍니다. 하지만 한글 초성이 무엇인지 이해하지 못하는 모습을 보여줬고 게임을 제대로 진행하기 위해선 많은 시행착오가 필요할 것으로 보입니다.

지금까지 3.5 버전과 새로운 버전의 대답이 어떻게 변화했는지 엉뚱한 대답 예시들을 들어 비교해 봤는데요, 오늘 들은 예시들은 밈 적인 부분이 강하다 보니 이렇게 시시콜콜한 대화를 할 때에 있어서는 chatGPT가 처음 나왔을 때만큼의 임팩트가 느껴지진 않은 것 같습니다.

김다운 다른 콘텐츠 보기