본문 바로가기
잡생각

ChatGPT가 정말로 인류를 위협하고 있을까?

by mpv 2023. 4. 7.

최근 일론머스크와 전문가, 연구자 들이 AI개발 중지를 촉구하는 공개 서명을 하였다(링크). 이유는 AI가 사회와 인류에 악영향을 끼치며, AI의 위험을 사회가 감당 가능할때까지 개발을 중지해야 한다는 것이다.

 

지난달 3월 OpenAI는 GPT-4를 출시하며 GPT의 성능에 대한 평가와 한계 등을 설명하는 기술 리포트를 함께 공개하였다 (논문). 아주 상세하게 읽어보진 못했지만 대략적으로 GPT4는 밈과 같은 이미지에서 유머코드도 이해할 수 있고, 변호사 시험과 같이 기존 버전에서는 하위 10% 성적에 그쳤지만 이번 버전에서는 상위 10%버전이 되는 등 큰 성과를 얻었다는 등으로 이야기하고있다. 또한 여전히 비윤리적인 대답을 한다는 Jailbreaking과 같은 문제가 있다는 것으로 대략적으로 이해했는데, 코딩애플님의 영상으로 소개하는게 더 쉬울것 같다 (유튜브).

 

이와같이 ChatGPT의 개발에 따른 AI에 대한 무한한 긍정파와 (지난 2016년 알파고가 이세돌선수를 이기면서 엄청난 CS 붐이 일었던 것과 같이), 이에 반대로 AI를 인류에 대한 위협으로 느끼는 반대파가 오히려 더 극과 극으로 나뉘어 지는 느낌이 든다. CS에 뿌리를 두고있는 데이터사이언스 연구자로서, 솔직하게 CS의 아름다움이 과도한 AI붐으로 인해 학계의 분위기가 변질되는 느낌이 들어 썩 달갑지만은 않다. 요즘 AI학회들의 분위기를 보면 더 느껴지는게, 너무나 과하게 많은 논문들이 제출되고 있으며, 그럴싸하게 어려운 수학공식을 쓰는 논문들이 좋은 평가를 받는 경향도 없잖아 있다. 여담이지만 AI논문들을 리뷰하는 사람들 또한 AI를 공부하는 교수 및 대학원생들일 것이고, 보통의 엔지니어들이 그러하듯 도구의 목적에 대한 고찰 보다는 그것이 얼마나 우아하고 멋있는지만을 따지는 경향이 있다. 이는 오픈리뷰방식으로 진행하는 학회들에서 심지어 reject된 논문들을 보더라도 (ICLR reject papers) 양질의 contribution을 갖고있는 논문들이 즐비한다는 것을 보면 너무 과하게 학계가 AI연구에 자원을 쏟고있다는 느낌이 들기도 한다. 어찌됬건, AI긍정파들은 인터넷이 처음 군사적 목적으로 개발되었으나 결과적으로 사람들의 삶의 편의성을 향상시켰듯, AI 또한 기존의 불필요한 직업들을 대체하고 사람들은 반복적인 업무가 아닌 더욱 창의력을 펼치고 높은 수준의 업무를 편리하게 할 수 있게 될 것이라고 믿고있다.

 

이러한 와중에 한 달 정도 전에 언어학자 Noam Chomsky가 NYTimes에 투고한 글이 있다 (링크). 참고로 Noam Chomsky는 Context-Free Grammar 이론으로 언어학 뿐만 아니라 CS학계에서도 프로그래밍 언어 과목을 공부할 때 깊이있게 다루는 권위있는 학자이다. 그런데 이 글에서 Noam Chomsky는 오히려 ChatGPT가 인간을 위협하기에는 아직도 너무나 기초적이라고 이야기하고있다. 글의 일부를 인용을 해서 Noam Chomsky의 주장을 소개해보려 한다.

As Sherlock Holmes said to Dr. Watson, “When you have eliminated the impossible, whatever remains, however improbable, must be the truth.”

셜록 홈즈가 왓슨 박사에게 말했듯이 "불가능한 것을 모두 제거했을 때 남아 있는 것은 아무리 개연성이 없더라도 진실일 수 밖에 없다."

 

먼저 ChatGPT는 정답일 확률이 높은 답을 생성하는 모델이라는 것, 그 자체가 이미 한계라는 것이다. ChatGPT가 가장 비판받는 부분중 하나는 생성형 모델이기 때문에, 항상 정답일 것 같은 답을 생성하도록 하는 환영(Hallucination)문제가 발생한다는 비판을 받고있다.

 

여기서 중요한건 ChatGPT는 '불가능(impossible)'과 '있을 법 하지않은(improbable)'을 구분하지 못한다는 것이다. 다시말해 '그럴싸한(probable)' 것을 '가능(possible)'한 것으로 혼돈한다고 볼 수 있다. 이것은 딥러닝이 고질적으로 갖고있는 설명력(Explainability)의 부족과 상통한다. 딥러닝은 근본적으로 내부의 논리적인 동작과정을 알 수 없는 Black-box 모델이다. 정답률이 높은 방법을 확률적으로 학습할 뿐, 왜 그것이 정답인지를 설명할 수 없다. 아래의 인용구처럼 ChatGPT의 방식으로 어떠한 과학적인 예측을 해서 성공했더라도, 그것은 유사과학일 뿐이다.

Perversely, some machine learning enthusiasts seem to be proud that their creations can generate correct “scientific” predictions (say, about the motion of physical bodies) without making use of  explanations (involving, say, Newton’s laws of motion and universal gravitation).

일부 기계 학습 애호가들은 자신의 창작물이 설명(예: 뉴턴의 운동 법칙 및 만유인력 관련)없이 올바른 "과학적" 예측(예: 물리적 신체의 움직임에 대한)이 가능하다는 사실을 자랑스러워하는 것 같다. 그러나 이런 종류의 예측은 그것이 성공적이었더라도 사이비 과학이다.

 

재해석해보자면 인간만이 깨우쳐 내재할 수 있는 진리를 통해 (Chomsky는 이를 universal grammar라고 표현하는듯하다) 논리적으로 어떠한 진리를 추론하는 것이 아니라, 단순히 기존의 정답을 얻어내는 패턴을 학습하여 그럴싸한 답을 만들어내는 AI는 진정으로 Possible한 정답을 낼 수 없다. 최근 AI학회에서는 메타러닝(Meta-learning)이라는 기법에 대해 관심이 많은듯 하다. 이는 learn-to-learn, 즉 배우는 방법을 배우는 AI 기법을 의미하는데, Chomsky에 의하면 결코 AI는 사람처럼 배우는 방법을 배울 수 없다 -- (위 메타러닝에 링크한 논문이 틀렸다고 하는 것은 아니다. 다만 AI에서 논하는 메타러닝은 그 한계성이 명확할것이다). 다시말해, 인간이 풀지못한 문제를 AI가 아무리 방대한 양의 데이터와 다른 종류의 해결기법을 통해 새로운 문제를 해결하려고 하더라도, 제시할 수 있는 답은 'probable' 한 답이지, 절대로 possible한 답이 아니다 -- 또한 지질학에서 유명한 '현재는 과거에 대한 열쇠'라는 찰스 라이엘의 동일과정설은 일반화된 문제의 해결방법이 결코 될 수 없다. 우리가 스마트폰이 나오기전 세상이 이렇게 변화할 것이라는 것을 예상하지 못했듯이, 기계라고 해서 그러한 특별한 패턴을 스스로 추론할 수는 없다.

 

 

물론 ChatGPT가 일부 시험에서 100% 정답률이나오는 상황도 있을 것이다. 하지만 나는 감히 그러한 경우에는 시험의 출제 자체가 변별력이 없는 것이라고 주장한다. 즉, 진리를 내재한 인간이 모든 지식에 대한 접근과 고도의 이성을 가지고 있다면 (100% 컨디션이라면), 시험을 출제한 자가 답이있는 문제를 출제했다는 가정하에, 항상 Possible한 답을 내놓을 것이다. 하지만 리만가설과 같은 난제나 기존에 없던 새로운 도시 교통 시스템을 최적으로 계획하는 등의 문제를 인간이 아닌 ChatGPT가 풀 수 있다고 주장하는것은 생성형AI라는 존재자체가 그것과 모순된다. 조금더 이야기해보자면 기존에 출제되어오던, 인간을 테스트하기 위한 시험들은 인간의 사고능력을 측정하기위해 설계되어왔다. 그러나 인간이 지식에 대한 접근과 풀이 시간을 제한받지 않는다면 인간은 항상 100% 정답을 낼 것이다 (왜냐면 인간이 출제한, 그리고 정답이 존재하도록 설계된 시험이기 때문이다). 교수가 오픈북 시험을 한다고 하면 책에 있는 내용을 시험에 출제하는것이 아니라, 책에 없는 내용을 출제할 것이기 때문이며, 그렇다고 해서 그 교수가 자신도 답을 모르는 문제를 수험자를 정량적으로 평가해야하는 상황에서 무책임하게 출제하지는 않을것이라는 것이다. 오히려 학계는 구차한 문제풀이 패턴을 잘 익혀 답을 빨리 내는것을 미덕으로 여기는 '유사교육'이 아닌, 진정하게 창의적인 인재를 길러낼 수 있는 교육에 집중할 수 있다. (큰일난것은 학생이 아니라 구닥다리 평가방법을 고수하는 대학과 실력없는 교수다.)

더보기

시험이라는 것에 대해이야기하니 조금 더 여담을 하자면, 시험이라는 방법론 자체에대해 한번 고찰해볼 필요가 있다. 애초에 대학이라는 시스템 자체가 꽤나 최근에 생겼으며, 처음부터 시험을 통해 학생을 평가하지 않았다. 예전에 찾아본 자료가 있었는데 최초의 시험시스템이 1800~1900년대 였던 것으로 기억한다. 시험에 대한 이 글을 보면 대학이라는 교육시설도 꽤나 현대에 생겼다. 고대에는 피타고라스학파와 같이 마치 학계는 종교집단이었다, 오히려 갈릴레오갈리레이가 그러했듯 교황입장에서는 사이비로 판단되었을 것이다. 애초에 시험이라는 것 자체가 대학 교수들의 부족한 교육능력을 최대한 경제적으로 해결하는 시스템이지, 진정한 교육 방법론이 아니다.

 

이미 우수 대학은 시험방식이 아닌 토론식 수업을 진행하고있다. 또한 학계는 과거로부터 동료평가를 통해 진리를 추구해왔다. 더 근본적으로, 동료평가야 말로 그리스시대의 철학자들이 진리를 추구하던 방법이었다. 따라서 현재의 교육은 더욱더 자유로운 토론과 동료평가로 이루어질 필요가 있다. 오히려 교수는 매번 시험을 출제하고 학생들의 부정행위를 걸러내는 것에 에너지를 쏟을 필요 없이, 학문의 방향성을 유지하며 학생들을 지도하면 된다. 따라서 교수들이 학생과의 아무런 소통없이 일방적이고 권위적으로 그들을 평가하는 구닥다리 방식을 유지한다면, 그리고 그러한 방식이 겨우 ChatGPT로 인해 무너질 정도라면, 그러한 교수들을 과감하게 대학에서는 내쫓아야한다.

 

한편으로는 ChatGPT의 Probable한 답이 Possible한 답을 찾아내는 효율적인 방법중 하나가 될 수도 있다. 인간은 누구나 제한적인 시야를 갖게되는데, AI는 집단지성이기 때문이다. 즉, 시야가 넓다. 오히려 단순히 인간의 시야를 넓히는 것이 과장해서 인구의 99%가 현재 직면한 문제를 풀 수 있는 실마리를 제공해 줄 수도 있다. 하지만 언제까지나 ChatGPT를 적극활용하여 문제를 해결할 수 있는 실마리를 얻어내고 그것들을 실험하여 진리를 얻어내는것은 인간이지, 그 역할은 결코 ChatGPT가 대신할 수 없다. 이번에 Microsoft에서 출시한 Bing Chat 이 기존의 ChatGPT를 보완하여 Impossible한 답을 어느정도 필터링 할 수 있더라도, 그것은 검색되지 않는 정보일 뿐이며, 인간이 자신의 모든 생각을 인터넷에 남기지는 않기때문에 -- 더욱이 특허와 같이 가치있는 정보일수록 그것을 함부로 공개하지 않기 때문에 -- 한계점이 명확하다.

 

나의 지도교수님은 항상 나에게 해법보다는 문제를 정의하는 것이 얼마나 중요한지에 대해 코멘트 해주신다. ChatGPT라는 이름에서 알 수 있듯이, 'Chat'GPT는 반드시 사용자가 질문을 해야만 답을 해준다. 하지만 주어진 글이나 논문에대해 비판적으로 왜 그것이 좋거나 나쁜 논문인지, 또는 진리를 추구하기 위한 나에게 필요한 조언과 질문을 ChatGPT는 해 줄 수 없다. 앞으로는 답을 잘하는 사람이 아니라 좋은 질문을 하는 사람이 더 가치있을것이라고 누군가가 ChatGPT와 관련된 유튜브 영상에 답글을 남긴 것을 본 적이 있다. 물론 방금 언급했던 내가 간과한, 단순히 인터넷 검색보다도 사람에게 훨씬 넓은 시야를 제공할 수 있다는 ChatGPT의 잠재력이, 사회에 어마어마한 영향과 인류의 위협으로 다가올지도 모른다. 하지만 그것은 일시적이며, 세상은 훨씬 긍정적인 방향으로 빠르고 혁신적으로 발전할 것이라고 믿는다.

댓글