2024 노벨 물리학상에 ‘인공지능의 겨울’ 끝낸 제프리 힌턴

‘필연적 우연’의 산물, 인공지능… 딥러닝 새 시대 진짜 열어젖힌 건 누구일까

등록 2024-07-05 20:18 수정 2024-10-09 20:22

알렉스넷을 만든 제프리 힌턴 캐나다 토론토대학 교수팀. (왼쪽부터) 오픈에이아이(AI)의 공동창업자인 일리야 수츠케버, 알렉스 크리제브스키, 제프리 힌턴 교수. 토론토대학 누리집 갈무리

메타 인공지능 수석 과학자 얀 르쿤이 프랭크 로젠블랫과 구니히코 후쿠시마의 이론에 관심을 가진 때는 대학원과 박사후 연구원 시절이다. 그가 캐나다 토론토대학 박사후 과정에서 만난 지도교수가 바로 제프리 힌턴이다. 위키피디아에 나온 내용을 보면, 힌턴이 1986년에 마빈 민스키가 제기한 엑스오아르(XOR·Exclusive-OR, 배타적 논리합) 적용 문제를 해결했다고 나와 있지만, 이 정보는 인공지능학계의 공식적인 합의라고 보기 어렵다. 앞서 언급했듯이 오늘날 연결주의 인공지능의 초기 모델인 르넷(LeNet)을 만든 이는 그의 제자 르쿤이었다.(제1518호 ‘인공지능 봄날 떠받친 사회적 함수’ 참조) 또한 1980년대에 이 문제에 매달린 인공지능 연구 집단은 다양했고 지금도 여전히 누가 맨 처음 이런 새로운 인공지능 모델을 발견했는지에 대해 의견이 분분하다.

합성곱신경망 가능케 한 얀 르쿤

인공지능 초창기 개발자이자 인공지능에 대한 안내서 집필자로 유명한 멜라니 미첼 같은 경우는 합성곱신경망(ConvNet) 개발에서 힌턴보다도 르쿤의 기여도에 더 방점을 찍고 있다. 물론 그렇다고 어렵게 봄날을 맞이한 인공지능의 발전에서 힌턴의 기여도가 적다고 보긴 힘들다. 르쿤의 르넷을 알렉스넷(AlexNet·딥러닝에서 사용되는 대규모 합성곱신경망 모델로 이미지 인식에서 높은 정확도를 보였다)으로 나아가게 만들었다는 점에서, 그렇게 등장한 알렉스넷으로 인해 기나긴 인공지능의 겨울이 끝났다는 점에서, 힌턴의 기여를 21세기 인공지능의 역사에서 빼놓을 순 없다. 그가 일찍이 테리 세즈노스키와 함께 1984년 제안한 “볼츠만 머신”은 딥러닝의 원형 같은 것이었고, 르쿤과 교신하면서 두 명의 공동 저자와 함께 2006년 발표한 심층 신뢰 신경망에 대한 논문은 인공지능 딥러닝에서 발생하는 기울기 소실 문제를 해결했다고 평가받는다. 기울기 소실은 인공신경망의 가중치 갱신을 위해 전달되는 오차 정보가 0으로 수렴돼 학습이 진행되지 않는 상태다.

이 기울기 소실 문제를 해결하기 위한 수학적 방법과 기술적 방법이 있는데, 렐루(ReLu)와 같은 새로운 활성화 함수를 사용하거나 아니면 정보를 원격 노드로 직접 전달할 수 있는 인공신경망 구조를 만드는 것이다. 이런 구조를 만들기 위해 도입한 것이 통신 기술에서 사용하는 정보고속도로라는 개념이다. 정보고속도로 개념을 응용해 기울기 소실 문제를 해결한 심층 신경망구조의 설계가 바로 합성곱신경망인 셈인데, 이런 기술적 혁신으로 인해 다양한 인공지능 모델이 있음에도, 오늘날 대중적으로 인공지능이라고 알려진 기술은 바로 이 합성곱신경망의 딥러닝 알고리즘을 지칭하게 됐다. 그러나 뒤에서 이야기하겠지만 르쿤과 힌턴의 인공지능 역시 또 다른 전환의 기회가 없었다면 지금처럼 지배적인 프로그램으로 자리잡진 못했을 것이다.

그렇다면 미첼이 르쿤을 오늘날 합성곱신경망을 가능하게 만든 중요한 인물로 꼽는 이유는 무엇일까. 물론 로젠블랫과 후쿠시마의 이론을 선구적으로 실현했다는 점도 있겠지만, 무엇보다도 1980년대 모든 인공지능 개발자들이 여러 한계에 부딪혀 인공신경망 방식을 버리고 다른 방식의 인공지능 개발로 나아갔을 때조차도 그는 합성곱신경망의 가능성에 대한 믿음을 버리지 않았기 때문이다. 힌턴은 당시의 르쿤을 일컬어 “암울한 시대에 횃불을 높이 치켜들었던 선구자”로 묘사했다. 시대의 흐름을 역행해서 끝까지 자신의 신념을 버리지 않았던 르쿤의 의지가 새로운 인공지능의 장을 열어젖혔다고 평가할 만하다.

경쟁이 전쟁이 된 ‘파스칼 챌린지’

그러나 여기에서 그치면 인공지능의 “사회적인 차원”을 빠트리고 인공지능의 역사를 입체적으로 파악하지 못하게 될 것이다. 앞서 강조했듯이, 인공지능은 개인의 노력과 사회적 조건이 서로 만나 등장한 “필연적 우연성”의 산물이다. 인공지능은 유럽 계몽주의의 정점에서 등장한 근대성의 결과라는 점에서 필연적이지만, 동시에 지금 우리에게 나타난 인공지능은 우연적인 것이다.

인공지능 연구만큼 경쟁이 중요한 발전 요인으로 작용한 분야도 찾기 어려울 듯하다. 매년 경진대회를 기획해서 치르는 방식이 인공지능 연구 발전의 원동력이었다. 2005년부터 2010년 사이에 가장 권위 있고 관심을 끌었던 행사는 바로 ‘파스칼 VOC(Visual Object Classes·시각 객체 분류) 챌린지’라는 이름의 경진대회였다. 컴퓨터 비전 분야에서 사물 이미지에 대한 식별 기술을 겨루는 국제 대회였는데, 입력 영상에서 특정 종류의 사물을 판별해 검출하는 성능을 시험하는 것이 경기 방식이었다. 2010년 경진대회에서 15만 장의 사물 이미지가 사용됐는데, 이 이미지를 내려받은 곳은 다름 아닌 사진 공유 사이트 플리커(Flickr)였다. 당연히 이 사물 이미지는 해당 공유 사이트 이용자들이 업로드한 것이다. 경기에 참가한 컴퓨터 비전 프로그램은 주어진 표본 이미지를 인간, 개, 말, 양, 자동차, 자전거, 소파, 화분 같은 범주로 식별해서 검출해야 한다.

경진대회는 사진을 세트로 나눠 대회 참가 프로그램들이 학습하게 한 뒤에 그 세트에 들어 있지 않은 다른 이미지를 입력해 식별하게 하는 방식으로 진행된다. 예를 들어, 여러 장의 고양이 사진 세트를 학습한 컴퓨터 비전 프로그램에 다른 모양의 고양이 사진을 보여줘서 인식하는지 확인하는 식이다. 요즘 우리도 비슷한 경험을 할 때가 많다. 특정 사이트에 접속해서 로그인하려고 할 때 “나는 로봇이 아닙니다”를 증명하라며 버스나 자전거 같은 이미지를 체크하라고 묻는 상황을 겪어봤을 것이다.

물론 구글이 이런 보안 체크를 통해 수집하려는 데이터는 인공지능의 작동과 다른 인간의 행동 패턴인데, 여기에 숨어 있는 반전은 이 보안 체크가 수집하는 정보는 특정 이미지를 올바르게 식별하는 인간의 능력이 아니라 그 이미지를 클릭하려는 커서의 움직임이다. 2023년 조사 결과에 따르면, 컴퓨터 비전의 능력은 이미 인간보다 더 정확하게 99.8% 이상 보안 체크가 요구하는 이미지를 식별할 수 있었다고 한다. 이제 인공지능보다 뒤떨어지는 능력이 인간의 특성으로 받아들여지는 시대가 당도한 것이다.

여하튼, 이런 인공지능 발전의 중심에 컴퓨터 비전이 있다는 사실이 중요하다. 챗지피티(ChatGPT)의 약진 이후 우리 일상에 더 많은 영향을 주는 인공지능은 거대언어모델(LLM)처럼 보인다. 하지만 인공지능의 발전에 획기적인 기여를 한 기술은 언어가 아니라 정지 영상 또는 동영상에서 의미 있는 정보를 추출하는 연구 분야인 컴퓨터 비전이라고 볼 수 있다. 이 기술은 전쟁이라는 어두운 과거를 배경으로 하는데, 이런 사실이 암시하듯 인공지능의 발전은 시간이 지나면서 자연스럽게 이뤄진 것이 아니다. 경쟁은 발전의 원동력으로 작용하기도 하지만, 너무 심해지면 오히려 자유로운 창의성을 방해한다. 파스칼 챌린지도 마찬가지였다. 대회가 진행될수록 경쟁의 형식에 몰입하게 됨으로써 주어진 이미지 분류 범주에 맞춰 프로그램을 짜야 했고, 당연히 기대했던 결과가 제대로 나오지 않게 됐다.

이미지넷의 창시자인 페이페이 리 미국 스탠퍼드대학 교수. 스탠퍼드대학 누리집 갈무리

이미지넷 구현한 페이페이 리… ‘자동화’는 실패

새로운 프로그램 벤치마킹이 필요했던 그 시기 가라앉은 분위기를 바꿀 무언가가 필요했다. 그때 미국 프린스턴대학의 한 젊은 교수가 혜성처럼 등장했는데, 바로 페이페이 리였다. 리는 그의 동료 교수 조지 밀러의 언어 데이터베이스 관련 연구에서 컴퓨터 비전의 문제를 풀 해법을 찾았다. 심리학자인 밀러는 영어 단어를 위계적으로 분류해 워드넷(WordNet)이란 데이터베이스를 만들고 있었다. 예를 들어, 카푸치노는 커피의 한 종류이고, 커피는 음료의 한 종류이고, 음료는 음식의 한 종류이고, 음식은 물질의 한 종류이고, 물질은 물리적 개체의 한 종류이고, 물리적 개체는 사물 개체 단위의 한 종류라는 식으로 데이터베이스화하는 작업이었다. 리는 이 방식에서 컴퓨터 비전의 문제에 대한 해결책을 찾았다.

밀러의 데이터베이스는 단순하게 하나의 단어를 하나의 범주로 분류하는 것이 아니라 더 많은 정보와 연결하는 방식이었다. 음료는 “마신다”와 “따른다” 또는 “액체” 같은 단어와 결합할 수 있다. 이런 분류 방식을 리와 그의 동료들은 이미지 데이터베이스화에 응용해 이미지넷(ImageNet)으로 구현했다. 이미지넷은 워드넷에 데이터베이스화된 명사들을 플리커와 구글 같은 검색엔진에 입력해서 찾아낸 이미지들을 분류한 데이터베이스다. 그런데 여기에도 역시 반전이 숨어 있다. 워드넷의 단어들을 검색엔진에 입력해서 찾아낸 이미지들을 분류하는 것은 인간의 판단을 거칠 수밖에 없었다. 리는 이 작업을 자동화하려 했지만 곧 한계에 봉착했다. 이런 리를 궁지에서 구해준 구세주가 바로 앞서 이야기했던 아마존의 메커니컬 터크였다. 리는 이미지넷의 이미지 분류를 메커니컬 터크의 저임금 글로벌 노동자들에게 맡기면 해결할 수 있다는 사실을 우연히 “발견”했다.

이야기가 돌고 돌아 다시 현실로 돌아왔다. 내가 왜 앞에서 오늘날 인공지능의 봄날은 기술 내적인 발전만으로 설명할 수 없다고 했는지 이제 알아챘을 것이다. 힌턴과 르쿤의 합성곱신경망도 리가 이미지넷을 만들어 아마존 메커니컬 터크와 협업하지 않았다면 오늘날 우리가 알고 있는 방식으로 존재하지 못했을 것이다. 힌턴과 르쿤이 분명 인공지능 기술에서 선구적인 업적을 이뤘지만, 페이페이 리의 이미지넷과 아마존 메커니컬 터크가 없었다면 오늘날 그들의 업적은 그냥 인공지능의 역사를 장식하는 하나의 일화에 그쳤을 것이다.

컴퓨터 비전 정교화한 노동자들

2012년 이미지넷이 주최한 경진대회에서 지피유(GPU·그래픽처리장치)를 활용해 합성곱신경망 학습을 가능하게 한 알렉스넷이 우승함으로써 힌턴과 그의 동료들은 딥러닝의 새로운 차원을 열었다고 평가받는다. 지피유는 엔비디아가 개발한 그래픽정보처리칩이고, 거의 광풍에 가까운 인공지능에 대한 세간의 관심 덕분에 이 회사의 주가는 지금 상한가를 치고 있다. 앞서 강조했듯이, 합성곱신경망과 딥러닝에 대한 이론은 이미 1980년대부터 있었다. 우리가 주목해야 할 지점은 그 이론이 오늘날 실현돼 구체적 현실에 영향을 미치게 된 계기다. 인터넷의 플리커와 같은 공유 사이트, 그리고 아마존 메커니컬 터크의 글로벌 노동자들과 엔비디아의 지피유를 만드는 반도체 파운드리의 노동자들이 없었다면 인공지능은 이만큼이라도 실현 가능했을까 의문이 든다. 테슬라 최고경영자(CEO) 일론 머스크도 고백했듯이, 그럼에도 컴퓨터 비전은 영상 내 객체를 라벨링하는 워크플로의 문제를 완벽하게 해결하지 못하고 있다.

이택광 문화비평가·경희대 글로벌커뮤니케이션학부 영미문화전공 교수