투명성·공정성·신뢰성…AI면접 믿을 만할까?

마이다스IT AI역량검사 검토해보니
소개자료와 달리 일부가능 사용안해
응시자 데이터 직접 수집 ‘고도화’ 사용

등록 2020-10-24 07:25 수정 2020-10-27 01:59

“실제 영상면접에서 사용하지 않는다”고 마이다스IT가 밝혔으나, 누리집에는 소개된 두 가지 기술.

2014년 아마존은 지난 10년 동안 회사에 제출된 이력서 유형을 바탕으로 구직자를 평가하도록 개발된 알고리즘으로 채용을 진행했다. 그러나 이 알고리즘이 여성에게 불리한 결정을 했다는 사실이 뒤늦게 파악됐다. 인공지능(AI)이 학습한 구직서류 대부분이 남성이 작성했다는 사실, 업계가 남성 위주로 구성된 특성이 반영된 결과다. 아마존은 AI 채용을 중단했다.

아마존 사례는 AI 알고리즘의 문제점을 소개할 때마다 단골 소재로 등장한다. AI 알고리즘은, 심심할 때 취향에 맞는 콘텐츠를 추천해주고, 막히지 않는 길을 알려주기도 하고, 사회관계망서비스(SNS)에서 친구도 찾아준다. 이렇게 편익을 안겨준다는 AI 알고리즘이 문제가 되는 것은 주로 사람에게 ‘손해’를 입힐 때다. 차별이 현존하는 사회의 데이터를 학습한 까닭에 편향된 결과를 내놓기도 하고, 개인의 권리를 해치기도 한다. 알고리즘이 복잡하고 베일에 가려져 있어, AI가 왜 이런 결론을 내렸는지 설명할 수 없는 ‘블랙박스’와 유사하다는 지적도 끊이지 않는다. 그래서 사람을 대신하는 AI에도 윤리 규범이 필요하다는 주장이 지속적으로 나온다. 주로 거론되는 것이 투명성·공정성·신뢰성 문제다.

역설적이게도 AI역량검사를 쓰는 회사들이 대는 도입 이유 역시 투명성·공정성·신뢰성이다. 진보네트워크센터가 한국방송통신전파진흥원(KCA)에 정보공개 청구해 받은 자료를 보면, 이 기관은 2018년 AI역량검사 도입 목적으로 △공공기관 채용 비리 근절 △채용 절차의 공정성과 투명성 확보를 위한 객관적 선발 도구 도입 등을 들었다. <한겨레21>이 민간기업 여러 곳에 문의해보니 이들도 ‘천편일률적인 자기소개서와 시험성적·학력을 제외한 다른 평가요소 찾기’ 정도로 밝혔다.

온라인 응시 또한 기업과 지원자에게 모두 무시할 수 없는 장점이다. 시간과 비용을 절감하고, 특히 코로나19로 인한 ‘언택트’(비대면) 강조에 따라 대면면접에 대한 부담도 줄일 수 있다. 그러나 AI역량검사가 투명하고 공정하고 신뢰할 만한지를 검증하기란 쉽지 않다. ㄱ대기업 인사 담당자는 “솔직히 도입해 쓰는 기업 입장에서는 구체적으로 기술을 검증할 능력이 없기 때문에 업체를 믿는 것 말고는 방법이 없다”고 했다.

경제협력개발기구(OECD)의 신뢰가능 AI 원칙 (2019년 6월)

투명성

AI역량검사는 AI의 윤리적 규범을 얼마나 준수하고 있을까? 현재 국내 민간기업·공공기관 400여 곳에서 쓰는 마이다스IT의 AI역량검사를 보자. 먼저 ‘투명성’. 투명성은 AI 시스템에 대해 설계자와 사용자 사이 설명 가능한 개념을 말한다.

AI역량검사는 크게 전략게임과 영상면접으로 분류된다. 영상면접을 이루는 핵심 기술을 ‘V4’라 한다. 소개자료를 요약하면 이렇다. ①영상을 통해 보이는 지원자 얼굴에서 68개 포인트를 추출해 주요 감정을 분석(Visual) ②음성을 통해서는 목소리 톤과 속도·음색을 추출(Vocal) ③지원자의 음성 답변을 텍스트로 변환해 핵심키워드를 추출하고, 답변 내용의 긍정·부정적 단어 등 감정어휘를 분석(Verbal) ④지원자가 답변할 때 안면의 온도 변화를 분석해 지원자의 정서 상태와 속임수를 감지(Vital).

그런데 <한겨레21>이 마이다스IT에 확인한 결과, 업체는 ③④기술을 사용하지 않는다고 했다. ③기술을 사용하지 않는다는 것은 지원자가 실제로 말한 내용이 검사 결과에 반영되지 않음을 뜻한다. 업체는 ‘자주 묻는 질문’에 “답변 내용은 결과에 영향을 미치지 않습니다”라고 안내는 하지만, 정작 시험 과정에서 응시자들에게는 공지하지 않는다. 특히 업체의 기술 소개 자료만 본 일부 채용 관련 업체가 “답변 내용이 분석되니 긍정적인 단어를 말하라”고 응시 팁을 알려줘 혼선을 키운다. 기업 인사담당자들도 체감한다. “지원자가 질문과 무관한 답변을 하더라도 걸러지지 않는다. 그래서 영상 확인에 많은 시간을 투입한다.”(ㄴ대기업 인사담당자)

업체 쪽은 ③기술은 “특정 단어를 중점적으로 연습해 역량검사에 응시하는 것은 검사 개발 목적에 맞지 않아서” ④기술은 “현재의 측정 방식·기술이 주변 환경 조명이나 온도 등에 따라 잘못 측정될 확률이 높아서” 쓰지 않는다고 했다. 업체 관계자는 “현재 AI 기술력으로는 우리 목적에 맞는 결과를 만들 수 없다고 생각해 방향을 바꾼 것으로, (기술 소개 자료는) 10월 말~11월 누리집 개편 때 수정할 예정”이라고 밝혔다.

공정성

영상면접으로 평가하는 것은 ‘호감도’다. 업체는 ‘호감도’를 이렇게 정의했다. ‘기대하는 방향으로 의사결정이 일어날 수 있도록 자신의 의견을 상황에 맞게 호의적으로 전달하는 능력.’ 세부적으로 면접태도·표현능력·대인매력 등으로 나뉜다.

업체는 소개 자료를 통해 “국내 최고 면접 전문가가 평가한 1억 건 이상의 데이터를 통해 노하우를 학습한 V4 기술로 질의응답 과정에서 발생되는 실시간 반응을 분석”한다고 밝힌다. 방법은 이렇다. 구직자 3천 명의 동의를 얻어 3개 질문의 답변 영상을 녹화한다(영상 9천 개). 질문 답변을 6개로 쪼개고 다시 프레임 10개로 나눈다(영상 54만 개). 그리고 이를 마이다스IT 인사담당자와 고객사 인사담당자로 구성된 ‘면접전문가’ 인력풀(200명으로 구성) 가운데 3명에게 영상, 음성, 영상+음성으로 나누어 보여준다(데이터 162만 개). 면접전문가는 앞서 제시된 ‘호감도’ 6개 항목에 대해 6점 만점으로 평가한다. 그리고 이를 얼굴의 68개 지점에 대한 변화 유형으로 학습시킨다(데이터 1억1016만 개). 정리하면, 구직자 3천 명이 3개 질문에 대해 응답한 면접영상을 면접관 200명이 3개씩 나눠 보고 호감도를 평가한 것이 1억1016만 개의 데이터가 됐다는 뜻이다.

업체 쪽은 “1~3명의 면접관이 지원자의 순간적 모습을 보고 합격, 불합격을 결정하는 일반 면접 과정을 보완한다”고 했다. 하지만 쪼개진 영상으로 학습시킨 표정·태도 분석 결과를 신뢰할 수 있는지는 논란의 여지가 있다. 한 대기업에서 일하는 AI 연구·개발자는 “표정이나 태도가 나온 상황과 맥락 등을 고려해야 하고, 사람마다 다른 표정을 갖고 있기에 이를 통해 가치판단을 하는 것은 다른 문제”라고 말했다. 사진 속 인물의 감정을 분석하는 AI 서비스를 제공하는 마이크로소프트(MS)는 “표정만이 사람들의 내적인 상태를 나타내지 않는다는 점에 유의해야 한다”는 부연설명을 넣어 안면인식을 통한 감정 파악의 한계를 스스로도 인정했다.

‘전략게임’ 역시 편향 논란이 있다. 이 게임은 게임을 수행할 때 나타나는 반응을 뇌신경과학을 통해 분석해 31개 역량을 평가한다. ㄷ기업 인사담당자는 “재직 중인 직원들이 시험에 응시해보니 시험 결과와 업무 성과가 일치하지 않는 것으로 나타났다. 특히 나이가 많을수록 결과가 좋지 않았다”고 밝혔다. 업체도 수긍한다. 업체 관계자는 “신입 채용에 맞춰 개발했기 때문에 20대 중반~30대 중반이 평가에 가장 적합하다. 연령대를 확장할 수 있는 새로운 역량검사를 준비하고 있다”고 밝혔다.

한 취업 준비 학원 강사가 AI면접 응시 요령을 강의하는 유튜브 동영상. 유튜브 갈무리

신뢰성

AI역량검사는 얼마나 정확하고 신뢰할 만할까? 업체 쪽은 정확도를 82%라고 했다. “고성과자로 평가된 직원 6400명의 데이터”를 참조한 결과다. 하지만 대다수 기업 인사담당자는 평가를 유보했다. “AI면접의 타당도가 충분히 분석되지 않아 기존 인적성검사 대비 얼마나 더 효과적인지 가늠하기 어렵다.”(ㄱ기업) “신뢰도는 좀더 데이터를 가지고 비교해봐야 할 것 같다.”(ㄹ기업) 2019년 이 검사를 도입했던 한국공항공사는 “면접의 객관성은 일부 확보할 수 있었으나, 평가 결과의 신뢰도에 대한 검증이 부족”해 활용을 포기했다.(심상정 정의당 의원 제출 자료)

AI는 데이터가 많을수록 성능이 좋아진다. 마이다스IT가 플랫폼 서비스(‘잡플렉스’)를 출시하면서 지원자의 개인정보 처리 방식을 바꿨다. AI역량검사 지원자 개인정보를 채용 기업에서 위탁받아 처리하는 것이 아니라, 지원자 개인정보를 직접 받은 뒤 응시한 기업에 제3자 제공하는 방식으로 개편한 것이다. ‘위탁자’ 처지에선 지원자 데이터를 별도 동의 없이 사용할 수 없었는데 개편 뒤에는 지원자 데이터를 “연구·학술을 위한 통계학적 분석”과 “서비스 고도화와 개선을 위한 데이터 분석” 목적으로 사용하겠다고 개인정보 수집 방식 동의 양식을 바꿨다. 지원자 입장에서는 자신의 데이터가 ‘서비스 고도화’에 사용되는 것까지 감수해야 한다.

미국은 문제점을 인식하고 개선에 나섰다. 2020년부터 미국 일리노이주에서 AI영상면접법이 시행되면서, 사용자(구인자)는 AI영상면접을 사용할 경우 구직자에게 AI가 검토·분석할 특성, 신청자를 평가하는 데 AI 프로그램이 사용하는 특성 등 기술에 대해 서면으로 알리도록 했다. 또한 특정 직위 후보자의 적합성 평가를 제외하고 다른 사람에게 면접영상을 배포할 수 없다. 다른 용도로 쓰는 것을 막기 위한 장치다. 미국 뉴욕시도 2020년 2월 고용 목적에 활용되는 AI 기술은 편향성 유무 검증을 받지 않으면 판매할 수 없도록 하는 ‘자동화된 고용결정 도구 판매에 관한 법안’을 발의했다.

D등급도 35% 최종합격

인천국제공항공사는 2019~2020년 두 차례 직원 채용에 AI역량검사를 면접 참고자료로 활용했다. AI역량검사에서 A등급을 받은 이 가운데 최종합격자 비율은 51%로 나타나는 등 우수 등급일수록 합격률이 다소 높았으나, 최하등급 D등급을 받은 지원자 가운데서도 35%가 최종합격했다.(심상정 의원 제출 자료) 인천국제공항공사는 “AI역량검사에 대한 면접위원의 평가가 긍정적이지 않다”고 밝혔다. 여기서 의문이 제기된다. AI를 믿을까, 이를 신뢰하지 못하겠다고 한 기업을 믿을까. AI의 공정성이 투명하게 검증되지 않는 한 채용에 대한 신뢰성은 계속 도전받을 것이다.

박태우 기자 ehot@hani.co.kr

*표지이야기-의심많은 기자의 AI면접 분석기
http://h21.hani.co.kr/arti/SERIES/2337/

한겨레는 타협하지 않겠습니다
진실을 응원해 주세요

후원하기 후원제 소개