야구는 경기마다 숫자들을 남긴다. ‘기록의 스포츠’라는 이름이 붙고 ‘데이터 야구’가 가능한 이유다. 통계학이 야구에 흥미를 가지는 이유이기도 하다. 숫자들의 성채인 야구는 예측을 허용할까. 미국 메이저리그의 ‘소수자’인 너클볼 투수들을 다룬 다큐멘터리 영화 (2012)에는 이런 말이 나온다. “그동안 배운 야구는 다 잊어버려라” “일단 내 손에서 벗어나면 나머지는 세상에 맡겨야 한다”. 던지는 이도 통제하지 못하는, 불가해한 궤적을 그리는 너클볼에 대한 얘기지만 야구 자체에 대한 비유로 보아도 크게 틀리지 않는다. 강팀과 약팀이 섞여 있는 프로야구의 승패는 정상분포곡선을 그리는 듯하면서도 지저분하게 흔들리는 공처럼 팬들을 배신하곤 한다.
그럼에도, 올 시즌 프로야구 순위를 맞혀보려는 선지자적 욕망은 사그라지지 않는다. 과거 성적을 통해 앞으로의 성적을 예측하려는 시도인데, 프로스포츠 천국인 미국에서는 꽤 오래전부터 각종 알고리즘을 동원한 미래 예측 보고서가 작성됐다. 컴퓨터를 활용한 야구 데이터 분석법인 세이버메트릭스(Sabermetrics)라는 분야도 생겨났다.
우리나라는 어떨까. 2011년에 나온 ‘과거의 자료와 모의실험을 통한 한국 프로야구 성적 예측’(유태희)이라는 논문은 미국 메이저리그 야구팀들을 대상으로 한 미니탭 알고리즘을 이용해 2012년 프로야구 정규리그 성적을 예측했다. 8개 팀이 정규시즌 동안 맞붙는 532경기를 1천 번에 걸쳐 모의실험했다. 결과는 익숙하다. SK 와이번스가 757차례 1위를 차지하는 것으로 나타났다. 삼성 라이온즈가 1위를 한 경우는 147차례였다. 롯데 자이언츠 팬들이 기뻐해야 할지 낙담해야 할지 모르겠지만 롯데는 1천 번 모의실험에서 31차례 우승하는 것으로 나왔다. 두산 베어스는 25차례, KIA 타이거즈는 2차례였다. LG 트윈스와 넥센 히어로즈, 한화 이글스 팬들에게는 미안하지만 이 팀들이 1위를 차지하는 경우는 1천 번 모의실험에서 1차례도 나오지 않았다.
그러나 이 실험 결과는 2012년 실제 성적을 맞히지 못했다. 모의실험에서 압도적 1위 빈도를 보여준 SK가 현실에서는 2위(71승3무59패)로 내려앉은 반면, 삼성이 승률 0.611로 1위(80승2무51패)를 차지했다. 모의실험에서 SK의 우승 가능성이 높게 나온 것은 2007년부터 5년 동안 정규시즌 1위를 3차례 차지한 전력이 크게 반영된 탓이다. 삼성·SK·두산·롯데가 포스트시즌에서 맞붙는 것을 가정하고 벌인 1천 번 모의실험에서는 SK(646회)-삼성(222회)-롯데(77회)-두산(55회) 순으로 우승 가능성이 나왔지만 현실에서는 삼성이 우승했다. 2012년 포스트시즌 실제 순위인 삼성-SK-롯데-두산을 맞힌 빈도는 모의실험 1천 번 가운데 127차례였다. 모의실험 결과가 실제와 차이가 나는 데는 반영된 데이터가 제한적인 탓이 크다. 논문은 “타수·득점·안타·사사구·삼진·도루 등 선수 개개인의 타율을 분석하지 않았고, 기록에 영향을 미칠 수 있는 홈·어웨이 경기, 선수의 심리적·생리적 상태, 팀 전술 등 외적 영향을 고려하지 않았다”고 했다.
2010년에 나온 ‘한국 프로야구 경기 결과에 관한 통계적 연구’(최영근·김형문)는 타율·도루·장타율·실책·평균자책점·세이브·홀드 등 야구 승패에 영향을 미치는 변수의 조합을 늘렸다. 홈경기 이점, 다승왕·10승투수·골든글러브 수상자의 영향력 등도 고려됐다. 이 논문은 과거 자료를 가지고 2008년 프로야구 한국시리즈 우승 확률을 예측했는데, SK 우승-두산 준우승을 정확히 맞혔다. 준플레이오프에서 삼성이 롯데를 이기고 플레이오프에 올라가는 상황까지 예측했다. 하지만 논문은 “선수의 이동과 구단 지원 등에 따라 그해 성적이 엇갈리게 나온다. 연구 결과치를 보면 2009년 한국 프로야구 결과와는 사뭇 다르다. 본 연구를 통해 그 다음해 성적을 예상하기는 어려운 점이 있다”고 한계를 인정했다.
팀내 임금 격차가 팀 성적에 미치는 영향야구 데이터는 워낙 다양하다. 많아도 너무 많다. 어떤 데이터를 반영하고 조합하느냐에 따라 결과도 천차만별이다. 그래서 ‘족집게’ 성적 예언보다는 ‘적당히’ 진출 가능성을 살피는 연구도 있다. ‘프로야구 포스트시즌 진출 예측을 위한 통계적 모형 비교’(2010, 채진석·조은형·엄한주)는 세이브·방어율·이닝당 출루허용률·피안타율 등에서 상·하위팀 차이가 뚜렷하다고 분석했다. 타율·장타율·출루율·OPS(장타율+출루율) 등도 마찬가지다. 도루 횟수와 도루 성공률도 유의미한 결과로 이어졌다. 한국노동연구원에서는 ‘팀내 임금 격차가 심화되면 팀 성적이 향상되는가: 한국 프로야구 데이터 분석을 중심으로’(2011, 김정우·김기민)라는 흥미로운 연구를 진행했다. 프로야구는 양극화가 심한 동네다. 연봉으로 수십억원을 받는 스타 플레이어가 있는 반면, 부러져 나가는 배트를 보며 속이 쓰린 선수도 있다. 결과는 이렇다. “골프 같은 개인 종목의 경우에는 인센티브 크기가 클수록 성과도 좋아지는 결과가 발견되지만 팀 스포츠의 경우에는 모든 실증연구에서 임금 격차 크기와 성과 사이에 마이너스 결과가 나타난다. 어느 정도 임금 격차는 선수들에게 열심히 하고자 하는 동기가 되지만 용인하지 못할 정도로 임금 격차가 벌어지면 스포츠에서 중시되는 응집력과 협력이 와해되어 팀 승률에 부정적인 영향을 미친다.” 돈을 풀어 좋은 선수를 많이 영입하면 당연히 해당 구단의 기대 성적은 높아진다. 논문은 1998~2009년 평균연봉과 팀승률을 비교했다. 부자 구단으로 알려진 삼성의 평균임금과 평균승률이 가장 높은 반면, 투자에 짜다는 평가를 받는 롯데는 평균임금·평균승률 모두 가장 낮은 것으로 나타났다. 쓰는 만큼 돌아온다.
‘주성분회귀분석을 이용한 한국 프로야구 순위’(2012, 배재영·이진목·이제영)는 투수 부문 17개, 타자 부문 20개 변수를 이용했다. 연구에 참여한 이제영 영남대 교수(통계학)는 “장기 데이터를 모아야 통계적으로 예측의 정확성을 높일 수 있는데 외국인 투수, 팀 이적, 신인 선수 등의 변수가 많다. 특히 외국인 투수들이 승패에 상당한 영향을 미친다. 생각보다 예측이 잘 맞지 않는 부분이 있다”고 했다.
사심을 담아, 이대로 쭉2013년 프로야구가 3월30일 오후 2시에 개막한다. NC 다이노스가 창단되면서 9개 구단 체제로 경기가 돌아간다. 팀당 128경기, 모두 576경기를 치른다. 남정연 한국야구위원회(KBO) 홍보팀 과장은 “9구단 체제로 바뀌면서 팀당 경기 수는 조금 줄었지만 전체 경기 수가 늘면서 정규시즌 기간도 늘어나게 됐다. 무조건 한 팀은 휴식을 해야 하는 변수도 생겼다. 선발투수 운용에도 영향을 미친다. 이같은 변화가 전력에 도움이 될지 안 될지 지금으로서는 예측하기 어렵다”고 했다.
기존 8개 팀 시절의 자료를 가지고 이뤄졌던 예언들은 사실상 모두 도루묵이 됐다는 얘기다. 3월22일 현재 프로야구 시범경기 순위는 KIA가 1위, 두산이 2위다. 사심을 담아, 이대로 쭉 가면 좋겠다.
김남일 기자 namfic@hani.co.kr한겨레21 인기기사
한겨레 인기기사
[단독] 명태균, ‘면접’ 보고 김건희 만나…면접관은 조은희 의원·함성득 교수
차기 대통령, 이재명의 민주당 아닌 ‘민주당의 이재명’이라야 된다
민주, 가상자산 과세 2년 유예…여야 ‘감세 짬짜미’ 비판 직면
주말근무 중 5t 기계에 깔려 숨진 20대
이 풍경이 한국이라니…12월 여행 후보지 3곳
과일 도매 10년, 오늘도 사장님한테 돈을 떼였다 [.txt]
[단독] 김영선의 증거 은닉처, 창원산단 투기 의혹 ‘동생 집’이었다
우크라 총리 “한국이 1억달러 차관 제공”…무기지원 대신 돈?
서울 도심에 10만 촛불…“윤석열 거부, 민주주의 망가질 것 같아”
가상자산 사업가 ‘87억 바나나’ 호로록…과일아트 먹은 이유