역자주: 판타지 풋볼이란 가상의 리그에서 팀을 구성하고 현실과 연동하여 승패를 겨루는 방식의 게임을 말합니다. 함께 게임을 진행하는 사람들과 돌아가며 선수를 뽑아 각자의 팀을 만든 후, 실제 경기가 치뤄지면 선수별 활약 수치를 점수화하여 이를 근거로 가상 팀의 점수를 합산해 높은 팀이 이기게 됩니다. 그렇게 경기를 반복하고, 필요 시 선수를 트레이드 하면서 리그를 진행합니다. 여러 업체에서 게임을 서비스하고 있으며, NFL 판타지 풋볼의 경우 사용자가 1900만 명에 달합니다.
원문은 Arati Mejdal이 쓴 Statistics as a 'superpower' for making fantasy football projections and predicting the NFL Draft입니다.
미식축구 좋아하시나요? NFL 드래프트나 판타지 풋볼, 미식축구 비디오 게임에 관심있다면 트위터에서 코알라티 통계의 조셉 브라이언을 팔로우하세요.
지난 몇 년 간 저는 트위터에서 미식축구 데이터 분석 및 예측모델링에 관한 흥미로운 내용들을 올려주는 코알라티 통계(Koalaty Statistics)를 팔로우했습니다. 때로는 EA 스포츠의 매든NFL 같은 비디오 게임 데이터를 탐색하고 분석하기도 하는데, 그런 게임들은 선수 및 팀에 대한 능력치를 점수화하여 제공합니다. (미식축구와 비디오 게임을 좋아하는 10대 아들이 이런 것들을 알려줍니다.)
곧 시작되는 미식축구 시즌을 앞두고, 조지아 대학교에서 통계학을 전공한 분석 전문가로 소개되어 있는 해당 계정에 쪽지를 보냈습니다. 그렇게 연락이 닿은 계정 운영자는 조셉 브라이언(Joseph Bryan)으로, 그가 누구인지 또 어떤 일을 하는지에 대해 들려주었습니다.
조지아에서 태어나고 자란 조셉은 미식축구(대학리그와 NFL 둘 다)를 좋아했습니다. 원래는 기계공학을 공부하려다, 기초통계 수업에서 통계 개념을 미식축구에 적용해서 배웠던 걸 계기로 전공을 바꾸게 됩니다. 몇 년 뒤에는 통계학사 학위를 가진 분석 전문가가 되어, 스스로는 ‘회귀분석 덕후의 미식축구 뽀개기’라 부르는 그의 작업을 좋아하는 팬들도 생겨나게 됩니다.
‘현실 세계에 적용되는’ 데이터를 처음 다루게 된 건 캐터필러 사의 품질 엔지니어링 인턴 과정에서였습니다. 지난해에는 조지아에 위치한 마스터랙(Masterack) 사의 품질 엔지니어로 근무하면서 사내에 데이터 분석을 도입하고, 연간 20만 달러 이상(!)의 비용을 절약할 수 있는 프로젝트를 이끌었습니다.
그는 올 여름 초에 결혼하여 펜실베이니아 대학교에서 경제학 박사 학위를 받고 있는 아내와 함께 필라델피아로 이사했습니다. 지금은 새로운 도시에서 데이터 분석가 직업을 찾는 한편, 코알라티 통계에 그의 분석을 공유하고 있습니다.
코알라티 통계에 대해 알려주세요? 무엇이며, 언제, 어떻게, 왜 시작했습니까?
몇 년 전 응용선형회귀 수업을 들었는데, 대학교에서 제가 제일 좋아한 수업입니다. 마크 버너(Mark Werner) 교수는 환상적이었고, 저는 회귀와 사랑에 빠졌죠. 봄 학기 수업이었는데 새로 배운 것을 제가 사랑하는 미식축구에 적용하고 싶어졌습니다. 그래서 NFL 드래프트를 예측하기 위한 회귀분석을 시작했습니다. 드래프트는 4월에 열리는 거대한 NFL 이벤트이자 제가 가장 좋아하는 것 중 하나입니다. 저는 드래프트가 개최되기 전에 결과를 예측하거나, 최소한 시도라도 하고 싶었어요. 그렇게 만든 회귀모형은 꽤 괜찮았지만 놀라울 정도는 아니었습니다. 모든 데이터를 (지금 알고 있는 기술들을 그때는 몰라서) 수동으로 수집해야 했고 필요한 것들을 모두 준비하는데 30시간 정도가 걸렸습니다.
얼마 지나 졸업식이 다가오면서 “학위를 미식축구와 관련된 일에 활용하고 싶다, 트위터에 있는 사람들이라면 관심을 가질지도 모른다”는 생각이 들었습니다. 저는 좀 더 세련된 통계기술과 방법들을 사용해 2018 NFL 러닝백 포지션 드래프트를 ‘굉장한’ 수준으로 예측합니다. 예측정확도는 .67 R제곱(67%의 설명력을 가진다는 의미)이었어요. 나는 정말 뿌듯했고 적지만 팔로워들이 생겨나기 시작했습니다. 처음 리트윗을 해준 피터 하워드(Peter Howard)에게 특히 감사합니다.
그때부터 드래프트 외의 대상에도 제 방법과 기술을 적용하기 시작했습니다. 제대로 된 이름이 필요하다고 생각해서 고등학교 때 별명인 코알라를 붙인 코알라티 통계가 만들어졌습니다. (역자주: 코알라티는 퀄리티와 발음이 비슷해서 말장난으로 사용됨) 드래프트킹(DraftKings)이나 팬듀얼(FanDuel) 같은 DFS(Daily Fantasy Sports, 역자주: 전통적 판타지 스포츠는 실제 리그와 동일한 기간 동안 진행되므로, 이를 하루나 주말 등으로 단축시킨 형태의 게임)에서 회귀작업을 시작하자 팔로워가 훨씬 늘어났습니다. 현재 1,800명 정도의 팔로워가 있는데, 회귀 덕후의 미식축구 분석 치고는 정말 많은 편이죠. 처음 시작할 땐 팔로워가 100명을 넘을 거란 생각도 안 했어요. 이 모든 시작은 NFL 드래프트였죠. 그러나 지금은 (미식축구에 관한) 거의 모든 회귀분석으로 발전했습니다. 저는 게임 단위로 분석할 수 밖에 없는 DFS 예측이 정말 즐겁습니다.
2018년 말, 조셉 브라이언은 JMP를 사용하여 베이지안 모델을 만들었습니다. 이 모델은 러닝백이 ‘좋음’(평균 판타지 점수 이상)인지 ‘나쁨’(평균 판타지 점수 미만)인지 예측합니다. 목표는 다른 변수를 추가해 더 큰 앙상블 모델을 만들어 주 단위의 성과를 예측하는 것이었습니다. X 축은 단일 게임에서 득점한 판타지 점수입니다.
코알라티 통계에 대한 미식축구 팬들의 반응은 어떻습니까?
보통은 ‘어떻게 한 달 전에 그걸 예측하지?’처럼 깜짝 놀랍니다. 그 주에 엄청난 활약을 하는 선수를 예측할 때에도 사람들은 좋아합니다. 정말 짜릿하죠! 최고의 순간은 사람들이 제 분석을 보고 통계적 방법에 더 배우고 싶다는 쪽지를 보낼 때입니다.
코알라티 통계를 통해 이루고 싶은 것은 무엇인가요?
최종 목표는 사람들이 재미있는 방법으로 통계를 배울 수 있도록 돕는 것입니다. 전공을 물어볼 때 ‘통계’라고 대답하면, 사람들은 항상 "와, 정말 힘들고 지루하다”는 식의 반응을 보입니다. 통계는 정말 재미있고, 흥미진진하며, 일단 제대로 배우고 나면 엄청나게 유용할 수 있습니다.
판타지 풋볼에서는 항상 이기나요?
하하, 가끔은요. 제 모델이 100% 완벽하지는 않습니다 - 그런 모델은 없어요. 저는 계속 다양한 시도를 하고 있으며, 언젠가 그렇게 되면 좋겠습니다. 어떤 때는 제 모델이 거의 완벽한 예측을 하는 반면, 아무 것도 맞추지 못하는 때도 있습니다.
통계학에서 가장 좋아하는 점은 무엇입니까?
대학에서 전공을 바꾼 이유는 ‘통계로 미래를 예측할 수 있다’고 생각했기 때문입니다. 어느 정도까지는 사실입니다. 마치 초능력 같은 거죠. 모두 초능력을 원하지 않나요?
어떻게 JMP를 사용하게 되었나요? 현재는 왜 사용하나요?
JMP를 처음 접한 건 조지아 대학교의 응용선형회귀 수업에서였습니다. 수업에서는 R과 JMP 두 가지에 대한 사용법을 배웠고요. 아직 둘 다 쓰긴 하지만, 환상적인 시각화와 신경망 기능 때문에 주로 JMP를 사용합니다. JMP는 대부분의 회귀분석 도구를 효율적으로 제공하고 있어서, 짧은 시간 내에 문제에 대한 여러가지 다른 접근방식을 매우 쉽게 시도할 수 있습니다.
그 외에 사람들이 궁금해할 것들이 있을까요?
미식축구 시즌이 아닐 때에는 NCAA 소프트볼과 NBA 농구를 즐겨 봅니다. 대학교 때에는 레드코트 마칭 밴드(Redcoat Marching Band)에서 트럼본을 연주했었고요. 이글스카우트(Eagle Scout, 보이스카우트 내에서의 최고 등급)이기도 합니다. 대학교 4학년 때에는 지역 학교에서 방과후 프로그램으로 유치원생들에게 코딩을 가르치키도 했습니다.