20년이 좀 못 되는 기간동안 데이터 분석 분야에서 일을 하고 데이터 분야 책에 관해서도 다양하게 관여를 하다 보니, 데이터 분석 책에 대한 추천 문의 역시 많이 받았습니다. 그중 아무래도 데이터 분석 업무를 처음 시작하는 사람들이 읽기 좋은 책이나, 데이터 분석 업무를 하는데 꼭 읽었으면 좋겠다 하는 책을 추천해 달라는 경우가 많았습니다. 그럴 때마다 저는, 이 분야의 기술이 워낙 빠르게 발전하고 있다 보니 기술서의 경우 매번 달라질 수 있고 초심자용 책은 이미 좋은 책이 충분히 많아서 적당히 맞는 것을 취사선택할 수 있지 않나 싶은 생각이 들었습니다. 하지만 그럼에도 불구하고 무언가 늘 아쉬운 마음이 있었습니다.
연구 목적의 데이터 분석이 아니고 '데이터 과학자(및 데이터 분석가 등의 데이터를 분석하는 것이 주 업무인 모든 직업, 이하 데이터 과학자로 통칭함)'라는 직업을 가지고 데이터 분석을 마주하는 경우, 데이터 분석은 많은 경우 넓은 범위의 '문제 해결 과정'의 형태를 띱니다. 좋은 접근부터 좋은 마무리까지 가기 위해서는 기술적인 것보다도 더 넓은 범위에서 고려해야 할 것들이 다양하게 발생합니다. 이 문제를 해결하기 위한 이해 관계자들을 파악하고, 사람들과 어떻게 대화하고, 결과물을 어떻게 효과적으로 전달할 수 있는지까지, 흔히 생각하는 좁은 범위의 '데이터 분석' 이상으로 신경 써야 할 것들이 산더미입니다. 그리고 이런 것들이, 결과적으로는 실제로 성과에 영향을 미치는 '좋은' 데이터 분석을 만듭니다.
제가 그간 다양한 곳에서 데이터 분석을 해오면서, 한 번도 예외사항을 발견하지 못했고, 저는 데이터 분석이란 결국 일종의 '문제 해결'의 형태라고 생각해 오고 있습니다.
하지만 대다수의 데이터 분석 관련 책은 주로 데이터를 기술적으로 처리하고 알고리즘을 적용하는 부분에 집중하여 이야기합니다. 아무래도 '데이터 분석' 이라는 단어나, '데이터 과학자'라는 직업을 생각했을 때 떠올리는 이미지는 주로 수학과 기술로 무언가를 해결하는 사람들에 대한 이미지고, 수학과 기술 지식을 가지고 있어야 실제로 이런 일을 할 수 있다 보니 책이나 교육 과정도 그럴 수밖에 없을 것입니다. 또한 넓은 범위의 일에 대한 지식이라는 것은 어떻게 보면 일마다 회사마다 다소 다를 것으로 느껴지기도 합니다. 수학이나 기술 같은 전문 지식이 아닌 부분은 '소프트 스킬'이라는 이름하에 모두가 공통적으로 이미 어느 정도 숙지하고 있는 교양으로 구분되기도 합니다.
하지만, 이 중에서도 분명히 데이터 분석 분야의 문제 해결을 위해서 필수적으로 필요한 부분이 분명히 있고, 이런 내용은 기술지식만큼 혹은 그 이상으로 중요합니다. 또한 오늘날처럼 갑자기 LLM을 비롯한 AI가 대두되고, 많은 문제 해결의 방법이 빠르게 변하는 상황에서는 기술 지식 그 자체만큼이나 기술 지식을 '어떻게 적용하느냐'가 중요한데 이에 대해서는 매번 '경우마다 다르다'라는 말로 뭉뚱그려져 왔고, 그때 그때 최신의 기술에만 현혹되다 보니 결국 문제 해결의 본질 주위를 겉도는 패턴이 예전부터 지금까지 반복되어 왔습니다.
경우마다 다르다는 것은 대부분의 경우 거부할 수 없는 사실이지만, 그래도 데이터 분석에 한정한다면 그에 공통적으로 적용되는 부분이 있기 마련입니다. 그리고 이런 부분은 충분히 공유하고 논의할 가치가 있습니다. 그래서 저 역시도 다양한 경로를 통해서 이런 내용을 알리고자 했지만, 다소 역부족이라는 생각을 늘 마음 한켠에 가지고 있었습니다.
그런 의미에서 처음에 이 책의 역자인 신정원 님이 이 책을 처음 공유해 주셨을 때 저는 신기하기도 하고 반갑기도 했습니다. 물론 저는 일본어를 잘 모르기 때문에 번역 앱으로 대략적인 내용만 확인해 보는 정도였지만, 기술의 발전과 거의 무관하게 데이터 과학자들에게 꼭 필요한 기술 내외적인 부분이 충분히 들어가 있는 것처럼 보였습니다. 이 책이 제가 부족하다고 느꼈던 부분을 많이 채워줄 수 있을 것이다 싶어서 우리말 번역이 되었으면 좋겠다고 적극 추천하게 되었습니다. 다만 책이 아주 최신은 아니고, 일본의 대기업 상황과 현재 국내 기업의 상황 중에서는 다른 부분도 있기 때문에, 그 부분이 보완되면 좀 더 좋겠다 싶어서 자처해서 기술 감수 및 국내 인터뷰도 진행해서 담고, '감수자 한마디'라는 형식으로 업데이트와 국내 현황에 대한 조언을 실었습니다. 원래의 좋은 내용에 누를 끼치지 않으면서도, 어떻게 하면 이런 내용을 사람들이 좀 더 잘 받아들이고 도움이 되도록 만들 수 있을까 즐겁게 고심할 수 있었습니다.
초벌 번역한 원고를 받아서 이 책을 제대로 처음 완독했을 때를 생각합니다. 이미 충분히 예상은 했지만 생각보다도 더 주옥 같은 내용들이 들어있어서 기뻤습니다. 감수하는 입장에 앞서서 한 명의 데이터 과학자이자 독자로서 많은 내용에 공감하고 조금은 이전의 나의 모습을 반성할 수 있었습니다. 저 역시도, 이런 책을 쓰고 싶었는지도 모릅니다만, 이렇게 다른 분의 책에 참여하는 형태로라도 이런 내용을 전할 수 있어서 기쁩니다. 다른 많은 데이터 과학자 분들 역시 이 책을 통해서 이 업무에 '실질적인' 도움을 받을 수 있을 것이라고 믿어 의심치 않습니다.
데이터 분석의 최종 목적은 결국 기존의 데이터를 활용해 잘 모르는 것을 '예측'하는 것에 있어 왔다. 흔히 '고급 분석'이라는 머신 러닝 알고리즘을 활용한 데이터 분석은 크게 추이를 통해 명확하지 않은 변동 상황이나 알 수 없는 미래를 '예측'하고, 분류를 통해 정확하지 않거나 알 수 없는 것의 성격을 '예측'하는 것에 초점이 맞춰져 있다. 이런 분석 기법은 흔히 '예측 분석'이라고 불려왔고, 데이터 분석을 하는 많은 사람들이 이 '예측 분석' 기법을 실제 상황에 직접 사용해보려고 시도하고 있다. 특히 예전과 달리 학계 및 산업계에서 전반적으로 데이터에 대한 인식이 자연스러워지고, '머신 러닝'이나 '인공 지능'이라는 단어도 더 이상 생소하지 않은 시대가 되면서 머신 러닝 알고리즘과 유사한 '예측 분석'에도 좀 더 많은 사람들이 관심을 갖게 됐다.
이런 때에 맞춰 이 책을 번역하게 돼 매우 기쁘게 생각한다. 이 책은 실제로 충분한 지식을 갖고 예측 분석을 업계에서 직접 사용하면서, 실제로 사람들이 많이 사용할 만한 기능을 R패키지로 구현하기도 했던 훌륭한 저자들이 자신들의 지식과 노하우, 실제 분석에서 얻은 통찰까지 골고루 담아낸 책이다. 학교에서 교과서로 사용해도 될 정도로 풍부한 지식이 꼼꼼하게 들어 있으면서도, 현업에서 일을 하면서도 간간히 참고 자료로 찾아볼 수 있을 정도의 실질적인 팁이나 실무에서 접하게 되는 요소들도 놀라울 정도로 풍부하게 들어 있다. 계속 데이터를 접하는 사람이라면 이 책을 오랜 기간 옆에 두며 도움을 받을 수 있을 거라고 확신한다.
솔직히 데이터 분석에 처음 입문하는 사람이 접하기에는 난이도가 어느 정도 있는 책이다. 하지만 그만큼 배울 것이 매우 많다고 생각한다. 나 역시도 어느 정도 실무로 데이터 분석을 해왔음에도 불구하고, 이 책의 번역을 진행하면서 많은 것을 배웠고, 많은 부분에서 감탄하기도 했으며, 여러 부분에서 감동하기도 했고, 한없이 겸손해지기도 하는 등 즐거운 경험을 했다. 이 책을 접하게 되는 독자들도 나와 같은 경험을 하실 수 있기를 바라고, 아마도 충분히 그럴 수 있을 거라고 생각한다.
R을 업무에서 본격적으로 사용하게 된 지도 벌써 4~5년이 되었다. 처음에 학교에서 S-PLUS나 R 언어를 접하면서도 SAS나 SPSS와 같이 편리한 것도 아니며 눈에 띄게 다른 점도 없어서 그냥 좀 주변에서 사용되다가 사장될 줄 알았는데, 예상과 달리 이 언어를 주 업무로 사용하고, 책을 번역하게 될 것이라고는 전혀 생각하지 못했다. 하지만, 빅 데이터가 화두가 되면서 데이터 분석에 대한 관심이 높아지고 사용 형태가 좀 더 다변화되면서, 데이터 분석 분야에서 이런 경험과 방법을 공유하고 사회와 기술의 변화에 발 맞춰 가는 데 현재로서는 R만큼 적합한 도구는 없다고 생각된다. 이런 의미에서 이 책을 번역하게 되어서 매우 기쁘게 생각한다.
이 책은 R을 사용하고 공부하고자 하는 사람이면 초보자건, 전문가건 누구에게나 도움이 될
수 있는 내용들이 실린 일종의 R 바이블이라고 해도 과언이 아니다. 기본적인 R의 개념과 문법으로 시작해서 베이지안 분석론이나 생존 분석 등 고급 분석에 대한 내용까지 풍부한 예제와 함께 상세하게 기술되어 있다. 나도 R을 어느 정도 사용해봤지만, 이 책을 번역하면서 이론으로만 알던 내용을 R로 구현한 것을 처음 접해보는 등 새로운 내용을 다양하게 접할 수 있었다. 쉽지 않은 작업인 데다가 상당히 긴 분량을 번역하면서 지루해질 법도 한데, 그런 이유에서인지 흥미로운 시간을 보낼 수 있었다. 이 책을 읽는 독자 분들도 이 책이 주는 광대한 지식과 더불어 이런 감정 역시 공유할 수 있었으면 한다.