스파크 활용 가이드로, 스파크를 이해하고 활용하는 데 필요한 중요 내용을 빠짐없이 다룬다. 1부에서 스파크와 스파크의 풍부한 API를 소개하고, 2부에서 스파크를 구성하는 스파크 SQL, 스파크 스트리밍, 스파크 MLlib, 스파크 GraphX 컴포넌트를 알아본다. 그리고 3부는 스파크 자체 클러스터, 하둡의 YARN 클러스터 및 메소스 클러스터에서 애플리케이션을 실행하는 데 필요한 기본 개념과 설정 옵션을 다룬다. 마지막으로 4부는 더욱 상위 레벨에서 스파크를 활용하는 방법을 다룬다.
페타 제체비치 (지은이)의 말
아파치 스파크는 범용 데이터 처리 프레임워크다. 다시 말해 모든 종류의 연산 작업에 스파크를 사용할 수 있다. 누구든 아파치 스파크를 소개한 책을 집필하려면 매우 다양한 주제를 다룰 수밖에 없다. 우리는 스파크 활용을 모든 측면에서 설명하려고 노력했다. 책과 예제로 스파크를 사용하고 실행하는 방법을 이해하고, 운영 환경에 적용할 스파크 애플리케이션을 작성하는 데 도움을 얻길 바란다.
이춘오 (옮긴이)의 말
스파크는 대량의 데이터에서 거시적 통찰을 찾는 데이터 분석가, 대규모 데이터로 예측 모델을 훈련시키는 데이터 과학자, 대규모 실시간 데이터에 직면한 데이터 엔지니어, 모든 이미지와 텍스트로 인공 지능을 창조하려는 AI 개발자 모두를 만족시킬 수 있다.
책은 스파크와 빅데이터를 처음 접하는 사람도 쉽게 시작할 수 있을 만큼 친절하며, 스파크의 방대한 내용을 깊게 다룬다. 책을 완독하면 스파크라는 고속열차의 끝에서 중간쯤은 다다른 것이다.