아파치 스파크는 데이터 분석과 빅데이터 개발자들의 상상력을 현실로 만들었다. 간단히 말해 스파크를 이용하면 분산 컴퓨팅 기술을 연구실 규모 혹은 제품 레벨로 이용할 수 있다. 지금까지도 수집-저장-변환(collect-store-transform) 파이프라인은 분석과 머신 러닝 모델과도 구분되는 추론-모델(Reason-Model) 파이프라인 데이터 과학과 또 다르게 구분된다. 현재 스파크와 더불어 카프카와 같은 기술을 이용해서 데이터 관리와 데이터 과학 파이프라인을 끊김 없이 확장할 수 있다. 또한 대규모의 데이터셋에서 데이터 과학 모델을 모델링할 수 있으며, 이때 그저 샘플 데이터만 있어도 된다.
그리고 어떤 데이터 모델을 만들더라도 제품(물론 엔지니어링에 작업을 추가해서 새로운 '기능들'을 더하는 것을 포함한다)으로 배포할 수 있다. 이 책의 목적은 데이터 엔지니어가 스파크 플랫폼의 기초에 익숙할 수 있게 하는 것과 더불어 스파크를 다루는 좀 더 발전적인 역량을 제공하는 데 있다.