데이터는 새로운 '석유'다. 기업 내에서 수집되는 정형, 반정형, 비정형 데이터의 양은 기하급수적으로 증가했다. 데이터에서 얻은 인사이트는 모든 기업의 중요한 차별화 요소이며, 제품의 기능과 비즈니스 프로세스 향상에는 머신러닝 모델이 사용된다.
엄청난 양의 데이터가 데이터 레이크(data lake) 내에서 수집되고 있지만, 항상 일관성 있고 정확하게 해석 가능하며 표준화될 만큼 충분하지는 않다. 데이터 과학자는 데이터 수집을 위한 시스템 정렬, 메타데이터 정의, ML 알고리듬을 제공하기 위한 데이터 랭글링(data wrangling), 대규모 파이프라인 및 모델 배포 등의 엔지니어링 활동에 상당한 시간을 소비한다. 이런 일들은 데이터 분석가의 핵심 역량인 인사이트 도출과는 무관할 뿐더러, 비즈니스 전후 사정에 대한 이해가 부족한 데이터 엔지니어나 플랫폼 IT 엔지니어에 의존하느라 늘 병목 현상이 발생한다. 데이터에 접근하려는 제품 관리, 마케팅, 재무, 엔지니어링 분야의 데이터 시민(data citizen, 사용자)은 늘어나는데 엔지니어링이 복잡하다 보니, 데이터 분석가와 과학자만 데이터에 접근할 수 있게 돼 데이터 민주화는 더욱 요원해지는 것이다. ML 프로그래밍의 발전에 관한 많은 책과 특정 데이터 기술에 대한 심층적인 책들이 나와 있기는 하지만, 다양한 데이터 사용자 지원을 한 셀프서비스 플랫폼 개발에 필요한 데이터 엔지니어링 운영 패턴에 대한 글은 거의 없다.
이 책에서는 데이터 사용자와 데이터 플랫폼 엔지니어의 관점을 모두 통합하고자 했다. 요구 사항에 대한 공통의 이해를 만드는 것은 가용 시간과 자원을 고려해 실현 가능한 것이 교차되는 실용적인 로드맵을 개발하는 데 매우 중요하다.