알라딘

검색
헤더배너
상품평점 help

분류

이름:양원국

최근작
2018년 4월 <엔터프라이즈 데이터 레이크 구축>

아파치 Kafka 따라잡기

아파치 카프카(Apache Kafka)는 2011년 링크드인(LinkedIn)이 자사에서 웹사이트가 생성하는 다양한 소스로부터 나오는 대량의 이벤트를 처리하기 위해 만들어졌다. 페이지뷰, 검색, 소셜네트워크 활동 같은 다양한 데이터 소비자가 접근해 정보를 가져오는 저장소 역할도 수행했다. 이렇게 자사에서 사용한 프로그램을 오픈소스화한 프로젝트가 바로 아파치 카프카다. 아파치 카프카 프로젝트는 같은 해인 2011년 6월에 아파치 인큐베이터 프로젝트에 등록되었고 불과 1년 만인 2012년 10월에 아파치 인큐베이터를 졸업해 아파치 탑 프로젝트로 승격되었다. 아파치 카프카는 저지연성을 가지지만, 스루풋(throughput)에 주안점을 두지 않은 액티브엠큐(ActiveMQ)와 다양한 소비자를 다룰 때 지연시간(latency)을 보장하지 못하는 플룸(Flume)과 스크라이브(Scribe) 두 솔루션 간의 큰 차이를 메우기 위해 만들어졌다. 하둡 같은 대용량 배치 처리 시스템과 스트리밍 처리를 하는 스톰에 데이터를 전달하는 중간자 역할을 할 수 있다. 이 프로젝트는 최근에 나온 빅데이터 관련 프로젝트가 그렇듯 짧은 시간 동안 많이 변화했지만, 카프카만이 가지는 고유한 특징이 있기 때문에 앞으로 계속 발전하는 프로젝트가 될 것이라고 조심스럽게 예측해본다. 다른 모든 시스템이 그렇듯 아파치 카프카 역시 만능은 아니다. 그러나 독특한 성격의 카프카의 장점을 활용해 목적에 맞게 사용한다면, 인프라 문제 해결에 열쇠가 될 수 있을 것이다.

엔터프라이즈 데이터 레이크 구축

데이터를 다루는 일을 하면서 주로 오픈소스 소프트웨어로 데이터 처리 문제를 해결했다. 문제 해결에 도움이 되는 책을 찾다 보면 개별 소프트웨어를 다룬 서적은 많지만 이를 모두 엮어 기업 환경의 문제를 실제로 해결하는 가이드가 되어주는 책은 거의 없어 아쉬웠다. 그러던 차에 이 책을 만나 번역까지 하게 되는 행운을 잡았다. 개별 오픈소스 소프트웨어를 조합해 유기적으로 통합된 엔터프라이즈급의 데이터 아키텍처를 설계하려면 개별 소프트웨어에 대한 깊이 있는 지식과 시행착오, 그리고 고민이 필요하다. 이 책은 빠르게 해답에 도달하도록 충분한 지식 전달과 구체적인 안내를 해줄 것이다.

Hadoop과 Solr를 이용한 기업용 검색 시스템 구축

수년 전에 대용량 검색 요건을 해결하는 솔루션 개발팀에 속하면서 솔라를 처음 접하게 되었다. 이때 솔루션으로 고려한 오픈소스는 루씬 기반의 검색 플랫폼으로 아파치 솔라와 일래스틱서치(ElasticSearch)가 있었다. 두 오픈소스를 면밀히 검토 끝에 당시 요구 조건에 더 부합했던 새로 태어난 지 얼마 안 된 일래스틱서치를 선택했다. 그렇지만 당시에 솔라는 일래스틱서치에 비해 오랜 역사와 많은 사용자를 가지고 예측대로 동작한다는 점과 신뢰성을 지닌 장점이 있어서 엔터프라이즈 환경에 적합한 검색 플랫폼이란 것을 알게 되었다. 일래스틱서치가 나온 이후 솔라와 일래스틱서치는 서로의 장단점을 보완해 가며 많이 발전해왔고, 특히 솔라 4(일명 솔라클라우드)에서 대량의 데이터 처리를 위한 근실시간 분산검색, 고가용성 부분에 많은 향상이 있었다. 이처럼 솔라는 계속 발전 중이고, 앞으로도 다양한 대용량 검색 서비스의 검색 플랫폼으로 솔라를 사용할 것으로 예상된다. 이 책에서는 대용량 검색 엔진의 양대 산맥인 솔라와 일래스틱서치 중 솔라로 대용량 검색 시스템을 구축하는 방법을 알려준다. 또한, 하둡을 이용해 사용 영역을 넓히고 최적화하는 방법을 알려준다. 검색 플랫폼만을 프로젝트에 적용하다 보면 대량의 데이터를 단시간 안에 서비스에 올려야 하는 일에 직면하게 되는데, 이를 하둡으로 해결하는 방식은 주목할 만하다. 이 책이 솔라와 하둡을 연동해 응용하는 일을 주로 다루고 있으므로, 솔라 자체를 더 자세히 알고 싶다면 에이콘출판사에서 출간된 『아파치 Solr 4 구축과 관리』를 참고하길 바란다. 마지막으로 오픈소스로 대용량 검색을 처리하기 위해 같이 씨름했던 실시간 검색팀 여러분과, 번역을 하느라 약속에 많이 불참한 것을 이해해준 친구들, 말없이 지원해 주신 부모님께 감사의 말씀을 전한다.

Splunk 실시간 운영 인텔리전스

최근 빅데이터 분야가 주목을 끌며 데이터의 가치에 대한 관심이 높아지면서 큰 수혜를 입은 회사 중 하나가 스플렁크다. 빅데이터 분석 방식을 사용하려면, 실제 가지고 있는 데이터양에 상관없이 인프라를 구성하고 관리하는 데 기본적으로 일정 수준 이상의 지식이 요구되고 데이터 사용자가 데이터로 가치를 얻어내기 위해 새롭게 배워야 할 부분이 많다. 그러나 빅데이터 방법론을 반드시 사용해야 할 정도로 실제 이용하는 데이터의 양이 큰 경우는 생각보다 많지 않다. 스플렁크는 일반 데스크톱 프로그램과 유사한 방식으로 설치한다. 데이터를 입력해 실제로 데이터를 이용하는 경험을 손쉽게 얻을 수 있고, 마찬가지로 실제 기업용 환경에 구축해 사용해보기도 쉽다. 또한 커뮤니티 기반의 플러그인과 자체 제공 플러그인을 활용해 사용 영역을 쉽게 확장할 수 있으며 하둡이나 다른 NoSQL 또는 기존 레거시와 쉽게 연동할 수 있다. 스플렁크는 효과적인 UI와 파이프 기반의 직관적 언어, 잘 짜인 작업 흐름을 가지고 있어 사용하기 쉽다. 심지어 사용자가 몇 번의 클릭만으로 데이터에서 리포트를 만들어낼 수 있다. 특히 이처럼 사용 장벽이 낮기 때문에 데이터 사용자가 데이터 이용법을 배우는 것에 노력을 낭비하는 대신, 데이터에서 가치를 끌어내는 데 더욱 집중하게 해준다는 것이 가장 큰 장점이다. 실시간 운영 데이터 분석을 통해 가치를 끌어내려는 조직이라면 스플렁크 사용을 반드시 고려해봐야 할 것이다.

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자