알라딘

헤더배너
상품평점 help

분류

이름:앨리스 젱 (Alice Zheng)

최근작
2018년 12월 <피처 엔지니어링, 제대로 시작하기>

앨리스 젱(Alice Zheng)

머신 러닝, 알고리즘, 플랫폼 개발 분야의 테크니컬 리더다. 현재 아마존 애드버타이징(Amazon Advertising) 사의 리서치 사이언스 매니저로 근무하고 있다. 그전에는 GraphLab/Dato/Turi에서 툴킷 개발 및 사용자 교육을 담당했고, 마이크로소프트 리서치(Microsoft Research) 사에서 머신 러닝 연구원으로 일했다. UC 버클리(Berkeley)에서 전기공학 및 컴퓨터과학으로 박사(PhD) 학위를, 컴퓨터과학 및 수학으로 학사(BA) 학위를 받았다.  

대표작
모두보기
저자의 말

<피처 엔지니어링, 제대로 시작하기> - 2018년 12월  더보기

머신 러닝은 데이터로부터 통찰력을 이끌어내거나 예측하기 위해 데이터에 수학적인 모델을 적용한다. 이 모델은 피처(feature)를 입력으로 사용한다. 피처는 원시 데이터의 숫자적인 표현이다. 피처는 머신 러닝 파이프라인에서 데이터와 모델 사이에 위치한다. 피처 엔지니어링(feature engineering)은 원시 데이터로부터 피처를 추출하고 이를 머신 러닝 모델에 적합한 형식으로 변환하는 작업이다. 적절한 피처는 모델링의 난이도를 낮춰주고, 결과적으로 파이프라인이 높은 품질의 결과를 산출할 수 있게 해주기 때문에 피처 엔지니어링은 머신 러닝 파이프 라인에서 매우 중요한 단계다. 머신 러닝 파이프라인을 구축할 때, 실무자들도 피처 엔지니어링과 데이터 정제에 가장 많은 시간이 든다는 데 동의한다. 하지만 그 중요성에도 불구하고 이와 관련된 주제는 거의 논의되지 않고 있다. 아마도 적합한 피처는 모델과 데이터의 컨텍스트 내에서만 정의될 수 있고, 데이터와 모델은 매우 다양하기 때문에 피처 엔지니어링 방법을 일반화하기가 어렵기 때문일 것이다. 그렇다고 해도, 피처 엔지니어링은 단순히 그때그때 상황에 따라 대처할 만한 것이 아니다. 피처 엔지니어링 작업에도 깊은 원리가 있으며, 그것은 실무 현장에서 가장 잘 설명된다. 이 책은 각 장마다 텍스트나 이미지 데이터를 표현하는 방법, 자동 생성된 피처들의 차원을 줄이는 방법, 언제 어떻게 정규화시켜야 하는지 등의 데이터 문제를 하나씩 다룬다. 이 책을 하나의 긴 소설이 아니라, 서로 연결된 짧은 이야기들의 모음으로 생각하길 바란다. 각 장은 다양한 피처 엔지니어링 기법을 소개하면서 그와 함께 매우 중요한 원리도 설명한다. 한 주제를 마스터하는 것은 단순히 그 정의를 알고 공식을 도출할 수 있다는 것에 그치지 않는다. 동작하는 메커니즘과 그것을 통해 무엇을 할 수 있는지를 아는 것만으로는 충분하지 않다. 왜 그런 방식으로 설계됐으며, 다른 기법들과 어떻게 연관되고, 또한 각 접근법의 장단점이 무엇인지 이해해야 한다. 무엇이 어떻게 수행됐는지 정확하게 알고, 기본 원리에 대한 직관력이 있으며, 그것을 기존에 갖고 있던 지식에 통합해야 완전히 숙련됐다고 할 수 있다. 좋은 책은 새로운 문을 열어줄 수 있지만 단순히 책을 읽는다고 해서 무언가를 마스터할 수 있는 것은 아니다. 이는 아이디어를 활용하는 반복적인 연습을 통해서만 가능하다. 반복할 때마다 더 좋은 아이디어를 갖게 될 것이고 그것을 적용하는 데 점점 더 능숙하고 창의적이 될 것이다. 이 책의 목적은 이런 아이디어를 실무에 응용하도록 돕는 것이다. 이 책은 논리적인 근거를 먼저 설명하고 그다음 수학적인 이론을 다룬다. 단지 '어떻게' 하는지에 대해서만 이야기하지 않고 '왜' 그렇게 되는지 설명하려고 노력했다. 이 책의 목적은 아이디어를 넘어서는 직관을 제공해 독자가 아이디어들을 언제 어떻게 적용해야 하는지 이해할 수 있도록 하는 것이다. 사람들마다 학습하는 방식이 다르므로 많은 설명과 그림을 넣었다. 제시된 수식들은 직관의 정확성을 높이기 위한 것이며 이 책의 다른 부분들과 연결된다.

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자