최근 들어 구체적으로 미리 정의된 데이터 모델을 가지고 있지 않은 비정형데이터, 그 중에서도 특히 웹(페이지) 상에서 텍스트 데이터를 그대로 가져와서 데이터를 추출하는 크롤링에 대한 관심이 점차 증가하고 있다.
Python, Ruby 등의 프로그래밍 언어를 사용해 크롤링을 하기 위해서는 프로그래밍 언어에 대한 기본적인 지식이 필요하기 때문에 초보자들이 접근하기에는 상당한 어려움이 따른다. 이 책은 초보자들도 쉽게 따라 할 수 있는 R과 JAVA를 활용하여 실습과정을 직접 따라해 보면서 크롤링에 대한 이해와 실전 능력을 향상하도록 집필되었다.
최근작 :<[큰글자책] 생성형 AI 프롬프트 디자인의 이해> ,<생성형 AI 프롬프트 디자인의 이해> ,<[큰글자책] 인공지능 앞에 선 CEO> … 총 68종 (모두보기) 소개 :한국소프트웨어기술인협회 회장이다. 현재 생성형AI연구원 원장, 전자신문 부설 디지털융합연구원 원장으로 활동하고 있다. 한국외대 경영학부를 졸업하고 동 대학원에서 경영정보학 석사와 박사 학위를 받았다. 선문대 경영학과 교수, 제16대 대통령직인수위원회 경제제2분과 자문위원, 국정기획자문위원회 전문위원, 대통령직속 4차산업혁명위원회 위원, 한국생산성본부 회장, APO(Asian Productivity Organization) 이사, 한국디지털정책학회 회장 등으로 활동했다. 대통령 표창장(정부 혁신 기여), 근정포장(정부 업무 발전 기여), 동탑산업훈장(국가 정보 통신 정책 수립 공헌)을 수상했다.
저서로 『인공지능 앞에 선 CEO』(2024), 『생성형 AI 프롬프트 디자인 실무』(2024), 『생성형 AI 프롬프트 디자인의 이해』(2024), 『빅데이터 개론』(2023), 『디지털 비즈니스 디자인』(역, 2022), 『디지털 대전환 시대의 전략경영 혁신』(2022) 등이 있다. “생성형 AI 활용 역량 평가 모델에 관한 연구”, “생성형 AI에 관한 인식 및 집단간 차이 분석” 등 다수의 연구 논문과 보고서가 있다.
최근작 :<R과 Java로 크롤링하자> 소개 :현) 한국환경정책평가연구원 빅데이터연구팀 연구원
충북대학교 대학원 정보보호경영학과 석사
한국직업능력개발원 위촉연구원
R과 Java로 쉽게 배우는 크롤링 입문
최근 빅데이터의 생성과 축적으로 여러 데이터 분석에 의한 성공 사례들이 알려지고 있다. 이러한 경향 아래서 ICT의 급속한 발전, 스마트 기기의 보급과 SNS의 확대로 인해 엄청난 데이터가 폭발적으로 쏟아지고 있는 실정이다. 더구나 앞으로 사물인터넷(IoT:Internet of Things)을 통해 데이터의 생성 속도와 양이 기하급수적으로 늘어날 것으로 보인다.
전통적으로 비즈니스 운영상 발생하는 데이터들은 거래 처리 데이터 및 각종 실적 데이터 등과 같은 정형 데이터이다. 최근에는 다양한 멀티미디어 기반의 데이터 및 소셜기반의 소셜 데이터, 센서와 위치 기반의 사물 인터넷 등의 정형/비정형 데이터도 폭넓게 생성되고 있다. 비정형 데이터란 글자 그대로 정형화되지 않은 데이터로서, 구체적으로 미리 정의된 데이터 모델을 가지고 있지 않은 데이터를 말한다.
최근 들어 이러한 비정형데이터에 대한 관심이 점차 증가하고 있다. 특히 웹(페이지) 상에서 텍스트 데이터를 그대로 가져와서 데이터를 추출하는 크롤링에 대한 관심이 점차 증가하고 있다.
크롤링을 하기 위한 방법으로 Python, Ruby 등의 프로그래밍 언어를 사용하는 방법도 있으나, 이를 위해서는 프로그래밍 언어에 대한 기본적인 지식이 필요하기 때문에 초보자들이 접근하기에는 상당한 어려움이 따른다. 따라서 이 책은 초보자들도 쉽게 따라 할 수 있는 R과 JAVA를 활용하여 실습과정을 직접 따라해 보면서 크롤링에 대한 이해와 실전 능력을 향상하도록 집필하였다.
이 책의 구성
1부에서는 비정형 데이터에 대해 소개하고 R, Rstudio, JDK 설치방법을 학습한다. 1장에서는 비정형 데이터 분석과 텍스트 마이닝에 대한 기본적인 이해와, 어떠한 기법들이 있는지 살펴본다. 2장에서는 크롤링 학습에 대한 사전 준비로 R과, R스튜디오, JAVA의 설치에 대해 학습한다.
2부에서는 JAVA를 활용하여 크롤링하기에 대해 순차적으로 따라해 보면서 실습을 진행한다. 3장에서는 이클립스와 Jsoup의 설치 방법에 대해 학습한다. 4장에서는 네이버 뉴스를 크롤링하는 방법과 함께 Fiddler 설치 방법에 대해 학습한다. 5장에서는 네이버 블로그를 크롤링하는 방법에 대해 학습한다.
3부에서는 R을 활용하여 크롤링하기에 대해 학습한다. 6에서 8장은 다음 영화의 네티즌 리뷰, 네이버 영화 네티즌 리뷰, 트위터를 크롤링하는 방법에 대해 각각 학습한다. 9장은 JAVA가 아닌 R로 네이버 뉴스를 크롤링하는 방법을 학습한다.
4부에서는 데이터 분석 및 시각화에 대해 학습하게 된다. 10장에서는 수집된 데이터를 정제하고 분석하는 방법을 학습하며, 11장에서는 R 패키지를 활용하여 텍스트 마이닝을 실습해 본다.