컴퓨터가 인간의 언어를 지능적으로 처리하는 자연어 처리는 인공지능, 컴퓨터 과학, 인지 과학, 정보 처리 및 언어학과 다양하게 결합되는 중요한 학제 간 영역이다. 음성인식, 대화 시스템, 정보 검색, 질의응답, 기계번역 등 컴퓨터와 인간 언어의 상호작용을 통해 생성된 자연어 처리 애플리케이션은 사람들이 정보를 얻고 사용하는 생활 방식을 바꿔놓기 시작했다.
자연어 처리의 발전은 이성주의, 실증주의, 딥러닝 등 세 가지 주요 물결로 설명된다. 첫 번째 물결인 이성주의 접근법은 언어에 대한 지식을 물려받아 그 지식과 규칙이 사전에 고정돼 있다는 가정하에 자연어 처리 시스템에 지식을 통합하기 위해 사람 손으로 만든 규칙 설계를 옹호했다. 두 번째 물결인 실증주의 접근법은 자연어의 상세한 구조를 학습하는 데 감각기관에서 나온 풍부한 투입값과 관찰 가능한 언어 데이터가 필요충분조건임을 가정한다. 결과적으로 대규모 말뭉치에서 언어의 규칙성을 발견할 수 있는 확률 모델이 개발된다. 세 번째 물결에서는 딥러닝이 인간 인지능력을 시뮬레이션하는 방식으로 언어 데이터에서 내재적 표상(representation)을 학습하기 위해 생물학적 신경계에서 영감을 받은 비선형 계층모델을 활용한다.
딥러닝과 자연어 처리의 교차는 업무에 놀라운 성공을 가져왔다. 음성인식은 딥러닝이 큰 영향을 미친 최초의 산업용 자연어 처리 애플리케이션이다. 대규모 학습 데이터를 사용할 수 있게 되면서 심층신경망(Deep Neural Network) 방식은 전통적 실증 방식에 비해 인식 오류를 현저히 낮췄다. 자연어 처리에서 딥러닝을 성공적으로 적용한 또 다른 방법은 기계번역이다. 신경망을 사용해 언어 간 매핑을 모델링하는 엔드 투 엔드(end-to-end) 신경망 기계번역은 번역 품질을 크게 향상시켰다. 신경망 기계번역은 구글, 마이크로소프트, 페이스북, 바이두 등 대형 기술 회사가 제공하는 주요 상용 온라인 번역 서비스에서 사실상의 표준 기술이 됐다. 딥러닝을 활용하는 자연어 처리 제3의 물결에 올라타 언어 이해와 대화, 어휘 분석 및 구문 분석, 지식 그래프, 정보검색, 텍스트 형식의 질의 답변, 소셜 컴퓨팅, 언어 생성 및 텍스트 감정 분석 등 많은 분야에서 큰 진전을 이루고 있다. 현시점에서 딥러닝은 사실상 모든 자연어 처리 작업에 적용되는 지배적 방법이다.