전산언어학 ()

정의
개설
연원 및 변천
내용
현황
참고문헌

관련 정보

관련 항목

문자

개념

컴퓨터가 인간의 언어를 처리는 데에서 나타나는 언어학적 문제를 연구하는 학문. 계산기언어학.

이칭

이칭: 계산기언어학

• 본 항목의 내용은 해당 분야 전문가의 추천을 통해 선정된 집필자의 학술적 견해로 한국학중앙연구원의 공식입장과 다를 수 있습니다.

내용 요약

전산언어학은 컴퓨터가 인간의 언어를 처리하는 데에서 나타나는 언어학적 문제를 연구하는 학문이다. 연구방법론에 따라 통계에 기반한 접근과 규칙에 기반한 접근으로 나뉜다. 전달 매체에 따라 음성언어의 처리 연구와 문자언어의 처리 연구로 구분된다. 연구 목적에 따라 언어의 분석을 위한 연구와 언어의 생성을 위한 연구로 나뉜다. 전산언어학의 하위 영역에는 문법 연구와 문장의 의미 이해 연구가 있다. 한국에서의 전산언어학은 1980년대 후반 본격화되었다. 1990년대 대규모의 한국어 전산 처리와 정보화 사업이 진행되었다. 21세기부터 검색을 통한 정보와 사전 활용이 일반화되었다.

키워드

정의
개설
연원 및 변천
내용
현황
참고문헌

정의

컴퓨터가 인간의 언어를 처리는 데에서 나타나는 언어학적 문제를 연구하는 학문. 계산기언어학.

개설

전산언어학은 컴퓨터를 이용하여 언어를 자동 분석하며, 언어 자료를 자동 처리하는 데에서 나타나는 언어학적 문제를 연구하는 학문이다. 음성 인식, 음성 합성, 기계 번역, 정보 검색, 자동 대화 시스템 구축 등 자연 언어의 전산적 처리와 관련된 여러 과제들을 다룬다.

전산언어학의 연구 방법론은 크게 통계에 기반한 접근과 규칙에 기반한 접근 두 가지 유형으로 나뉜다. 전자는 실제 사용된 언어 자료에 기반을 둔 접근 방식으로 전자화된 ^주1의 분석을 통해 얻어진 언어 단위의 분포와 빈도에 관한 정보를 이용하는 것이고, 후자는 이론언어학적인 연구를 통해 얻어진 형식화된 문법을 이용하는 방법이다.

연원 및 변천

전산언어학은 1950년대에 미국에서 시도되었던 컴퓨터를 이용한 자동 번역을 위한 연구에 그 연원을 둔다. 컴퓨터가 기본적으로 사람보다 정확하고 빠르게 수학적 계산을 할 수 있기 때문에, 언어 처리에 있어서도 그와 같은 능력을 발휘할 수 있을 것으로 기대하였던 것이다.

그러나 당대의 기계에 의한 자동 번역을 위한 시도는 실패로 돌아갈 수밖에 없었다. 그 시대 컴퓨터의 성능으로는 자연 언어의 처리라고 하는 복잡한 과제를 감당할 수 없었기 때문이다.

컴퓨터에 의한 언어 처리에 대한 학문적 관심은 한때 암흑기를 맞았으나, ^주2과 위노그라드(Winograd)의 연구를 통해 부활하였다. 튜링은 기계도 추론이 가능하다는 사실을 증명하였고, 위노그라드는 컴퓨터가 인간 언어를 이해할 수 있음을 증명하였다.

이후 언어 처리를 위한 ^주3 및 소프트웨어의 개발에는 언어 모델링이 필요하다는 점을 인식하게 되었고 이를 통해 전산언어학이라는 학문 영역이 성립하게 된 것이다.

1980년 후반 코퍼스언어학의 대두와 함께 전산언어학은 또 한 번의 전기를 맞게 된다. 그 이전까지는 주로 이론에 치중했던 데에 비해서 대규모의 전산화된 텍스트를 활용할 수 있게 되면서 통계와 확률에 바탕을 둔 언어 처리의 가능성을 확인하게 되었다.

다른 한편으로는 언어 처리에 있어서의 어휘부(사전)의 중요성이 강조되면서 인간을 위한 사전을 바탕으로 한 어휘 데이터베이스 개발에 대한 중요한 전기를 마련하였다.

내용

전산언어학은 연구 대상이 되는 언어 전달 매체에 따라서는 음성언어의 처리를 위한 연구와 문자언어의 처리를 위한 연구 두 분야로 구분할 수 있고, 연구의 최종 목적에 따라서 언어의 분석을 위한 연구(인식)와 언어의 생성(합성)을 위한 연구로 구분할 수 있다.

음성 인식이나 음성 합성은 컴퓨터에서 인간의 음성언어를 처리하기 위한 연구이며, 문자 인식, 형태소 분석, 구문 분석 등은 문자언어를 처리하기 위한 연구이다. 물론 이러한 분석을 위한 연구와 함께 단어 단위 혹은 문장 단위로 언어를 생성하기 위한 연구도 있다.

이러한 순수 학문적 연구와는 별도로 이론적 연구 결과를 실제 응용하기 위한 연구 분야도 존재하는데, 이는 공학적인 접근이 주를 이룬다. 기계 번역 및 정보 검색이 그 대표적인 분야이며, 최근에는 텍스트의 내용을 이해하여 요약하고 분류하기 위한 연구(문서 요약)도 중요한 연구 분야의 하나를 이루고 있다.

또한, 전산언어학의 하위 영역으로는 단어 구성을 전산적으로 처리하기 위한 전산형태론과 구문 구조의 분석을 위한 전산통사론 등 문법에 관한 연구와, 문장 의미를 이해하기 위한 전산의미론과 전산어휘론 등의 연구가 있다.

특히 최근에 들어서는 어휘로 표상되는 지식의 처리를 위한 기초적 연구가 활성화되고 있는데, 워드넷(Wordnet)과 ^주4로 대표되는 어휘 의미망 구축이 그것이다. 이는 언어에 대한 이해가 단순히 언어 자체에 대한 연구만으로 완성되는 것이 아니라 언어 기호로 표상되는 지식에 관한 이해를 필요로 한다는 관점에서 출발한 것이다.

현황

한국에서의 전산언어학은 1980년대 후반에 본격화되었다. 처음에는 공학적 측면에서 연구가 주로 이루어진바, 영어의 경우와 유사하게 외국어와 한국어 사이의 기계 번역을 위한 연구에서 출발하였다.

1990년대 전반에는 컴퓨터 통신의 발달과 함께 이른바 ‘정보 검색’을 위한 연구가 활발하게 진행되었다. 이 분야는 1990년대 후반에 들어서 월드 와이드 웹(WWW)이 개발되고 널리 사용되게 됨에 따라 이른바 검색 포털 서비스에서 중요한 기능의 하나로 활용되고 있다.

1990년대 중반부터 2000년대 초반에 걸쳐서는 한국어의 전산적 처리 및 정보화를 위한 대규모 사업이 진행되었다. 문화관광부 및 국립국어원의 지원을 통해 이루어진 '21세기 세종계획'과 산업자원부의 지원으로 이루어진 'STEP 2000'이 그것이다.

전자는 주로 한국어 자료의 전산화를 통한 기초 자료의 구축을 목적으로 한 것이었다. 이를 통해서 약 1억 7천만 어절 규모의 코퍼스가 구축되었고, 한민족 언어정보화, 전자사전 개발, 전문용어 처리 등을 통해서 국어학적 연구와 전산학적 연구의 통합적 접근을 통한 한국어 처리 능력의 향상에 기여하였다.

후자도 음성 데이터베이스를 비롯한 기초 자료를 구축하기도 하였으나 음성 및 문자 인식, 기계번역 등을 위한 전산 처리 시스템의 개발이 병행되었다.

21세기에 들어서는 컴퓨터 사용이 보편화되고 유무선 네트워크가 급속히 보급되면서 한글 검색 포털을 통한 각종 정보와 사전 활용이 일반화되었다. 이러한 사회적 변화는 컴퓨터에 의한 한국어 처리 기술의 개발에 대한 연구의 필요성이 점점 더 강조되고 있으며, 이에 따라 공학적 접근이 중심이었던 전산 언어학적 연구도 인문학적 접근을 위한 노력이 이루어지고 있다.

참고문헌

｢언어학｣(장석진 외,『한국의 학술 연구-인문사회과학 편-』, 대한민국학술원, 2007)

｢언어 수행평가 분야의 전산언어학 기술 활용｣(최인철,『멀티미디어 언어교육』2-2, 1999)

주석

주1: 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료. 매체, 시간, 공간, 주석 단계 등의 기준에 따라 다양한 종류가 있다. 우리말샘

주2: 앨런 매시선 튜링, 영국의 수학자ㆍ논리학자(1912~1954). ‘튜링 머신’을 고안하여 오늘날 쓰고 있는 계산기의 수학적 모델을 제공하였다. 우리말샘

주3: 어떤 문제의 해결을 위하여, 입력된 자료를 토대로 하여 원하는 출력을 유도하여 내는 규칙의 집합. 여러 단계의 유한 집합으로 구성되는데, 각 단계는 하나 또는 그 이상의 연산을 필요로 한다. 우리말샘

주4: 언어로 표현된 개념 간 연관 관계 지식이 드러나는 망. 우리말샘

전산언어학 (電算言語學)

전산언어학 ()