말뭉치

언어·문자
개념
언어 연구를 위하여 컴퓨터가 텍스트를 가공 · 처리 · 분석할 수 있는 형태로 모아 놓은 자료의 집합. 말모둠 · 글모둠.
이칭
이칭
말모둠, 글모둠
정의
언어 연구를 위하여 컴퓨터가 텍스트를 가공 · 처리 · 분석할 수 있는 형태로 모아 놓은 자료의 집합. 말모둠 · 글모둠.
개설

컴퓨터로 가공, 처리하고 분석할 수 있도록 저장된 언어의 자료이다. 작게는 시집 한 권이나 소설 한 권으로부터 수천만 어절 이상의 말 또는 글로 표현된 각종 자료에 이르기까지, 다양한 크기의 자료 모음을 모두 말뭉치라 할 수 있다. 그 내용도 연구의 목적에 따라 다양하게 구성될 수 있다. 그러므로 말뭉치라는 용어는 연구의 목적이나 성격에 따라 다양한 대상을 지시할 수 있는 포괄적인 개념을 가지고 있다. 언어 연구에서는 말뭉치의 개념을 더 좁게 보아, '일정 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체'를 가리키는 개념으로 사용하는 것이 일반적이다.

연원 및 변천

말뭉치의 개념은 20세기 전반 미국의 구조주의적 언어학에서부터 있었다. 실증적 자료를 중시하던 당시 언어학의 풍토에서 실제 말이나 글로 발화되거나 표현된 언어 자료는 언어 연구의 전제 조건이었고, 실제 사용된 언어 자료를 그대로 모아 놓은 말뭉치는 언어 연구의 기초로 여겨졌다. 1963년부터 2년 간에 걸쳐 100만 어절로 구축된 브라운 말뭉치(Brown Corpus)를 시초로 하여 컴퓨터를 이용한 구축이 본격화되었으며 1990년대에는 1억 어절 이상의 영국 국가 말뭉치(BNC: British National Corpus)가 구축되었다.

한국에서는 1988년부터 구축되어 온 연세대학교의 연세 한국어 말뭉치를 비롯하여 한국과학기술원, 고려대학교, 국립국어원 등에서 본격적으로 말뭉치를 구축해 오고 있으며 1998년부터 21세기 세종 계획(국어정보화 추진 중장기 사업)의 일환으로 본격적인 국가 말뭉치가 구축되기 시작하였다.

내용

실제로 사용된 말이나 글을 언어 자료로 모아 만든 대량의 데이터베이스로서의 말뭉치는 모든 연구와 교육의 자료로 사용된다.

말뭉치가 의미를 지니기 위해서는 몇 가지 요건을 갖추어야 한다.

첫째, 말뭉치를 만들기 위한 텍스트 수집이나 입력 등의 과정에서, 원래의 내용이나 형태가 지속되어야 한다.

둘째, 말뭉치는 단순히 여러 개의 텍스트를 무작위로 뽑아 나열해 놓은 것이 아니므로 대상 분야의 언어 사용의 집약판이 되어야 한다.

셋째, 말뭉치는 해당 분야 언어의 특성 및 연구의 목표 등에 따라 매우 다양할 수 있는데, 그 크기를 결정함에 있어서 말뭉치의 범위가 언어 현실을 고루 보여줄 수 있을 정도로 지속적으로 확대되어야 한다는 사실이다. 이는 말뭉치 구축과 활용을 위해서 중요한 지점이 될 수 있다.

원시말뭉치는 몇 가지 기준에 따라 유형화할 수 있다. 특별한 목적이나 용도를 정하지 않고 어휘, 문법, 담화 구조 등의 일반적인 언어 조사를 위해 텍스트들을 모은 말뭉치를 일반 말뭉치(general corpus)라 한다.

원시말뭉치를 토대로 문어와 구어, 여러 다양한 장르의 텍스트들이 균형을 이루도록 구성된 말뭉치를 균형 말뭉치(balanced corpus)라고 한다. 균형 말뭉치는 언어의 역사와 사회 상황을 조사, 연구하는 데 기여한다.

원시말뭉치를 통시적 말뭉치(diachronic corpus) 또는 역사 말뭉치(historical corpus)와 공시적 말뭉치로 나누기도 한다. 공시적 말뭉치는 그 시기의 언어를 대상으로 한 연구나 자료의 바탕이 되며, 통시적 말뭉치는 통시적 언어 연구에 주로 이용된다.

주석 말뭉치와 분석 말뭉치는 신뢰성 있는 각종 정보를 얻어 내기 쉬운 형태로 가공된 것이라 할 수 있으며 반드시 원시 말뭉치를 토대로 만들어진다.

말뭉치는 언어를 대표하는 방식에 따라, 통계적 모집단 전체를 구성하고 있는 말뭉치와 전체 모집단의 대표적인 샘플들로 구성된 말뭉치로 구분할 수 있다. 전자는 한 작가의 전 작품이나 일정 기간 발행된 신문 모두를 모아 구성하는 경우로, 문체적 연구나 시대적 유행어 연구에 적합하다. 또한 그 규모를 고정하느냐 점점 확장해 가느냐에 따라 정적 말뭉치(static corpus)와 동적 말뭉치(dynamic corpus)로 구분할 수 있다. 동적 말뭉치는 한정된 말뭉치로 제공되지 않는 텍스트의 시대성, 보다 폭넓은 언어 현상을 담아낼 수 있다는 장점이 있다.

참고문헌

『국어정보학 입문』(서상규ㆍ한영균, 태학사, 1999)
집필자
이래호
    • 본 항목의 내용은 관계 분야 전문가의 추천을 거쳐 선정된 집필자의 학술적 견해로, 한국학중앙연구원의 공식 입장과 다를 수 있습니다.

    • 한국민족문화대백과사전은 공공저작물로서 공공누리 제도에 따라 이용 가능합니다. 백과사전 내용 중 글을 인용하고자 할 때는 '[출처: 항목명 - 한국민족문화대백과사전]'과 같이 출처 표기를 하여야 합니다.

    • 단, 미디어 자료는 자유 이용 가능한 자료에 개별적으로 공공누리 표시를 부착하고 있으므로, 이를 확인하신 후 이용하시기 바랍니다.
    미디어ID
    저작권
    촬영지
    주제어
    사진크기