어휘론 - 연구의 범위
@ 단어와 어휘, 어휘 항목의 차이는?
단어는 개별 단어, 어휘는 공통된 특성을 가진 단어들의 무리, 어휘 항목은 두 단어인데도 의미가 있어서 사전에 꼭 들어가야 하는 것을 말한다. (~을 수 있다, ~인 모양이다 이런 것들, 낫 놓고 기억 자도 모른다 같은 문장들도 어휘 항목일 수 있다.)
#단어: 9품사 체계에서 분류되는 개별 어휘항목을 말한다. 하지만 분류 기준에 대한 논란이 있고 합성어인지 아닌지도 애매한 경우가 있어서, 이상적으로 정의하는 것은 어렵다.
#어휘 항목(lexical item): 단어만 가지고 설명하기에는 좀 부족한 말들. Ex) 욕을 먹다, 시집을 가다 등. 사전에는 관용어도 실리니까, 어휘 항목이라는 용어는 사전학자들이 사전에 싣고자 하는, 의사소통에 필요한 모든 단위들을 말하는 것이다. 관용적으로 많이 쓰이는 말들까지 모두 포함.
말뭉치 언어학, 사전학 등의 분야에서 , 단어만 가지고는 도저히 인간의 의사소통 맥락을 완전히 설명할 수 없기 때문이다. 한국어에서의 부정문은 의지부정(아니하다)와 능력부정(못하다, -을수 없-)으로 나뉜다. 근데 이중에서도 못하다와 -을 수 없다 간의 의미 차이가 있는데. 사전에 등재된 못하다보다, 사전에 등재 안 된 -을 수 없다가 더 많이 쓰이는 경우도 있다. 사전학자들이 말하는 이상적인 사전은 모국어 화자들이 일상적으로 많이 쓰는 단위를 모두 올린 사전이다. 근데 어디까지가 그 기본단위인지는 알 수가 없다. 그럼에도 불구하고 어휘론이 지향해야 하는 것은 형식적인 단위(띄어쓰기 등)이 아닌 의미적 단위를 중시하는 것이다.
#어휘: 공통된 특성을 가진 단어들의 집합. Ex) 초등학생용 어휘, 군사 어휘, 한국어 교육용 어휘 등
# 어휘부(lexicon): 좁은 의미로는, 우리 머릿속에 있는 사전을 말한다. 광의로는 머릿속+눈으로 볼 수 있는 사전 전체를 이야기한다. (mental-lexicon + Dictionary)
심리학이나 전산언어학에서는 어휘부를 어휘 저장소로 파악함. nlp에서 활용하기 위해서 꺼내 쓸 수 있어야 하기 때문이다. Dictionary에서는 진짜 책사전이나 기계가독형 사전 두가지가 있을 수 있고. Lexicon은 눈으로 볼 수 없는 것인데 기계가독가능한 렉시콘이 있고, 머리 속에만 있는 렉시콘이 있는 것이다.
그래서 어휘론의 연구 범위는 어휘와 어휘부이다.
#레마(lemma) : 기본형.
#타입(type): 유형
#토큰(token): 항목 (==띄어쓰기로 구분되는 어절의 개수). 컴퓨터는 한국어의 단어보다 어절을 이해하기가 쉽다. 300페이지짜리 책 한권은 보통 5만 어절이다.
밥 먹으면서 자식 이야기도 하고, 밥 먹으면서 세상 이야기도 한다.
(어절 단위에서, 토큰: 10개, 타입: 7개—'밥, 먹으면서, 이야기도’가 중복되니까)
밥/ 먹/으면서/ 자식/ 이야기/도/ 하/고/, 밥/ 먹/으면서/ 세상/ 이야기/도/ 하/ㄴ다.
(형태소 단위에서, 토큰: 16개, 타입: 10개 ㅡ’밥2, 먹2, 으면서2, 이야기2, 도2, 하2’가 중복되니까)
사전에는 토큰이 아니라 타입을 올린다. 가다 올리고, 고 올리고, ㄴ 다 올리고. 뭐 그런 건데 이 중에 기본형인 ‘가다’를 레마라고 한다. 레마와 타입은 동일한 것을 지칭하지만 타입은 말뭉치에서, 레마는 사전학에서 쓰는 용어일 뿐이다.