Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
Human and Language Technology (SIGHLT)
- Annual
- /
- 2005-3053(pISSN)
Domain
- Information/Communication > Information Processing Theory
1996.10a
-
본 연구의 목표는 자연스러운 대화를 분석할 때 부딪히게 되는 언어학적, 전산학적 문제점들을 살펴보는데 있다. 본 연구는 실제 상황에서 수집 전사한 호텔예약대화를 기반으로 하고 있다. 그러한 구체적인 자료를 중심으로 대화연구의 어려움과 연구 방향 등을 논의한다.
-
복합명사는 한국어에서 가장 빈번하게 나타나는 색인어의 한 형태로서, 영어권 중심의 정보검색 모델로는 다루기가 어려운 언어 현상의 하나이다. 복합명사는 2개 이상의 단일어들의 조합으로 이루어져 있고, 그 형태 또한 여러 가지로 나타나기 때문에 색인과 검색의 큰 문제로 여겨져 왔다. 본 논문에서는 복합명사의 어휘적 정보를 단위명사들의 통계적 행태(statistical behavior)에 기반 하여 자동 획득하고, 이러한 어휘적 정보를 검색에 적용하는 모텔을 제시하고자 한다. 본 방법은 색인시의 복합명사 인식의 어려움과 검색시의 형태의 다양성을 극복하는 모델로서 한국어를 포함한 동양권의 언어적 특징을 고려한 모델이다.
-
정보 검색 기술은 적용 분야, 질의어, 데이터가 달라질 경우, 결과 또한 달라질 수 있음을 최근의 연구 결과로부터 알 수 있다. 사용되는 언어에 따라서도 고유한 문제가 제기될 수 있는데, 특히 한국어의 경우 복합명사는 명사끼리의 조합이 자유롭고 길이에 제한이 없기 때문에 이를 단위 명사로 분할하는 작업이 어렵다. 또한 영어와는 달리 복합명사가 문서 내에서 많은 부분을 차지하며 문서의 내용을 대표하는 경우가 많이 있기 때문에, 정보 검색 기술을 한국어에 적용하기 위해서는 수정, 보완하는 노력이 필요하다. 본 연구에서는 어휘에 관한 사전 및 코퍼스 정보를 트라이(trie)에 저장한 후 어휘들간의 공통 부분에 더미 노드(dummy node)를 삽입하여 복합명사를 단위 명사로 분할하는 기법을 제시하였다.
-
한글을 대상으로 하는 검색 시스템의 강우 문서의 대부분을 차지하는 복합명사는 원칙적으로 단어와 단어 사이를 띄어 써야 하지만 붙여쓰기 또한 허용하므로 정보 검색 시스템에서는 이를 고려하여야 한다. 본 논문에서는 MIDAS/IR 정보검색 시스템에서 통계적인 정보를 이용하여 복합명사를 처리하는 방법을 구현하고 이를 실험을 통하여 평가하고자 한다. MIDAS/IR은 크게 복합명사의 통계적인 정보를 이용하는 색인 부분과 확장 불리한 모델 및 벡터 공간 모델을 제공하는 검색 부분으로 이루어져 있다. 색인기에서는 복합명사를 처리할 뿐 아니라 고유명사와 같이 사전에 등록되지 않은 명사를 처리하는 작업을 하게 되며 검색 부분은 클래스 라이브러리로 구현되어 있어 임의의 검색 모델도 쉽게 추가 될 수 있도록 설계하였다. 본 연구에서는 KTSET을 이용하여 불리한 모델 및 벡타 공간 모델에서의 성능을 실험을 통하여 평가하였으며, n-그램을 사용한 시스템과 비교 분석하였다.
-
정보검색에서의 효율적인 복합명사의 분석은 정확도와 재현율의 향상을 통해 색인의 질을 높여준다. 복합명사의 분석은 많은 노력이 요구되는 작업이다. 본 논문은 간단한 분해규칙을 이용하여 복합명사의 의미해석을 대신하였다. 실험을 위해 동아일보 사설을 대상으로 복합명사를 추출하고 이를 도출된 분해규칙을 이용하여 분해하였다. 실험을 통해 평균 96.2%의 분해 성공률을 보였다.
-
한자(漢子)로 기술된 용어를 한글로 자동변환하여 색인어로 사용하는 경우에 한글의 음운체계나 해당 시스템의 색인정책에 맞지 않는 일이 생기게 된다. 이런 문제가 생기는 원인은 해당 한자에 대응하는 정확한 한글을 입력하지 않고 변환하였을 경우, 해당 한자의 음이 없거나 한자와의 음운체계가 달라 생기는 경우 및 별도의 색인정책이 있는 경우 등을 생각할 수 있다. 본고에서는 KS C 5601 표준코드(이하 표준코드라 한다)를 기준으로 한자(漢子)의 다음자(多音子)를 조사하였다. 다음자(多音子)가 포함되어 있는 사전용어와 다음자(多音子)파일을 이용하여 매핑파일을 구축함과 동시에 매핑파일을 보완함으로써 한자(漢子)로 기술된 용어의 바른 한글음을 자동생성하여 색인어로 사용할 수 있는 방안에 대하여 논한다.
-
빠르고 다양하게 늘어나는 정보 더미 속에서 사용자가 원하는 정보를 쉽고 정확하게 찾아주는 방법이 바로 정보 검색이다. 최근에는 인터넷을 이용하여 세계 각처에 흩어져 있는 데이터를 찾거나 웹 홈 폐이지를 찾아 주는 인터넷 정보 검색 프로그램들이 각광을 받고 있다. 본 논문에서는 현재 국내외에서 상용되고 있는 인터넷 정보검색 시스템의 검색 방법에 따른 특성을 살펴보고 국내에서 개발된 한국어 정보검색 시스템과 외국에서 개발된 정보검색 시스템과의 기능을 비교함으로써, 한국어 정보검색 시스템의 처리 항목을 제시한다.
-
Lee, Jun-Young;Kang, Sang-Bae;Yang, Jang-Mo;Park, Seung;Park, Hyun-Joo;Kim, Min-Jung;Kwon, Hyuk-Chul 63
이 논문에서는 대량의 신문기사나 일반 텍스트 문서를 효율적으로 저장 및 검색 할 수 있는 정보검색 시스템을 구현한다. 이 시스템은 문서의 주제, 저자, 날짜, 출판사 또는 사용자 정의에 의한 속성과 본문에 대한 색인어와 색인관련정보를 생성한다. 모든 색인어는 최대 64가지의 속성정보와 문서별 단어빈도(tf)를 가질 수 있다. 색인은 형태소 분석을 이용하는 방법과 N-gram을 이용하는 방법이 동시에 사용되며, 색인어는 가중치를 가진다. 이 논문에서 구현한 시스템을 이용하여 7개월치 신문자료를 색인한 결과, 생성된 데이터베이스의 크기는 원래 문서의 약 22%이며 문서의 개수가 증가함에 따라 점점 그 비율은 감소한다. -
본 논문에서는 고유 명사 출현 패턴 정보와 부가 정보를 이용한 미등록 고유 명사의 색인 방법을 제안한다. 정보 검색 시스템에서 고유 명사의 처리는 정확하고 의미 있는 색인을 위해 매우 중요하다. 본 논문은 형태소 분석 결과에 고유 명사 출현 패턴과 패턴 부가 정보를 사용하여 인명, 기관명, 회사명 등의 고유 명사 추출의 정확도를 높이는 방법을 제시한다. 총 827개의 인명과 기관 및 회사명을 포함하고 있는 조선일보 경제면 기사 100개 7416 어절에 대하여 본 시스템으로 실험한 결과, 인명의 경우 89%의 정확률을 보였다. 본 논문에서 제시한 출현 패턴과 고유 명사의 부가 정보를 적용했을 때 단순한 형태소 분석 결과에 비하여 고유 명사 추출 오류가 크게 개선되었다.
-
인간의 가장 자연스러운 통신 수단은 자연언어이다. 본 논문에서는 자연언어 대화체를 사용한 인터네트 상에서의 정보 검색에 있어서 사용자 모델링 에이젼트 (User modeling Agent or User modeling system)의 모델 형성 기술 및 그의 역할을 서술하고 있다. 사용자 모델은 인간의 심성 모델 (Mental model)에 해당하며, 심성 모델이 사용자가 시스템에 대한 지식과 자신의 문제상황 또는 주변환경에 대하여 가지는 모델임에 반하여, 사용자 모델은 시스템이 사용자의 지식 및 문제 상황을 표상(Representation)하여 형성한 사용자에 대한 모델이다. 따라서 사용자 모델은 시스템의 지능적인 Human Computer Interaction (HCI)의 지원을 위하여 필수적이다. 본 논문에서는 사용자 모델 형성 기술 및 지능형 대화 모델의 지원을 위한 시스템 실례로써 사용자 모델 형성 시스템
$BGP-MS^2$ 와 사용자 모델의 형성을 위하여 구축된 지식베이스 구조를 설명하고 있다. -
본 논문은 인터넷 기반의 멀티미디어 정보 검색 시스템인 옥서 '95의 정보 색인 및 검색에 대한 설계 및 구현에 대하여 논한다. 정보 구축시 키워드의 확장 개념으로서의 키팩트 추출과 모호성 해소 그리고 키팩트, 하이퍼 문서 및 멀티미디어 데이타의 색인을 한다. 또한 검색시 자연언어 질의에 대한 키팩트의 추출, 확장 및 서열처리를 통하여 사용자가 원하는 정보를 검색하게 한다. 검색대상의 문서로서 백과사전, 신문기사, 기술문서를 다루었으며 여러가지 검색 기능을 설계 및 구현하였다. 전문을 대상으로 색인 및 검색을 하였으며 앞으로 전자도서관이나 정보통신 서비스에 활용할 예정이다.
-
본 논문에서는 2 계층 분류기를 이용하여 일반적인 문서(보고서, 책, 잡지, 워드프로세서에서 출력 된 양식) 내의 다중 크기 및 다중 활자체의 인식을 위한 효과적인 방법을 제안하고 구현하였다. 다중언어 문자를 효과적으로 인식하기 위한 2 계층 분류기를 제안하였는데 이는 폰트 독립적 분류기와 폰트 의존적 분류기로 구성되어 있다. 제안된 방법의 성능 평가를 위하여 사무실에서 많이 사용하는 59 종류의 폰트와 각 폰트 당 3가지 크기의 글꼴과, 스캐너에서 지원되는 3가지 농도의 총 489개의 서로 다른 부류를 갖는 3,593,172 자를 대상으로 학습시킨 뒤에 일반 문서를 가지고 펜티엄 PC 상에서 인식 실험을 수행하였다. 실험 결과, 2계층 분류기를 갖는 시스템에서 96-98%의 인식률과 초당40자 이상의 인식 속도를 보여줌으로써 일반적인 문서에서 다중 크기 및 다중 활자체의 문자 인식에 매우 실용적인 가치가 있음을 확인했다.
-
일반적으로 비선형 형태 정규화 과정은 필기체 문자에서 발생하는 형태 변형을 보상하기 위하여 사용되며, 현재까지 이진 영상에 대한 비선형 형태 정규화 방법들이 제안되었다. 그러나 현존하는 대부분의 문자 인식 시스템은 스캐너를 통하여 입력된 명도 문자영상을 이진화하여 사용하고 있기 때문에 이진화로 인해 야기되는 물자 영상에 대한 정보 유실 및 잡영 첨가 현상이 비선형 형태 정규화 과정에 누적되어 결과적으로 좋은 특징 추출 결과를 기대하기 어려운 실정이다. 본 연구에서는 이진화에 의한 정보의 손실을 최소화시키고, 필기체 문자에서 발생하는 다양한 형태 변형을 효과적으로 보상할 수 있는 명도 영상에서의 비선형 형태 정규화 방법을 제안한다. 제안된 명도 영상에서의 비선형 형태 정규화 방법들의 성능을 객관적으로 검증하기 위하여 처리 시간 및 복잡도 등을 기준으로 평가하였으며, 다양한 명도 한글 글씨 데이터에 대한 실험을 통하여 이진 영상에서의 비선형 형태 정규화 방법에 비해 제안된 방법이 변형이 심한 한글 글씨 데이타의 품질을 개선하는데 있어서 매우 효율적임을 확인할 수 있었다.
-
한글 첫소리 글자를 적은 전화기 숫자판에서 바람직한 글자 배열 원칙을 살펴 본 뒤, 글쓴이의 안을 제시하였다. 이 숫자판은 주로 상호를 칠 때 쓰게 될 것인데, 한글 소리마디를 제대로 넣을 수 있는 소리마디 (전화기) 숫자판과의 관계, 앞으로의 추진 방향 등에 대하여도 살펴보았다. 구체적으로, 1) 첫소리 글자 숫자판과 소리마디 숫자판을 모두 수용할 수 있도록 KCS 44 를 고치고, 2) 일반 사람들도 쉽게 쓸 수 있는 간단한 글자 배열과 치는 방식을 찾고, 3) KCS 44 의 첫소리-가운뎃소리 글자 숫자판 대신, 첫소리 글자 숫자판으로 나아가야 하고, 4) 첫소리와 가운뎃소리 글자만 배열하였는데, 끝소리 글자까지 배열하는 방안도 신중히 검토해야 한다고 본다.
-
그림자극의 명명에 있어서 이름의 의미유사성, 음운유사성, 그리고 처리부담(말속도, 기억 부담)이 말 실수 오류수와 명명 시간에 주는 영향을 알기 위해 2개의 실험이 실시되었다. 의미(유사/상이), 음운(유사/상이) 변인에 추가하여 실험 1에서는 말속도(330ms, 385ms, 770ms)의 변인이, 실험 2에서는 인지적 부담(높음/낮음)의 변인이 조작되었다. 두 실험의 결과, 의미유사성과 음운유사성, 그리고 인지적 처리 부담이 말 실수의 양과 그림자극 명명 시간이 증가시킴이 드러났다. '의미유사' 조건 및 '음운유사 조건'과 '의미-음운 모두 유사' 조건간의 말실수의 양의 차이는 말 산출 과정에서의 어휘 인출 과정에 대한 '독립적 2단계 모형'과 '활성화 상호작용 모형' 중 전자에 의해 더 잘 설명될 수 있음이 논의되었다.
-
영어와 한국어의 통사구조의 차이로 인하여, 이중언어자와 비이중언어자인 한국 대학생의 영어 문장 유형에 따른 통사 처리에 있어 차이가 있을 것이다. 네가지 영어 문장 유형, 수동태, 관계사절, 물주구문, 가정법 구문 등으로 문장 완성 과제를 실험하여 이중언어자와 비이중언어자의 문장완성 시간과 오류율을 측정하였다. 실험 결과 비이중언어자인 한국 대학생은 다른 문장 유형에 비하여 물주구문에서의 통사처리 수행에 있어 이중언어자와 유의한 차이를 보였다. 이로부터 이중언어자와 한국 대학생의 영어 문장의 통사 정보처리의 자동화 및 어순효과 정보와 생물 주어(word animacy)구문 단서, 즉 대부분의 주어는 살아있는 사물의 명사로 이루어져 있다는 단서(Gass, l987)의 사용에 대하여 논의하였다.
-
한국어-영어 이중언어자와 비이중언어자인 한국 대학생들을 대상으로 두 언어 처리의 독립성과 영어 처리의 사고 억제 과정을 알아보기 위해서 두 개의 산출실험을 실시하였다. 실험 1에서는 한국어와 영어로 산출 과제를 준 후에 한국어, 영어 단어에 대한 어휘 판단 과제를 하였다. 이중언어자는 한국어-영어 처리 체계가 분리되어 있어서 산출 언어와 목표 단어의 언어가 바뀐 경우에 단어 판단시간이 더 길 것으로 예상하였으나 유의미한 결과는 나오지 않았다. 비이중언어자는 영어 산출 후에 한국어, 영어 단어에 대한 판단 시간이 모두 느려졌으며 이것은 영어 산출에 많은 심적 자원을 소모하였기 때문이라고 해석하였다. 실험2에서는 영어로만 1분간 산출 과제를 주고 20초씩 나눈 세 구간에서 발화된 단어 수를 측정하였다. 이중언어자는 세 번째 구간에서 유의미하게 발화된 단어수가 감소하였지만 비이중언어자는 세 구간에서 발화된 단어수가 비슷하였다. 이것을 영어 산출시의 처리 부담과 관련하여 논하였다.
-
연속음성인식 시스템을 개발하기 위해서는 언어가 갖는 문법적 제약을 이용한 언어모델이 요구된다. 문법적 규칙을 이용한 언어모델은 전문가가 일일이 문법 규칙을 만들어 주어야 하는 단점이 있다. 통계적 언어 모델에서는 문법적인 정보를 수작업으로 만들어 주지 않는 대신 그러한 모든 정보를 학습을 통해서 훈련해야 하기 때문에 이를 위해 요구되는 학습 데이터도 엄청나게 증가한다. 따라서 적은 양의 데이터로도 이와 유사한 효과를 보일 수 있는 것이 클래스에 의거한 언어 모델이다. 또 이 모델은 음성 인식과 연계시에 탐색 공간을 줄여 주기 때문에 실시간 시스템 구현에 매우 유용한 모델이다. 여기서는 자동으로 클래스를 찾아주는 알고리즘을 호텔예약시스템의 corpus에 적용, 분석해 보았다. Corpus 자체가 문법규칙이 뚜렷한 특성을 갖고 있기 때문에 heuristic하게 클래스를 준 것과 유사한 결과를 보였지만 corpus 크기가 커질 경우에는 매우 유용할 것이며, initial map을 heuristic하게 주고 그 알고리즘을 적용한 결과 약간의 성능향상을 볼 수 있었다. 끝으로 음성인식시스템과 접합해 본 결과 유사한 결과를 얻었으며 언어모델에도 음향학적 특성을 반영할 수 있는 연구가 요구됨을 알 수 있었다.
-
본 논문은 연속 분포 HMM을 사용한 핵심어 추출기법(Keyword Spotting)과 화자 인식에 기반한 음성 다이얼링 및 부서 안내에 관한 것이다. 개발된 시스템은 상대방의 이름, 직책, 존칭 등에 감탄사나 명령어 등이 혼합된 형태의 자연스런 음성 문장으로부터 다이얼링과 안내에 필요한 핵심어를 자동 추출하고 있다. 핵심 단어의 사용에는 자연성을 고려하여 문법적 제약을 최소한으로 두었으며, 각 단어 모델에 대해서는 음소의 갯수 더하기
$3{\sim}4$ 개의 상태 수와 3개 정도의 mixture component로써 좌우향 모델을, 묵음모델에 대해서는 2개 상태의 ergodic형 모델을 구성하였다. 인식에 있어서는 프레임 동기 One-Pass 비터비 알고리즘과 beam pruning을 채택하였으며, 인식에 사용된 어휘는 36개의 성명, 8개의 직위 및 존칭, 5개 정도의 호출어, 부탁을 나타내는 동사 및 그 활용이 10개 정도이다. 약$3{\sim}6$ 개 정도의 단어로 구성된 문장을 실시간($1{\sim}3$ 초이내)에 인식하고, 약 98% 정도의 핵심어 인식 성능을 나타내고 있다. -
본 논문에서는 문자출력이 가능한 무선호출기에 음성인식 기술을 접목한, 특성화된 한 음성인식 시스템에 대하여 설명하고자 한다. 시스템 동작 과정은, 일단 호출자가 음성인식 서버와 접속하게 되면 서버는 호출자의 자연스런 입력음성을 인식, 그 결과를 문장 형태로 피호출자의 호출기 단말기에 출력시키는 방식으로 되어 있다. 본 시스템에서는 통계적 음성인식 기법을 도입하여, 각 단어를 연속 HMM으로 모델링하였다. 가우시안 혼합 확률밀도함수를 사용하는 각 모델은 전통적인 HMM 학습법들 중의 하나인 Baum-Welch 알고리듬에 의해 학습되고 인식시에는 이들에 비터비 빔 탐색을 적용하여 최선의 결과를 얻도록 한다. MFCC와 파워를 혼용한 26 차원 특징벡터를 각 프레임으로부터 추출하여, 최종적으로, 83 개의 도메인 어휘들 및 무음과 같은 특수어휘들에 대한 모델링을 완성하게 된다. 여기에 구문론적 기능과 의미론적 기능을 함께 수행하는 FSN을 결합시켜 자연발화음성에 대한 연속음성인식 시스템을 구성한다. 본문에서는 이상의 사항들 외에도 음성 데이터베이스, 레이블링 등과 갈이 시스템 성능과 직결되는 시스템의 외적 요소들에 대해 고찰하고, 시스템에 구현되어 있는 다양한 특성들에 대해 밝히며, 실험 결과 및 앞으로의 개선 방향 등에 대해 논의하기로 한다.
-
본 논문에서는 거절기능을 갖는 음성인식 시스템의 시험운용에 대해 소개하였다. 거절기능은 소음 단어에 의한 방식과 인식 결과를 확인하는 방식을 둘 다 병행 사용하여 구현하였다. 소음단어는 필러모델을 정의하여 구현하였으며 인식결과를 확인하기 위해서는 선형변별기를 사용하였다. 연구실에서 구축한 음성 DB로 HMM 파라미터를 추출한 후 시험운용 6개월 동안 구한 음성 DB로 실험한 결과 84.1%의 인식률을 구하였으며 이때 거절률은 0.8%였다.
-
한국어 생성기의 성능은 여러 가지 요소로 평가될 수 있다. 속도, 생성 문장의 복잡성 등 여러 가지 요소가 평가 대상이 될 수 있다. 그 중에서 가장 중요한 요소로 평가될 수 있는 것은 생성되는 문장이 얼마나 자연스러운 것인가 하는 것이다. 자연스러움의 정도는 정확히 측정할 수 없지만 그 중에서 어절의 순서 배치, 대응되는 정확한 어휘의 선정, 조사, 어미 등의 적절한 선정을 들 수 있다. 본 논문에서는 특정한 양상을 술어가 가질 때 주격조사의 선정에 주안점을 두었다. 기존의 생성기[l,3,7,9]에서는 대표격 조사 '가(무종성)'나 '이(유종성)'를 사용하였는데 양상을 동반할 때에는 '는(무종성)'이나 '은(유종성)'을 사용하는 것이 더 자연스럽다는 것을 보이도록 하겠다.
-
본 논문에서는 자연어를 통한 웹 정보검색 모델을 제시하고, 이를 위한 한국어 처리 방법을 소개한다. 자연어 질의에 대해 범주 문법에 기반한 구문 중심의 의미 파싱을 통해 QLF(quasi logical form)을 생성하며, 의미의 선택 제약 방법을 통해 모호성을 제거한다. QLF의 담화 처리를 통해 session 기반의 웹 검색을 실현할 수 있는 방법을 제안한다.
-
데이터베이스 사용자는 데이터베이스내에서 데이터를 검색하는 메카니즘과 원하는 데이터를 검색하기 위한 구체적인 질의 형태, 데이터베이스의 설계 과정에서 고려된 많은 묵시적인 의미 정보들을 인식하고 있어야 한다. 만일, 이들에 대한 정확한 인식이 이루어지지 않은채 요구된 질의는 잘못된 결과를 생성하게 된다. 데이터베이스에 대한 자연 언어 인터페이스는 이러한 세부 지식을 가지고 있지 않는 사용자에게 용이한 질의 환경을 제공해준다. 이를 위해 여러 자연 언어 인터페이스 시스템들이 개발되었다. 그러나 이 시스템들은 데이터베이스가 가지는 의미적 표현에 대한 구조적 제약성을 해소하지 못하였기 때문에 이 제약들이 사용자에게 그대로 남겨지고 있다는 문제점이 있다. 이러한 문제점은 근본적으로 자연언어와 데이터베이스의 시멘틱 모델간의 의미의 표현 레벨의 차이로 기인한다고 볼 수 있다. 본 논문은 이런 불일치 문제의 해결 방안으로 관계 데이터베이스내의 중요한 특성들을 구분하고, 이것을 표현할 수 있는 향상된 데이터베이스 시멘틱 모델에 대해 설명한다.
-
본 논문에서는 음소단위의 bigram과 trigram 정보를 이용하여 어절내에서의 위치와 개수에 관계없이 미등록어를 추정하고, 미등록어용 형태소 패턴 사전을 도입하여 마치 등록어처럼 미등록어를 처리할 수 있는 방법을 제안한다. 제안된 미등록어 추정 모텔은 조사나 어미와 같은 기능어에 의한 간접적인 추정방법이 아닌 미등록어 자체의 추정과 접속정보를 이용한 검사를 동시에 하여 정확도를 높였다. 본 미등록어 추정방법은 기존의 한국어 품사태깅모델인 TAKTAG에 적용하여 미등록어가 포함된 어절에 대해서 83.72%의 성능을 보였다.
-
대량의 코퍼스를 이용해 여러 가지 일반적인 언어 현상을 관찰하고, 언어 지식을 자동으로 획득하여 자연 언어 처리의 여러 분야에 이용하는 등의 연구가 활발히 진행되고 있으며, 이에 따라 코퍼스에 대한 필요성이 날로 증가하고 있다. 코퍼스에서 추출할 수 있는 유용한 지식 중의 하나가 구문 관계 지식이다. 그러나 한국어에 자주 나타나는 격이동이나 생략 현상, 복합어의 이형태 등은 정확한 지식 획득을 어렵게 할 뿐 아니라 자료 회귀 문제를 더욱 심화시킨다. 본 논문에서는 한국어의 문법적인 특징을 반영한 코퍼스정규화에 의해 이러한 문제를 해결하고자한다.
-
변형 규칙 기반 품사 태거는 태깅 규칙을 코퍼스로부터 자동 학습할 수 있고, 견고하며 태깅 결과를 이해하고 분석하기가 쉽다는 장점을 갖는다. 이에 최근 한국어 특성을 고려한 변형 규칙 기반 한국어 품사 태거가 개발되었다. 하지만 이 시스템은 오류 어절의 어휘 정보를 사용하지 않으므로 수정 가능 오류에 대한 변형 규칙이 제대로 학습되지 못하며, 변형 규칙 적용 과정에 새로운 오류를 발생시킨다는 문제점이 있다. 이에 본 논문은 오류 어절의 어휘 정보를 참조할 수 있는 세부변형 규칙 추출을 이용한 변형 규칙 기반 한국어 품사 태거의 개선 방안을 제안한다. 어휘 정보를 참조할 수 있는 세부 변형 규칙의 형태는 특정 문맥 C에서 어절 W의 어절 태그
${\alpha}$ 를 어절 태그${\beta}$ 로 변형한다와 같다. 제안된 방법은 약 10만 어절 크기의 학습 코퍼스에서 57개의 세부 규칙을 학습하였고, 2만 어절 크기의 실험코퍼스에 적용한 결과 95.6%의 정확도를 보임으로써 기존의 변형 규칙 기반 품사 태거의 정확도를 약 15.4% 향상시켰다. -
기존의 미등록어 추정 방법은 대부분 단일 어절 접근 방법으로 단일 어절에서 추출할 수 있는 추정 정보가 부족하여 과분석과 오분석의 가능성이 높았다. 그래서 동일 미등록어를 가진 어절들을 동시에 분석하는 유사 어절 접근 방법이 제시되었다. 그러나 이 방법도 유사 어절의 범위를 조사나 어미만 다른 어절로 정의함으로써 수집될 수 있는 유사 어절의 수가 제한되어 대략의 텍스트에서만 적용이 가능하였다. 이에 본 논문은 유사어절을 동일 음절열을 공유하는 어절들로 확장 정의하여 작은 크기 N의 텍스트 윈도우에서 유사 어절의 발견 가능성을 높임으로써 실시간으로 미등록어를 추정할 수 있게 하는 방법을 제시한다. N을 100으로 한 실험결과는 미등록어 추정 정확도가 99.3%였고 재현율은 약 32%였다.
-
가능한 모든 형태소 해석을 찾아내는 한국어 형태소 해석기들은 필요 이상으로 많은 수의 형태소 해석 결과를 생성하기 때문에, 자연언어 처리 시스템의 상위 과정, 즉 구문해석, 의미해석 등에 큰 도움이 되지 못하고 있는 실정이다. 이러한 문제점을 해결하기 위해서, 본 논문에서는 어휘화된 배열규칙과 형태적 포섭관계와 같은 언어지식을 이용해서, 형태소 해석의 모호성 축소 방법을 제안하고자 한다. 실험 및 평가를 위해서 KAIST 말뭉치를 이용하였으며, 평가의 기준을 설정하기 위해서 품사 쌍의 접속정보를 배열규칙으로 하는 한국어 형태소 해석기를 사용하였다. 어휘화된 배열규칙과 형태적 포섭관계를 이용했을 경우, 각각 54%와 40.4%의 형태소 해석의 모호성 감소율을 보였으며, 이들 두 방법을 동시에 적용했을 경우, 67.5%의 형태소 해석의 모호성 감소율을 보였다.
-
본 논문에서는 정보 검색에서 사용하는 계층적 클러스터링 기법을 이용하여 용례들을 중심어의 의미에 따라 분류하고자 한다. 분류에 필요한 용례 사이의 유사도는 형태소 사이의 유사도를 이용하여 계산한다. 형태소 사이의 유사도 계산에는 상호 정보, 상호 정보의 유사도, 벡터 유사도 등을 사용한다. 품사 태깅된 17만 코퍼스에서 명사 4개와 동사 4개를 중심어로 사용하여 추출된 용례에 대해서 각 방법의 정확도를 실험한 결과 상호 정보와 상호 정보 유사도를 더한 값을 형태소 사이의 유사도로 사용한 방법이 90.16%의 정확도를 보였다. 제안된 방법에서 사용하는 정보들은 의미 태깅되지 않은 코퍼스에서 추출할 수 있기 때문에, 정보의 획득이 쉬운 장점이 있다.
-
한국어 정보처리 시스템은 유형별로 다양한 형태의 형태소 분석 정보를 필요로 하는데 이를 위하여 한국어의 단어 유형을 분류하고 형태소 분석 결과를 효율적으로 저장하는 자료구조를 제안한다. 형태소 분석에 필요한 단어 유형은 일반적인 유형과 단순화된 유형으로 구분하여 비교하였으며, 이를 기반으로 형태소 분석을 위한 새로운 단어 구성 전이도를 제시하였다. 형태소 분석 결과를 저장하는 자료구조는 HAM에서 사용되고 있는 자료구조를 기반으로 응용시스템에서 필요로 하는 정보를 쉽게 사용할 수 있도록 보완하고 저장 공간의 효율성을 개선하였다.
-
한국어 형태소 분석기의 효율성에 영향을 미치는 요인은 분석 알고리즘의 효율성보다도 어휘 사전 등 형태소 분석과 관련된 여러 가지 요인들이 미치는 영향이 훨씬 더 크다. 따라서 단어의 유형 분류 기법이나 불규칙 용언의 분석 방법을 비롯하여 어휘 사전의 구조 및 크기, 알고리즘의 선택과 구현 등 형태소 분석과 관련된 모든 요소들을 형태소 분석에 적합하도록 구성하여야 한다. 본 논문에서는 어휘형태소 사전과 문법형태소 사전의 크기, 한글 문서에 나타나는 단어의 특성 등 형태소 분석기의 효율 및 성능에 영향을 미치는 요소들을 고찰하였다. 그 결과로 알고리즘의 효율보다는 사전 탐색 시간이 형태소 분석에 미치는 영향이 매우 크다는 것을 알 수 있었다. 이와 같이 형태소 분석기의 성능에 영향을 미치는 요인들을 고려하여 구현된 범용 형태소 분석기 HAM에 대하여 형태소 분석 기능과 철자 검사 기능을 실험하였다. 형태소 분석 성공률에 대한 실험 결과 99.46%의 분석률을 보이고 있으며, 맞춤법 검사 기능으로는 상용화된 철자 검사기와 비슷한 성능을 보이고 있다. HAM의 처리 속도는 pentium 120MHz linux 2.0 환경에서 1 초에 약 1,000 단어를 분석한다.
-
한국어 형태소 분석 방법중 최장일치법은 영어의 분석처럼 one-pass로 한국어를 분석할 수 있도록 하는 기법에 가장 적절하다. 그러나 최장일치법은 매우 많은 분석 후보를 생성하여 탐색 회수가 많아 시스템의 성능을 떨어뜨린다. 또한 대부분의 한국어 형태소 분석 시스템들은 형태소 자체에만 중점을 두어 한국어 분석 시스템 전체의 성능은 고려하지 않아 형태소 분석 시스템의 결과가 파서의 입력에 적절치 못한 결과를 생성한다. 본 논문에서는 형태소 분석의 원형복원 규칙과 사전 탐색을 통합하여 과분석 후보에 대한 탐색 회수를 줄이고 전체 시스템의 성능을 향상시키기 위해 파서에 적합한 입력을 제공하는 확장된 최장일치법을 제안한다.
-
한국어 맞춤법 검사기는 문서내에서 발생되는 비표준어 오류, 띄어쓰기/붙여쓰기 오류, 조사/어미 오류, 외래어 오류, 철자 오류 등에 대해서 이에 적합한 대치어를 제시해 준다. 일반적으로 한국어의 맞춤법 오류 중 가장 빈번하게 발생되는 것이 띄어쓰기 오류이며, 이 중에서도 복합 명사에 대한 띄어쓰기 오류가 가장 많이 발생한다. 본 논문에서는 복합 명사에 대한 띄어쓰기 교정 방안으로 복합명사의 음절수에 따라 1개의 결과만을 출력하도록 하는 복합 명사 분리 방안을 제시하며, 또한 복합 명사 분리 시의 사전 참조 횟수를 줄이는 방법을 제안한다.
-
동사 어간과는 달리 명사 어간은 그 자체로도 어형(word form)이 될 수 있다. 그러나 일반적으로는 명사 어간에 조사가 하나 또는 여러 개가 결합되어 어형이 형성된다. 이 논문은 이러한 명사 어형을 효율적으로 생성할 수 있는 규칙기반의 어형 생성 시스템 골몰(KORean MORphological system)이 어떻게 운용되는가를 시연하는 것이 그 목적이다. 이 시스템 변이형 포함한 기본 조사 108개를 기초로 하여 3,000여개의 복합형 조사를 생성한다. 그러나 국어의 명사 어간에 조사가 하나뿐 아니라 6개까지도 결합될 수 있으므로 명사 어형 생성과정에서 과잉 생성의 문제 발생한다. 생성 과정을 통제하기 위하여 골몰은 기본 조사에 결합 순서치(Order)를 할당하고 좌연접 요구(Requires) 조건을 명시하여 줌으로써 조사가 이미 도입된 좌측의 명사 어간과 적절히 결합될 수 있도록 장치되었다. 이 논문은 명사 어간과 조사의 이러한 결합 통제 조건을 논하고 골몰을 통해 명사 어형들이 어떻게 분석되고 생성되는가를 간단히 예를 보여 줌으로써 시스템의 충족성을 뒷받침한다.
-
사용자가 컴퓨터와 자연스럽고 인간적으로 대화할 수 있고, 사람의 요구에 지능적인 해답을 능동적으로 제시할 수 있는 사용자 인터페이스 에이전트가 활발히 연구되고 있다. 음성, 펜, 제스쳐인식 등을 비롯한 다양한 방법을 통하여 사람의 의사전달방식을 컴퓨터의 입력수단으로 구현하여 사용자 편의성을 도모하고 있다. 본 논문에서는 컴퓨터를 블랙박스로 하고, 표면적으로 지능형 3차원 그래픽 얼굴 에이전트와 사용자가 의사소통을 하는 사용자 인터페이스를 대상으로 하였다. 컴퓨터가 단순문제 해결을 위한 도구에서 많은 정보를 다양한 매체를 통해 제공하는 보조자의 역할을 수행하게 되었기 때문에 위의 방법은 보다 적극적인 방법이라 할 수 있다. 이를 위한 기반 기술로써 국어를 발음하는 얼굴 애니메이션을 연구하였다. 발음을 표현하기 위한 데이터로써 디지털 카메라를 사용하여 입술 운동의 특징점의 위치를 조사하였고, 모델링 시스템을 개발하여 데이터를 입력하였다. 적은 데이터로도 복잡한 자유곡면을 표현할 수 있는 B-Spline곡면을 기본데이터로 사용하였기 때문에 애니메이션을 위한 데이터의 양 또한 줄일 수 있었다. 그리고 국어음소의 발음시간 수열에 대한 입술모양의 변화를 조사하여 발음소리와 입술 움직임을 동기화 시킨 발음 애니메이션을 구현하였다.
-
다국어 자동번역이란 2개국어 이상 언어들간의 번역을 말한다. 기존의 다국어 자동번역 시스템은 크게 변환기반 transfer-based 방식과 피봇방식으로 분류될 수 있는데 변환기반 다국어 자동번역 시스템에서는 각 언어의 분석과 생성 규칙이 상이하게 작성됨으로써 언어들간의 공통성이 수용되지 못하였고 그로 인해 전체 번역 메모리의 크기가 증가하는 결과를 초래하였었다. 또한 기존의 피봇방식에서는 다국어에 적용될 수 있는 언어학적 보편성 모델을 구현하는 어려움이 있었다. 이러한 기존의 다국어 자동번역 시스템의 단점들을 극복하기 위해 본 논문에서는 언어들간의 공통성을 수용하며 또한 여러 언어에서 공유될 수 있는 공통 규칙에 의한 다국어 자동번역 시스템을 제안하고자 한다. 공통 규칙의 장점은 전산학적으로는 여러 언어에서 단지 한번 load 되기 때문에 전체 번역 메모리의 크기를 줄일 수 있다는 것과 언어학적으로는 문법 정보의 작성.수정.관리의 일관성을 유지할 수 있다는 것이다.
-
본 연구에서 말뭉치를 이용하여 기계 번역을 위한 한국어 문장 패턴을 추출하였다. 문장 패턴은 해당 언어의 기본 문법 구조를 가지고 있기 때문에 언어 습득을 위해서 유용하다. 기계 번역을 위해서는 기본 문법 구조뿐만 아니라 각 단어간의 의미 관계를 나타낼 수 있어야 한다. 본 연구는 품사 태깅 및 명사에 의미 소성을 태깅하여 한국어의 문장 패턴을 추출하였다. 추출된 문장 패턴은 구문분석시 애매성을 해소할 수 있으며, 동음다의어의 해석이 가능하며, 의미의 부정합 판정이 가능하다.
-
본 논문에서는 실용적인 기계번역 시스템을 위하여 다양한 입력 형태에서 나타나는 여러 현상을 전처리하는 기법을 설명한다. 전처리기는 문장 분리, Title 및 나열문 인식, HTML Tag의 처리, 하이픈처리, 숫자 표현 처리, 대소문자의 정규화, 고유명사 인식, 복합단위 인식 등을 수행하여 형태소 분석기의 처리 부담을 줄인다.
-
이 논문은 개념기반의 대화체 언어번역시스템의 번역부의 평가에 대해 기술한 것이다. 대상언어는 한국어와 영어로 한국어를 해석하여 영어로 번역하는 시스템이다. 개념기반 시스템은 개념을 기준으로 입력된 문장을 해석하고 그 개념을 이용하여 번역한다. 개념기반 시스템은 개념에 기반을 두기 때문에 자유로운 간투사의 사용, 빈번한 단어 생략 등의 특성을 가지는 대화체 번역에 유리하다. 시스템의 평가는 입력문에 대한 번역문의 결과가 의미적으로 어느 정도 전달되었는지를 평가자의 주관적인 판단에 의해 평가한다. 현재 개발된 시스템은 여행안내 영역(domain)을 대상으로 하고 있다. 개발된 시스템에 대한 평가는 대화체를 전사한 문장과 음성인식의 결과 두 가지의 입력에 대해 하였다.
-
일-한 기계 번역을 연구하는 많은 연구자들은 양국어의 문절-어절 단위의 어순 일치와 같은 구조적 유사성을 최대한 이용하기 위해 직접 번역 방식을 채택하고 있다. 그러나, 일본어와 한국어 술부간에는 대응하는 품사의 불일치 및 국부적인 어순의 불일치 등이 어려운 문제로 남아 있다. 본 논문에서는 이들 술부 표현의 불일치를 해결하기 위해 이미 제안하였던 "양상 테이블을 기반으로 한 한국어 술부의 생성 방법"에 대해 좀더 체계적인 평가를 하고자 한다. 이 방법은 술부만을 대상으로 하는 추상적이고 의미 기호적인 양상 자질(modality feature)을 테이블화(양상 테이블)하여, 양국어의 술부 표현의 피봇(pivot)으로 이용함으로써 술부 양상 표현의 효과적인 번역을 가능하게 하였다. 일본어 499 문을 대상으로 실제 술부의 번역처리를 시행해 본 결과, 약 97.7%가 자연스럽게 번역됨을 확인하였다. 특히, 술부의 생성 부분은 일본어에 의존하지 않는 양상 테이블을 도입함으로써 일-한뿐만 아니라 다른 언어로부터의 한국어 술부 생성에도 적용시킬 수 있을 것이다.
-
일본어 특허 문서를 번역하기 위해 개발이 시작된 COBALT-J/K(COllocation - BAsed Language Translator from Japanese to Korea)는 현재 그 번역 대상을 모든 일본어 문서로 확장해 곧, 상용 시스템으로 전환을 바라보고 있다. 이런 시점에서 일반 문서를 대상으로 하는 범용 기계 번역 시스템의 관점에서 시스템을 평가하여 문제점을 찾고, COBALT-J/K가 우선적으로 해결하고자 한 문제들이 올바르게 해결되었는지를 살피고자 한다. 이를 위한 평가 방법으로 문형별로 분류된 다수의 일본어 문장에 대하여 실제 번역을 하여 한국어 번역문과 일본어 원문을 비교하는 방식으로 분석하였으며, 현재 시판되고 있는 J-Seoul에 대해서도 같은 방법으로 실험한 결과를 얻은 후, 이 결과는 평가의 보조 자료로 삼았다.
-
The Modification Scope Analysis of the Embedded Sentences in Korean and Japanese Machine Translation한일 양언어의 복합문은 여러가지의 통어 현상을 가지며, 주어, 목적어 등의 생략 현상으로 문장의 표층상에 나타나지 않는 것이 있기 때문에 수식구조의 처리가 복잡해지고, 구문해석에 있어서 애매성의 요인이 된다. 따라서, 본 논문에서는 DPN에 의하여 한국어와 일본어의 수식 scope를 해석하는 방법에 대하여 설명한다. 먼저, 한일 양언어의 공통점과 차이점을 찾아내어, 한국어와 일본어의 보문을 표현형식으로 나타내고, 동사의 격정보로부터 DPN을 구성하여 DPN상에서 보문의 수식 Scope를 해석하는 방법에 대해서 설명한다.
-
여러 가지 의미를 갖고 있는 단어의 올바른 해석은 통사론적, 의미론적, 화용론적 지식을 요구하고 있다. 특히 본 논문에서 다루고자 하는 과제는 의미상 연결되어 있는 두 문장의 효과적인 해석을 통해 다의 단어의 애매성을 처리하는 방법에 관한 것이다. 이를 위해서 마커 전파를 근간으로 하는 메모리 기반 파싱에 이완법(relaxation)을 적용하여 양자의 유기적인 결합을 통한 확장된 메모리 기반 파싱 방법을 제안하고자 한다. 이 방법은 마커 전파가 제공하는 효율성을 유지하며, 이완법이 제공하는 효과성을 추구하고 있다.
-
대용어(anaphor)는 한 문장이나 문장과 문장간에 같은 요소가 되풀이될 때 언어 사용의 경제성(language economy)을 위하여 잉여적 표현을 제거하는 방법으로, 좀 더 간략한 언어 표현으로 대치하여 쓰는 현상이다. 따라서 본 논문에서는 중심어 주도의 단방향 활성 차트 파싱을 이용하여 한국어 문장내에서 야기되는 문맥 대용어의 해결 방안에 대해 제안한다. 이는 자연어를 입력으로 하는 실용목적의 자연어처리 시스템 구축에 있어 필수적으로 요구되는 부분이다. 대용어 해결을 위해 먼저 전산학적인 대용어 정의를 내리고, 대용어와 선행어사이의 의미 분류 및 대용어 해결 과정에 필요한 처리 조건등을 설정하였다 또한 파서내에 대용어 처리를 위해 사전내 자질구조로 ANAPMAJ, ANAPMIN, PERSON, NUM, INDEX자질을 추가하였고, 대용어 해결을 위한 알고리즘을 제안하였으며, 기존에 개발된 HPSG 파서가 처리하는 모든 문장에서 야기된 문맥 대용을 해결하여 파서이후의 응용 시스템에서 이용할 수 있는 내적 표현을 보다 분명하게 형식화하였다.
-
자연언어 대화에서 사용자의 정확한 의도(Intention)를 인지함에 있어서 나타나는 문제는, 자연언어 대화체의 생략성이 강한 문장의 불완전성 외에도, 여러 연속되는 대화체 문장에 분산되어 나타나는 사용자의 의도를 정확히 파악하는 것이다. 이러한 불완전한 대화체 문장 속에 산재되어 있는 사용자의 의도를 빠르고 신뢰성 있게 인지하여, 사용자와 시스템간의 원활한 자연언어 대화 상호작용 (Interaction)을 가능하게 하기 위하여 플랜 인지 시스템의 이용은 매우 효과적으로 보인다. 현재까지 개발된 대부분의 플랜 인지시스템들은 사용자의 액션 분석 및 플랜의 인지를 통하여 HCI를 지원하는 측면에 (예: 지능형 도움말) 집중되어 있다. 본 논문은 지역 광고 신문에 실린 매입-매도광고 데이타베이스의 검색을 위한 Natural language dialogue user interface에서 사용자 의도를 인지할 수 있는 플랜 인지 시스템을 기술하고 있다.
-
자연언어는 사람이 쉽게 이해할 수 있지만 이론 컴퓨터가 이해하는데는 많은 문제점들이 발생한다. 이러한 문제의 해결을 위해 의미처리가 수행되어야하며 효율적인 의미처리를 위해서는 정확한 의미사전의 개발이 요구된다. 본 논문에서는 개념그래프를 이용한 의미사전의 개발과정에서 고려되어야할 몇가지 문제점들을 살펴본다.
-
자연언어처리 프로그램에서 어휘지식을 제공하는 전자사전은 그 중요성에 비해 작성 및 관리에 불편함이 많다. 본 논문에서는 전자사전의 작성 및 관리를 편리하게 할 수 있도록, 다양한 형태의 어휘 자료로부터 필요한 정보를 추출, 변형하고, 편집할 수 있는 텍스트 및 사전 관리시스템(TDMS: Text and Dictionary Management System)의 설계에 관하여 소개한다. TDMS에서는 SGML(Standard General Markup Language)의 일부를 사용하여, 표준사전 표기언어(SDML: Standard Dictionary Markup Language)를 정의하고, 이를 이용하여 다양한 형태의 사전 형식을 기술하고 있다. 또, 표준사전 표기언어로 표현된 사전이나 텍스트는 각종 응용프로그램에 독립적인 형태로 존재하여, 정보의 표준화와 교환을 용이하게 한다.
-
컴퓨터의 발달과 더불어 최근 자연언어 처리 분야의 일부에서는 일반 문서들(human-readable text)을 전자 문서(machine-readable text)화 하려는 노력이 이루어지고 있다. 이러한 연구 중 대표적인 것으로 사전을 전자문서화된 형태로 바꾸는 작업을 들 수 있는데, 외국에서는 이미 10여년 전부터 이에 관한 연구가 꾸준히 진행되어 결실을 맺고 있다. 이에 반해 우리나라에는 아직 이에 견줄만한, 나아가 표준화할 만한 전자사전이 아직 개발되어 있지 않은 상황이다. 따라서 본고에서는, 일반 사전을 전자사전화 하기 위한 정형화된 논리적 구조를 검토해 보기로 한다.
-
본 논문에는 일반문서를 대상으로 하여 그 문사를 하이퍼텍스트(hypertext)로 자동변환하는 기법을 제안하고자 한다. 자동변환의 과정은 대상 문서에서 키워드(keyword)의 인식, 문서를 노드(node) 단위로 분리, 키워드로부터 노드로의 링크(ink) 생성의 3 단계로 이루어 진다. 기존의 연구에서는 문서에서 노드를 분리하는데 구문적 유사도만을 이용하는데, 본 논문에서는 양질의 하이퍼텍스트를 생성하기 위하여 구문적 유사도(syntactic similarity)뿐만 아니라 의미적 유사도(semantic similarity)를 사용한다. 구문적 유사도는 tf*idf와 벡터 곱(vector product)을 이용하고, 의미적 유사도는 시소러스(thesaurus)와 부분부합(partial match)을 이용하여 계산되어 진다. 또 링크 생성시 잘못된 링크의 생성을 막기 위하여 시소러스를 이용하여 시소러스에 존재하는 용어에 한해서 링크를 생성한다.
-
지능형 정보검색시스템이 효율적으로 운용되기 위해서는 여러개의 서브시스템이 필요하다. 특히, 시소러스와 색인 및 검색시스템용 전자사전은 중요한 지식베이스이다. 본 연구에서는 한글전자사전의 개발에 필요한 이론과 구축기술에 대해 조사하였다. 그 내용은 1)전자사전의 의미, 2)전자사전의 형태, 3) 전자사전개발을 위한 코퍼스 구축기술 및 방법이라는 이론적인 부분과 실제 과기원코퍼스2를 이용한 균형코퍼스를 설계하였다. 한편, 균형코퍼스를 이용한 기본적인 명사사전과 공기사전, 전문용어사전구축방법도 제시하였다.
-
본 논문은 한국어의 구문 분석시 생기는 구조적 중의성 현상들 중 명사구를 용언에 부각할 때 발생하는 많은 중의성과 관형용언구가 명사구를 수식할 때 발생하는 중의성들을 해소하는 방법에 대해 다룬다. 대부분의 한국어 문장들이 이러한 중의성 현상을 포함한다. 우리는 문장 분석시 나타나는 다중 파스들을 스택을 이용하여 관리하여 중의성에 의한 다중 파스들을 비교하여 적합하지 않은 파스들을 여과하므로써 중의성을 해소한다. 중의성 해소를 위한 정보원으로서 격 정보와 통계 정보를 이용하는 알고리즘을 제시한다.
-
의존 문법을 사용한 의존 파싱에서 기본적인 단어(품사정보)들 사이의 의존 관계 검사에 의한 파싱 방법은 불필요한 의존 관계의 생성을 가져온다. 이러한 과생성을 해결하기 위하여 파싱 단계에서 보다 정교한 의존 파싱을 통해서 불필요한 의존 관계의 생성을 최소한으로 줄이는 방법에 대한 연구가 필요하다. 본 논문은 의존 파싱에서 최소한의 의존 관계를 생성하기 위하여 후보 의존소가 지배가능경로 상에서 술어 지배소와의 의존 관계 검사 시에 술어의 하위범주화 정보를 이용하는 효율적인 의존 파싱 방법을 제안한다. 이것은 의존 파싱의 다음 처리 단계인 의존 제약의 적용에 훨씬 부담을 덜어 줄 수 있다.
-
본 논문에서는 한국어 의존관계 파서의 정확성 및 효율성을 높이기 위해 구구조 내의 지역적 수식 특성을 반영할 수 있는 지역 의존관계의 사용을 제안한다. 의존문법은 자유어순 언어를 잘 설명할 수 있는 장점이 있지만, 전체 문장구조에 관한 의존제약이 너무 미약하기 때문에 단순히 어절간 구문 의존 제약만으로는 원하지 않는 분석 결과가 너무 많이 생성된다. 그러나 자유어순 언어라 하더라도 지역적인 구구조에는 일정한 어순 제약이 존재한다. 명사구, 용언구 등과 같은 구구조를 분석해 보면 수식어의 지배소는 반드시 그 구 안에 있다. 이러한 구조 정보에 기반을 둔 지역 의존관계 규칙을 이용하면 하나의 의존소에 대해서 지배소로 사용될 수 있는 어절의 범위를 제한하여, 원하지 않는 분석 결과를 줄일 수 있다. 한국어는 기본 문장 구조가 그대로 사용되기보다는 하나 이상의 수의 요소들이 첨가되어 보다 긴 문장 구조로 사용되는 경우가 많기 때문에, 본 논문에서 제안한 방법은 시스템 전체의 성능 및 효율을 크게 향상시킬 수 있다. 실험에서는 파싱의 첫 번째 단계에서 지역 의존관계 규칙을 사용하였을 경우 사용하지 않았을 때에 비해서 의존관계의 수가 평균 69% 정도로 줄어들었다.
-
이 논문은 형태소 사이의 문법 관계(Grammar Relation)에 기반하여 형태소 간의 의존 관계를 규정하고, 이를 바탕으로 의미 오류와 문체를 검증하는 문법 검사기를 제시한다. 이 방법으로 다수 어절에 걸친 의미적 오류 뿐만 아니라 번역체 문구와 뜻의 전달을 어렵게 하는 문구 등과 같이 문장을 힘없게 만드는 문체 오류를 검증한다. 또한 이러한 오류를 검증하기 위한 지식베이스의 구현과 의존 문법(Dependency Structure Grammar)을 이용한 부분 문장 분석 알고리즘을 제시한다. 이 논문에서 제시한 문법 검사기는 향후 파싱 등의 문장 분석에 중요한 자료로 이용될 것으로 기대한다.
-
본 논문은 구운 분석의 검색 영역 축소를 통한 구문 분석기의 성능 향상을 목적으로 connectionism을 이용한 부분 구문 인식기의 설계와 구현을 기술한다. 본 부분 구문 인식기는 형태소 분석된 문장으로부터 명사-주어부와 술어부를 인식함으로써 전체 검색 영역을 여러 부분으로 나누어 구문 분석문제를 축소시키는 것을 목적으로 하고 있다. Connectionist 모델은 입력층과 출력층으로 구성된 개선된 퍼셉트론 구조이며, 입/출력층 사이의 노드들을, 입력층 사이의 노드들을 연결하는 연결 강도(weight)가 존재한다. 명사-주어부 및 술어부 구문 태그를 connectionist 모델에 적용하며, 학습 알고리즘으로는 개선된 백프로퍼게이션 학습 알고리즘을 사용한다. 부분 구문 인식 실험은 112개 문장의 학습 코퍼스와 46개 문장의 실험 코퍼스에 대하여 85.7%와 80.4%의 정확한 명사-주어부 및 술어부 인식을, 94.6%와 95.7%의 명사-주어부와 술어부 사이의 올바른 경계 인식을 보여준다.
-
LR 파싱은 프로그래밍 언어를 위한 빠른 파싱 방법을 제공한다. 그러나 이 방법의 단점은 자연어와 같은 다양한 모호성을 가지는 문법에 적합하지 못하다. 모호성을 가지는 문법은 파싱 테이블 상에서 충돌을 야기하게 되는데 이를 해결하는 방법에 대한 연구가 많이 있어 왔다. 문장이 길어질 경우 구문 분석 도중 이러한 모호성이 파싱 효율에 큰 영향을 미치게 되는데, 본 논문에서는 Shift 우선 전략으로 LR 파싱의 효율적인 특징을 유지하면서 이러한 충돌을 해결할 수 있음을 보인다.
-
자연어 처리에서 언어에 대한 지식은 전자사전과 문법규칙으로 구성되어 서로 상보적 관계에 있고, 각 어휘에 대한 품사 및 기타 자질-값에 의해 매개된다. 이러한 언어지식을 전통적인 방법에서는 국어자료의 분석에 경험이 많은 언어전문가의 직관에 다분히 의존하여 정의하였고, 말뭉치를 이용한 자동 획득 기법에서는 태그세트를 먼저 설정하고, 이 태그를 원시 말뭉치에 부착하여 태깅된 말뭉치로부터 자동으로 통계적 분석을 통하여 획득한다. 그런데 두가지 접근방법이 가지고 있는 공통적인 문제점은 품사나 자질-값의 정의 및 할당기준, 선악의 평가기준, 튜닝에 대한 적극적 대처 등이 마련되어 있지 않다는 점이다. 이 연구에서는 이러한 문제점의 발생원인을 말뭉치 분석 과정에서 살펴보고, 품사 및 자질-값의 설정과 할당기준을 마련하는 방법론 및 이를 적극적으로 지원하는 도구를 설계한다.
-
한국어에서 보조용언은 본용언에 연속적으로 연결되어 나타나서 많은 문법적 기능을 담당하고 화자의 양태 관계를 나타낸다. 그 중에서 사동 보조 용언과 파동 보조 용언이 본용언에 결합되었을 때는 본용언의 하위 범주화 값이 달라지며 문장에서 각 성분들의 의미역할이 바뀌게 된다. 따라서 자연어 이해와 기계번역의 질적 향상을 위해 이들에 대한 정확한 분석이 요청된다. 본 논문에서는 한국어 구문분석에서 보조 용언 처리의 한 부분으로서 사동 보조 용언 '-게 하-'로 실현되는 사동문과 피동보조 용언 '-아/어 지-'로 실현되는 피동문의 구문분석 방법을 제안한다. 사동문에서는 오분석을 막기 위해 사동 보조 용언이 아닌 '-게 하-' 구성을 구별해 내고, 피동문에서는 '-아/어 지-'를 피동보조용언과 기동상으로 분리시킨다. 그리고 이들 보조 용언으로 실현되는 사동/피동문을 격표지 정보와 사동문 분석 규칙, 피동문 분석규칙을 이용하여 사동/피동문이 가지는 의미특성을 나타낸 구문분석 결과를 제시한다.