Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
Human and Language Technology (SIGHLT)
- Annual
- /
- 2005-3053(pISSN)
Domain
- Information/Communication > Information Processing Theory
1994.11a
-
한국어의 이해와 산출의 심리적 과정에 대한 인지심리학적 연구들을 개관하였다. 한국어의 통사적 구분분석처리 과정, 대용어 참조 해결 과정, 덩이글 이해와 지식구조의 활용 과정, 말실수와 글쓰기의 언어 산출 과정 등에 대한 심리학적 연구를 개관하여 주요 실험적 결과와 이론적 의의를 논하고, 이들이 앞으로의 한국어 이해와 산출 과정에 대한 인지과학적 연구에 시사하는 바를 논의하였다.
-
우리는 쉽고 누구나 사용할 수 있는 증명 방식으로 "어떠한 경우에나 참이기 때문에 모든 경우에 참"이라는 방식을 쓴다. 그러나 증명이 한정될 수밖에 없었다는 것을 인정할 수밖에 없어서, 이러한 오래 사용하여 오던 방법을 얼마만큼 사용할 수 있는지를 연구할 수 밖에 없다. 이 증명 법칙
${\Omega}$ 은 유한 모형에서는 그대로 사용할 수 있기 때문에, 다른 일반적인 모형에 어떻게 확대 적용할 수 있느냐는 문제가 남는다. A. Ignjatovic은${\Omega}$ 법칙이 한정된 추론 속의 더 일반적인 확대가 가능함을 말하고 있다. 이 글에서는 이${\Omega}$ 법칙의 실제적인 유용성을 말하여 본다. -
인간의 정보처리 과정의 특성을 알아보기 위하여 반구별로 색채와 단어의 처리과정을 분석하였다. 단어와 색깔이라는 두가지 자극 속성이 있는 한 개의 자극에 대하여 각 자극 속성에 대한 판단과정을 반응키를 이용하여 반구별로 알아보았다. 단어에 대한 판단과 색깔에 대한 판단을 반구별로 분석한 결과, 색깔처리나 단어처리에 있어서 반구간 비대칭성은 나타나지 않았으나 색깔에 대한 판단이 단어에 대한 판단보다 신속하게 이루어지는 것으로 나타나 색채가 단어보다 기초적인 자극 속성임을 확인하였다. 단어와 색깔이라는 두가지 자극 속성을 이용한 경우에 한가지 자극속성을 처리할 때 다른 자극속성이 자동적으로 영향을 주는 것으로 나타났으나 그 정도에 있어서 반구간의 차이는 없었다. 그러나 색채가 단어처리를 간섭하는 정도가 단어가 색채처리를 간섭하는 정도보다 큰 것으로 나타나 기존의 스트룹 연구결과들과는 상반되는 결과를 얻었는데 이는 과제의 특성이라는 측면으로 기술되었다. 단어 처리에서 반구간 차이가 발견되지 않은 것은 한글의 시각적 특성과 관련지어 논의되었다. 자극의 한 속성이 자동적으로 다른 속성에 영향을 주지만 그 효과의 크기도 반구별로 차이가 없다는 것은 이전의 반구별 스트룹 효과를 알아본 연구들과 상반되는 결과이다. 따라서 자극속성이 상호영향을 줄 수 있는 좀더 일반적인 상황에서는 한 자극 속성이 다른 자극 속성의 처리에 자동적으로 영향을 주는 효과에서 반구 비대칭성이 발견되지 않으며 스트룹 효과는 두 자극 속성의 관계가 밀접한 특별한 경우에 나타나는 반구비대칭성 효과인 것으로 논의되었다.양 발생과 유의적으로 상관관계가 있었다. 본 연구의 결과는 phenol의 종류에 상관없이 식이 phenol에 조직의 항산화(산화억제)를 통해 암 예방(cancer prevention)에 영향을 미친다는 것을 제시해준다.물을 첨가하여 물내리기를 한 후 김이 오른 후 물내린 쌀가루에 15% 이상의 설탕을 첨가하여 20분간 쪄서 만든 백설기가 가장 바람직하다는 것을 알 수 있었다. 이 실험 중 가장 중요한 조건은 첨가하는 물의 양이 10%이며 첨가하는 당이 설탕일 경우는 김이 오른 후 설탕을 섞어 바로 쪄야 하며 설탕의 양이 15% 이상이라는 것이다. 이 조건은 대체적으로 hardness, adhesiveness, gumminess가 큰 수치를 나타낸다.순구조의 Tonpilz형 초음파 변환기와 비교하여 비록 송파전압감도에 있어서는 약 5 dB 정도의 음향출력의 손실이 불가피하지만, 그 대신 주파수 대역폭을 약 5 재 정도 확대시킬 수 있는 장점이 있기 때문에 이 넓은 주파수 대역을 효과적으로 활용하면 어종식별을 위한 음향산란신호를 정량적으로 수집 및 평가하는 것이 가능하다고 판단된다.n A was 11 ug.이, 0.9 ug/g and 3.7 ug/g in the blood, liver and kidney, respectively.sional-managerial who secure the higher autonomy and stability in their work have the highest life chance in the labor and health, and leisure life
-
한국어 음성지각의 분절단위로서 음절의 역할을 알아보기 위하여, 음절탐지 과제를 사용하는 실험을 실시하였다. 실험1에서는
${\ulcorner}$ 산악${\lrcorner}$ -${\ulcorner}$ 산간${\lrcorner}$ 과 같은 단어쌍을 대비시켰다. 전자의 음절구조는 CV-CVC이며, 후자의 음절구조는 CVC-CVC이다. CV표적음절 /사/를 찾아내는데 걸리는 시간은${\ulcorner}$ 산악${\lrcorner}$ 에서보다${\ulcorner}$ 산간${\lrcorner}$ 에서 길었다. 그러나 CVC표적음절 /산/을 찾아내는데 걸리는 시간에서는 차이가 없었다. 실험2에서는 비단어쌍으로${\ulcorner}$ 산욱${\lrcorner}$ -${\ulcorner}$ 산각${\lrcorner}$ 과 같은 것을 대비시켰다. 표적음절이 /사/인 경우는${\ulcorner}$ 산욱${\lrcorner}$ 에서 반응시간이 짧았고, 표적음절이 /산/인 경우에는${\ulcorner}$ 산각${\lrcorner}$ 에서 반응시간이 짧았다. 본 실험에서 얻어진 결과는 다른 언어에서 얻어진 결과와 몇 가지 차이가 있었다. 이것을 설명하기 위해, 한국어의 음절의 특징과 음성지각에서의 음절의 역할에 대해 논의하였다. -
뜻 (sense)과 지시체의 구별을 근간으로 하는 프레게류 의미론에 의하면, 같은 지시체를 갖는 이름들의 인지적 의미는 서로 다를 수 있다. 그 반면, 프레게의 뜻을 어떤 이름의 지시체를 결정함에 있어 매개적인 역할을 하는 존재자라 보고 단호히 거부하는 소위 직접 지칭론자들은 문맥에 관계없이 같은 지시체를 갖는 이름들은 동일한 인지적 의미를 갖는다고 주장한다. 그러나 일단 뜻을 배척하고나면, 명제 태도 문맥에서 왜 같은 지시체를 갖는 이름들이 대치될 수 없는지를 설명하기가 어렵고, 따라서 명제 태도의 퍼즐들은 직접 지칭론의 아킬레스건이 되어 왔다. 최근 Zalta는 다소의 수정을 통해 프레게와 직접 지칭론자 양자의 중요한 통찰들을 희생하지 않으면서 양자의 관점을 종합하는 것이 가능하며, 실제로 자신의 해결책은 명제 태도의 퍼즐들을 훌륭하게 해결해 준다고 주장한다. 본 논문은 Zalta의 절충안을 비판적으로 검토함으로써 선결되어야 할 쟁점들을 부각시키고자 한다.
-
인지의 주체로서 마음을 연구하는 인지과학은 인간 마음이 가지고 있는 본성을 탐구하고 인간이 가지고 있는 정보전달체계(information processing system)를 밝힘으로써 미를 컴퓨터에 응용하려는 것이 그 목적 중의 하나이다. 이러한 맥락에서 인식론도 어떤 명제를 믿는 것이 정당성을 갖느냐, 다시 말해서, 어떤 명제를 믿어야 하느냐는 규범적 문제보다는 실제로 우리가 어떻게 믿음을 형성하고 있느냐는 서술적인 문제에 중점을 두는 자연주의적 인식론이 큰 세력을 얻게 되었다. 자연주의적 인식론의 대두와 함께, 그것이 규범적인 문제를 다루는 전통적인 인식론과 이떠한 관계가 있는가에 많은 철학자들이 관심을 표명하였다. 그 중 콰인(W. V. O. Quine)은 자연주의적 인식론이 전통적인 인식론을 대체해야 한다는 급진적인 주장을 하였으며, 콘블리쓰(Hilary Kornblith)는 전통적인 인식론과 자연주의적 인식론이 같은 목표를 향한 다른 방법론을 쓰는 것이므로 적어도 전통적인 인식론자들은 자연주의적 인식론의 영향을 받아야만 한다고 단언하였다. 본고에서는 이 두 사람의 논증을 살펴보고 전통적인 인식론과 자연주의적 인식론이 얼마나 밀접하게 연결되어 있는가를 검토해 보기로 하겠다.
-
인간은 사고하는 존재, 그리고 언어를 사용하는 존재라는 사실은 바로 인간이 지향적 주체라는 것을 보여주는 두가지 특징적 측면이다. 즉 심성내용과 의미는 지향적 대상의 두 축이라고 할 수 있다. 그런데 데이빗슨은 자비(charity) 혹은 합리성(rationality)이라는 동일한 원리에 기초하여 내용과 의미의 통일적 이론을 모색한 철학자이다. 이 논문에서는 데이빗슨의 내용과 의미의 이론을 반(反)데카르트적 관점으로 해석함으로써 데이빗슨 철학이 갖는 비트겐슈타인적 경향을 검토한다. 즉 데이빗슨의 내용과 의미론을 비트겐슈타인적 시각에서 조명하고 둘 사이에 어떤 연속성과 차이가 있는지를 논의함으로써, 데카르트 전통의 지향성 개념을 모색하는 새로운 지향성 개념을 모색하는 것이 이 논문의 목표이다.
-
한국어 정보처리를 효율적으로 수행하기 위해서는 단어의 검색시간을 최소화하여야 한다. 그러나 기존의 방법들은 단어의 삽입과 삭제가 불가능하거나 검색시간이 길다는 단점을 가지고 있다. 본 논문에서는 탐식시간을 최소화하기 위해서 이중 배열을 가지는 이중 트라이를 이용하여 음절 및 자소단위의 검색방법에 관하여 논의한다. 검색시간에 있어서는 음절단위의 방법이 자소단위의 방법보다 빠르지만 기억장소는 자소단위의 방법이 음절단위의 방법보다 효율적이다. 자소단위의 방법에서 하나의 트라이를 여러개로 분할하여 저장함으로써 기억장소를 절반으로 줄일 수 있어 기억장소를 보다 효율적으로 이용할 수 있다.
-
복합동사의 처리는 기계변역이나 자연어 이해 시스템의 질에 상당한 영향을 주기 때문에 복합동사의 정확한 분석과 처리는 중요하다. 기종의 형태소 분석에서는 복합동사에 대한 처리를 복합 동사를 구성하는 각 용언들에 대한 분석결과를 생성하여 주고 구문분석단계에서 문법규칙을 이용하여 처리함으로써 문법이 커지고 파싱테이블과 심볼테이블이 커져 메모리 효율이 저하되고 형태소 분석에서의 품사 모호성이 구문분석단계에 영향을 주어 구문구조 모호성을 야기하며 복합동사의 정확한 의미를 나타내기 어려운 문제를 가진다. 본 논문은 한국어의 복합동사를 형태소 분석단계에서 처리해 주고 여기에서 처리하기 힘든 복합동사는 사전과 구문분석단계 등의 모듈에서 처리하는 총괄적인 복합동사 처리방법을 제안한다.
-
한국어 문서중 신문이나 시사지, 법률관련문서, 경제학관련문서, 국문학관련문서와 같은 전문분야 문서에는 한글, 한자, 영어, 문장부호와 같은 기호들의 결합으로 이루어지면서 하나의 뜻으로 나타내는 "의미적 한 단어"가 많이 존재한다. 이러한 단어들은 이를 고려하지 못한 형태소 분석기의 분석률을 감소시키고, 오분석율을 증가시킨다. 본 논문은 "의미적 한 단어"의 유형과 분석과정에 따른 유형을 분류하였으며 그에 적합한 형태소 분석기법을 제시하였다. 유형 분류과 제사된 형태소 분석기법으로 구현된 형태소 분석기는 기존의 형태소 분석기보다 분석률이 증가되었으며 오분석률은 감소되었다.
-
Cognitive Spelling Therapist generates the candidates for correction of one-letter misspelling words, which correspond to over 80 % of the misspelling words. One-letter misspelling can be divided into four categories, and for each categories Cognitive Spelling Therapist copes them with seperate cognitive therapies. Each therapy is based on cognitive causes of misspelling: figural confusion, pronunciation confusion, and keyboard confusion. Cognitive Spelling Therapist generates three candidates for correction in average. After we tested the correctness of candidates with 185 misspelled words randomly sampled from two typist for two months, Cognitive Spell Therapist showed 97.5 % correction for substitution errors, while insertion, deletion, and transposition errors were perfectly corrected.
-
형태소 분석은 단위 형태소를 분리한 후에 변형이 일어난 형태소의 원형을 복원하고, 분리된 단위 형태소들로부터 단어 형성 규칙에 맞는 연속된 형태소들을 구하는 과정이다. 이러한 일련의 분석 과정은 독립적인 특성이 강하면서 각 모듈이 서로 밀접하게 연관되어 있으므로 Two-level 모델에서는 형태론적 변형뿐만 아니라 형태소 분리 문제를 통합 규칙으로 처리하고 있다. 그러나 한국어에 Two-level 모델을 적응해 보면 형태소 분리와 형태론적 변형이 복합되어 있어서 교착어의 특성과 관계되는 단어 유형을 분석할 때 비효율적인 요소가 발견된다. 따라서 본 논문에서는 교착어인 한국어의 형태소 분석시에 발생하는 문제점들을 해결하는데 적합한 방법론으로 다층 형태론(multi-level morphology)과 다단계 모델(multi-level model)을 제안한다.
-
한국어는 단어들 사이에 공백이 없는 미분절어이기 때문에, 한국어를 분석하기 위해서는 단어의 경계를 식별하는 분절이 선행되어야 한다. 분절은 쉽지 않은 과정이고 잘못된 분절은 구문분석, 의미 분석 단계에서 심각한 오류를 유발하기 때문에 형태소 분석의 중요한 작업중의 하나가 되어왔다. 기존의 한국어 분석 시스템들은 분절의 어려움으로 인하여 입력 문자열의 끝까지 읽은 후, 우에서 좌로 분석하는 two-pass 전략이나 단어들 사이에 공백을 삽입하여 처리하는 방법을 사용하였다. 또한 이 시스템들은 형태소 분석이 완결된 후, 파서에게 결과를 전달하는 순차적인 전략을 사용하였다. 본 논문은 영어의 분석과 같이 형태소 분석 동안에 파싱을 할 수 있는 one-pass 전략을 사용하여 한국어를 효율적으로 처리하는 모델을 제안한다. 이를 위해 형태소 분석 방법으로써 확장된 최장일치법을 제시하며, 위 방법에서 생성되는 문제점인 다중-범주 구를 처리하기 위하여 다중-경로 LR 파싱을 제시한다.
-
한국어로부터 자연스러운 영어 역어문장을 생성하기 위한 정보를 사전에 일관성있게 수록하는 방법을 제시하였다. 기계번역의 각 과정에서 필요한 정보는 가장 적당한 형태로 사전으로부터 제공되어야 하는 것이 일반적인 방법이다. 그러나 한국어는 어순의 부분적 자유성, 어미의 복잡한 활용규칙, 조사의 다양한 쓰임새로 인해 이러한 규칙들의 정보를 일관되게 사전에 수록하기가 어려운 실정이다. 본 논문에서는 한국어 문장과 역어 문장을 단어나 구 혹은 절등의 구성요소들의 다대다 매핑규칙을 찾고 이들 규칙을 적당한 형태로 사전에 수록하여야하는 어려움에서 벗어나 문장대 문장구조를 직접대응시켜 구구조단위로 분석된 형태의 부분 파서트리 형태의 트리구조를 역어와 함께 사전에 수록하므로써 사전정보를 손쉽게 구축, 유지하고자 하였다. 또 이들 정보를 추출해내는 알고리즘을 사용함으로써 주어진 한국어 문장에 대해 사전에 수록된 가장 자연스러운 형태의 역어문장을 생성할 수 있도록 하였다.
-
본 논문에서는 한국어 문장을 입력으로 받아 영어문장을 생성해 내는 한 영 기계번역 시스템에서 부사를 처리함으로써 더욱 자연스러운 역어생성을 꾀하였다 특히, 한국어보다 어순의 제약이 심한 영어를 처리함에 있어서 이들 부사의 위치 및 순서는 자연스러운 역어생성을 하기 위해서는 중요한 요소가 된다. 즉, 부사의 종류에 따라서 문장에서의 위치가 다르며, 한 문장내에서 2개 이상의 부사가 존재 할 때는 이를 부사의 순서를 정해 주어야 한다. 또한, 부사의 처리 없이는 이와 관련된 완료시제와 같은 관련 영역의 처리가 어렵다. 이러한 처리를 위해서, 한 영 기계번역 시스템의 목적에 알맞게 부사들의 특성을 조사하여 이들을 분류하였고, 이것을 기초로 하여 부사의 위치, 순서등의 처리를 하도록 하였다.
-
한국어와 중국어는 상이한 언어적 특성을 보이는 언어쌍으로, 기계번역 시스템을 개발하기 위한 접근 방식으로 중간언어 방식이 타당하다. 본 논문에서는 한-중 기계번역 시스템의 개발과 관련하여, 의미표현 구조로서의 중간언어에 대하여 논한다. 기존의 중간언어들을 비교, 분석하여 문제점을 파악하고 개선하며, 한국어의 특성을 반영함으로써 한-중 기계번역 시스템을 위한 중간언어를 제안한다. 본 논문을 통하여 국내적으로 미진한 중간언어 연구를 활성화하며, 더욱 효율적인 중간언어를 설계하기 위한 원형을 마련한다. 앞으로 의미 체계의 보완, 개선 등을 통하여, 본 논문에서 제안된 원형은 다언어 기계번역 시스템을 위한 중간언어로 확장, 개선될 것이다.
-
서로 다른 언어를 사용하는 사람들 사이에 언어의 장벽을 넘기 위한 수단으로 컴퓨터를 이용한 기계번역이 각광 받고 있다. 본 논문에서는 한일 기계번역 시스템에서 한국어로부터 일본어를 생성하는 과정에서 고려해야 할 사항에 관해 다룬다. 일본어는 한국어와 문법적 특성이 거의 유사하여 기계번역의 방법 가운데 직접 번역 방식이 선호되고 있다. 그러나 일본어의 한 술부내의 문법형태소들은 한국어와 비교해 볼 때, 상이한 점이 많아서 다른 부분에 비해 자연스러운 생성이 어렵다. 본 논문에서는 한일 기계번역에서 일본어의 생성시 발생하는 문제점들을 해결할 수 있는 방안을 제시한다.
-
영한 기계변역에서의 전치사구 처리는 자연어 처리의 중요한 연구과제 중 하나이다. 특히 전치사구의 격의미는 그에 대한 한국어 표현에 중요한 실마리가 된다. 본 논문은 영어의 전치사구에 대한 한국어 표현을 선택하기 위한 격의미 체계를 정의하고 그 격의미 체계를 실험한다. 이 격의미 체계는 전치사구에 대한 한국어의 격의미를 분별함으로 보다 좋은 한국어 격조사를 선택하게 해준다. 본 논문에서는 각 격의미의 구분을 위한 의미속성 집합도 정의한다. 이 의미속성 집합은 WordNet의 시소러스에서 제공한 상하위 관계와 변환표를 근거로 자동적으로 추출된다. 의미속성 집합의 자동획득은 격의미 체계의 표현과 기계변역의 성능 평가에 일반성을 부여한다. 격의미 체계와 의미속성 집합의 자동 획득은 영한 기계변역은 물론 한국어 생성과 자연어 처리에 중요한 기여를 할 것으로 보인다.
-
변환 방식의 기계 변역이란 변환 규칙을 사용하여 원시 언어의 중간 단계 표현으로부터 목적 언어의 중간 단계 표현을 구하는 것이다. 변환 방식에는 규칙을 사용하는 변환과 예문을 기반으로 하는 변환이 있다. 규칙을 사용하는 변환시스템은 시스템의 확장성에 문제가 있는 반면에 예문을 기반으로 하는 변환 시스템은 견고하고 시스템의 확장성이 좋으며, 특정 영역에 대한 변역에 매우 적합하다는 등의 장점을 가진다. 예문을 기반으로 하는 변환 시스템에서 예문의 표현은 문장 단위로 할 수도 있고, 혹은 구문 단위로 할 수도 있다. 예문을 문장 단위로 정의 할 경우에는 매우 다양한 형태의 문장들을 포함해야 하므로 예문의 갯수가 매우 많아지며, 그다지 견고하지 못하게 된다. 반면에 구문 단위를 예문으로 하는 경우는 응용성이 좋고 견고하지만, 부분적으로 변역된 여러 구문들을 결합해야 하는 문제가 있다. 이러한 결합 문제를 해결하기 위한 한-영 예문의 대응 함수를 정의하고, 이 결합 함수를 사용하여 정의한 예문을 통하여 호텔 영역에서의 한-영 변환을 하는 시스템을 구현하였다.
-
봉네트는 온라인 한글 필기 글씨 모델이다. 글씨를 자소와 연결획의 결합구조로 보고, 각 자소 및 연결획 모델을 은닉 마르코프 모델을 사용하여 구성한 후, 이들을 한글의 제자 원리에 따라 네트워크 구조로 설계한 모델이다. 본 논문에서는 모델간의 분별력 부족과 입력 정보의 취약등에 기인한 약점을 해결하기 위하여 구조적 인식 방법을 결합한 봉네트의 확장과, 연속 필기 글씨의 처리를 위한 순환 구조로의 확장등, 지난 일년 동안 수행되었던 실험 및 결과를 소개하고, 앞으로의 연구 방향을 논의하고자 한다.
-
본 논문에서는 글자 구분선 없이 자유로이 쓰여진 필기체 한글의 인식 방안을 보인다. 즐단위의 한글 입력 영상에서 글자의 골격선을 추출하는 새로운 방법과 골격선들 간의 접촉점과 끝점을 그래프의 노드로 표현하고, 획은 그래프의 가지로 표현하는 방안을 보인다. 한글의 글자 구성 원리는 모음을 중심으로 모아쓰므로, 그래프로 표현된 즐단위의 한글에서 모음의 시작위치 및 속성을 가지는 로드로부터 한글의 모음을 가장 먼저 유도하여 인식하고, 우측 글자 및 자소끼리의 접촉을 분리하여 초성 자음 및 종성 자음을 인식하여, 좌에서 우의 방향으로 한 문자씩 인식해 나간다. 본 논문에서의 자유로이 필기된 한글의 인식 실험은 우리나라의 주소 50개를 서로 다른 25인이 필기한 영상 데이터를 사용하였고 한글 문자의 인식율은 89%이다.
-
문서 인식 시스템의 성능을 저하시키는 가장 큰 원인 중의 하나로 문자 분할 오류를 들 수 있는데 보다 우수한 성능의 문서 인식 시스템 개발을 위해서는 정확한 문자 분할 방법이 절실히 요구된다. 기존의 문자 분할에 관한 연구들은 이진 영상을 대상으로 함으로써 접촉되거나 겹치는 문자의 경계 부분에서 문자 분할에 유용한 정보들을 잃어 문자 분할 오류를 초래할 수 있다. 하지만 명도 영상을 분석해 보면 문자의 접촉 부분에서 주로 나타나는 지형적 특징이 있으며, 문자 경계에서 명도값이 변하는 것을 관찰할 수 있는데 이와같은 명도 영상의 정보를 사용하면 보다 효과적으로 문자를 분할할 수 있을 것으로 판단된다. 본 연구에서는 이러한 점에 착안하여 명도 영상으로부터 지형적 특징을 추출하고 다단계 그래프 탐색 방법을 이용하여 명도값을 추적함으로써 비선형 문자 경계를 찾는 새로운 문자 분할 방법을 제안한다. 제안된 방법은 명도 문자열 영상을 입력으로 받아 명도 영상의 투영값과 명도 영상으로부터 추출된 지형적 특성을 이용하여 문자 분할 영역을 결정하고 문자 분할 영역내에서 다단계 그래프 탐색에 의한 비선형 문자 분할 경로를 찾는다. 그리고 문자 인식기와 결항하여 최종 문자 분할 위치를 확정하는 인식 결과를 이용한 문자 분할을 수행함으로써 문자 분할 위치 및 문자 인식 결과를 확정한다. 다양한 문서에 대한 실험 결과 제안된 방법이 이진 정보만을 사용하는 방법보다 접촉 혹은 겹친 문자 분할에 매우 효과적임을 알 수 있었다.
-
한글 전자사전은 많은 양의 데이타를 저장할 수 있어야 하며, 빠른 검색 속도를 제공해야 한다. 기존의 트라이는 공통접두사만을 압축하기 때문에 사전의 크기가 방대하다는 단점이 있다. 본 논문에서는 DAWG(Directed Acyclic Word Graph)를 이용하여 공통접미사까지 압축하였고, 검색과 기억장소의 효율을 위하여, 링크드리스트 구조의 DAWG를 유형별 배열 구조로 바꾸었다. 전국의 각 학교 이름들을 대상으로 실험한 결과, 본 논문에서 제안한 DAWG를 이용한 배열 구조의 사전은 트라이와 비교하여 볼 때, 검색 연산의 성능은 동일하게 유지하면서 기억 장소의 효율과 압축율에서 효과적이었다. 또한, 트라이보다 주기억장치와 보조기억장치와의 블록 입출력횟수를 줄임으로써 전체 검색 시간을 낮출 수 있었다.
-
지금까지의 후처리기법은 문장의 의미 정보를 사용하지 않고 대부분 단어만을 생각하기 때문에 잘못 쓰여지거나 인식된 단어라도 사전에 있으면 그대로 받아들이게 된다. 따라서 본 논문에서는 단어로서 구성이 되지 않는 문자열 뿐만 아니라 의미적으로 잘못 사용된 단어까지도 교정해 줄 수 있는 후처리기법을 제시한다. 제시되는 후처리기법은 문장의 의미론 개념그래프로 표현하여 문장에 쓰여진 각 단어가 문장 내에서 의미적으로 유용한지를 밝혀 낼 수 있도록 한다.
-
한글 글꼴을 새롭게 만들려면 지금까지는 기본 글자인 자소를 디자인하든지 아니면 완성된 글자 전체를 디자인해야 했다. 조합형의 글자디자인의 경우, 전체 글자가 아니라 부분적인 한글 전자사전은 많은 양의 데이타를 저장할 수 있어야 하며, 빠른 검색 속도를 제공해야 한다. 기존의 트라이는 공통접두사만을 압축하기 때문에 사전의 크기가 방대하다는 단점이 있다. 본 논문에서는 DAWG(Directed Acyclic Word Graph)를 이용하여 공통접미사까지 압축하였고, 검색과 기억장소의 효율을 위하여, 링크드리스트 구조의 DAWG를 유형별 배열 구조로 바꾸었다. 전국의 각 학교 이름들을 대상으로 실험한 결과, 본 논문에서 제안한 DAWG를 이용한 배열 구조의 사전은 트라이와 비교하여 볼 때, 검색 연산의 성능은 동일하게 유지하면서 기억 장소의 효율과 압축율에서 효과적이었다. 또한, 트라이보다 주기억장치와 보조기억장치와의 블록 입출력횟수를 줄임으로써 전체 검색 시간을 낮출 수 있었다.소를 디자인하기 때문에 전체 글자의 모양이 좋지 않다는 단점이 있었고 완성형의 경우 완성된 글자 전체를 모두 디자인해야하는 단점이 있었다. 본 논문에서는 한글 글꼴 개발의 한 방법으로 제한된 글자의 디자인에 의한 전체 글꼴 생성에 관한 한 방법을 제시한다. 이 방법은 표준으로 설정된 몇 글자를 디자인하면 그 글자를 분석하여 자소들을 위한 글꼴 화일이 만들어지고 자소 글꼴 화일로부터 다른 모든 글자를 만들어 낸다.
-
본 한글꼴은 음절 및 음소의 가시성을 높이고자 한글 음소의 이중 가로선형 배열을 통한 밀도 분산형 한글꼴과 음소 나열형 한글꼴 등의 새로운 한글꼴의 다양한 표현의 실험 연구이다. 일도 분산형 한글꼴은 새로운 음소형 한글코드(닿소리, 홑소리, 받침 조합형)와 서로 대응하드록 일원화 한글꼴로 한글 및 옛 한글의 음소 조합형의 입.출력이 가능하다. 이러한 시도는 1바이트 이내에서 현대한글 및 옛한글을 구현하며, 이는 한글의 구현원리에 따른 음소형 코드체계의 실현 가능성으로 한글 코드체계의 최적화에 대한 새로운 가설을 제시 한다.
-
개인용 컴퓨터의 확산과 함께 사용자 인터페이스도 많은 발전을 하여 비데오 디스플레이의 경우 다양한 서체의 글자에 대한 지원이 필요하게 되었다. 한편 비데오 디스플레이의 경우 사용자의 입력에 대하여 빠른 응답으로써 표현되어야 하므로 복잡한 계산 과정을 갖지 않는 폰트를 이용하여야 한다. 여러 가지 종류의 폰트중에서 이에 적합한 폰트는 비트 맵 폰트이나, 비트 맵 폰트는 그 특성상 모든 종류의 서체에 대하여 각각의 데이타를 따로 가지고 있어야 하므로 저장 매체의 용량이 많이 필요하다. 그러므로 이에 대하여 비트 맵 폰트를 압축하여 저장한 다음 사용시에 하드웨어에 의하여 빠르게 복원함으로써 사용자의 입력에 대하여 빠른 응답으로 대처하는 방법에 대한 연구가 이루어지고 있다. 본 논문에서는 간단한 하드웨어를 이용하여 압축 이전에 폰트를 전처리함으로써 기존의 압축을 개선하기 위한 전처리 방법을 제안한다.
-
한글의 신속하고 정확한 정보전달 기능을 유지 발전 시킴과 동시에, 정보 전달의 목적 및 효율성을 높이기 위하여, 인간심리에 직접 영향 미치는 시각적 이미지를 지니는 조형적 문자의 서체 및 기능 개발에 필요한 현행 한글서체들의 시각적 이미지에 대한 분석적 연구를 시도하였다. "한글의 시각적 이미지 다양화에 관한 연구" 에서의 네모틀 고수형의 한글 이미지 연구에 이어 금번에는 컴퓨터에서 지원 사용되는 탈네모꼴의 한글 12종을 제목용과 본문용으로 나누고 각각 그 굵기에 따른 이미지를 표본조사 및 수치분류적 기법에 의한 이미지 특성을 분석하였다. 연구결과, 한글 탈내모꼴 서체는 크게 3개의 그룹으로 구분되며, 전반적으로 그 이미지의 강도에 있어 약한것으로 나타났으며, 각 서체의 제목용및 본문용의 각각의 굵기에 해당하는 이미지가 동일한 것으로 나타나 안정된 이미지를 보유하는 서체로는 스케치체와로 나타났다. 이 같은 한글서체의 이미지 분류 연구는, 한글서체 개발이 수치적 분석에 의하여 방향정립 및 높은 예측성을 지닐 수 있으며, 목적지향적인 폰트개발 및 균형있는 서체운용 체계의 운용에 의하여 극대화될 수 있다.
-
이 글에서 살펴본 바는 다음과 같다. 1) ISO 10646-1 한글 부호계의 운용 방안은, 앞으로 얼마동안은 2,350 완성형 소리마디를 쓸 수도 있겠지만, 길게 보아서는 첫가끝 부호계 238 글자로 통일하는 것이 바람직하다고 본다. 2) ISO 2022 틀을 따르면서 한글을 완벽하계 지원하는 한 바이트 한글 부호계를 개발하여, 국제 등록부 (International Register) 에 등록하여, Escape Sequence을 받아서, ISO 2022 를 따르는 분야에서 쓸 수 있도록 하여야하겠다. 3) ISO 10646-1 을 개정하여 4,516 소리마디를 넣자는 안은, 완성형으로만 한글을 지원하게 되어 바람직하지 않다고 본다. 모아쓰기 글자를 지원하는 세계 추세가 조합방식이므로, 10646-1 을 현재대로 두고, 첫가끝 방식의 238 글자를 쓰는 것이 바람직하다고 본다. 4) 10646-1 을 재대로 지원할 수 있는 세벌식 자판을 정부의 복수 표준으로 채택할 것을 제안한다.
-
본 연구에서는 한글의 단어내 자모수별 단어내 자모간 타건간격을 알아보고, 음절과 종성의 지각, 한손연타가 타건간 간격에 영향을 주는지를 알아보았다. 실험절차로, 피험자에게 단어들을 타자하게 하고, 각 단어들의 타건간 간격을 분석하였다. 실험결과, 음절과 종성의지각, 한손연타가 타건간 간격에 일정한 영향을 주었다.
-
본 연구에서는 한글 타자 행동에서 자극-반응 합치도 효과가 나타나는 지를 알아보았다. 타자에 생소한 남녀 피험자 40명을 자극-반응 합치도가 높은 조건과 낮은 조건의 자판으로 20명씩 나누어 배치하였고 반응 시간을 측정하였다. 한글 타자 행동에서 자극-반응 합치도 효과는 세로 모음이 있는 철자에서 반응 개시 시간에 나타났다. 이는 한글 전사 타자 행동에서 글자 자극부호를 운동 부호로 전환하는 단계에서 자극-반응 합치도 효과가 영향을 미치고 있음을 나타내는 것이다.
-
본 논문에서는 글자 단위를 기본으로 하는 한글 검색 기능을 구현할 때 적용될 수 있는 검색유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 먼저 살펴보고, 검색 알고리즘에 적용시켜 본다. 이 때 부호계와의 연관성과 효율성을 따져보기 위해서 두 바이트 상용조합형, 두 바이트 KS C 5601 완성형, n-바이트 (3 바이트) 부호계, 그리고 국제 표준 한글 부호계의 첫-가-끝 부호계 등 여러가지 부호계를 사용할 때를 서로 비교해 본다. 각 부호계를 사용할 때 알고리즘이 조금씩 바뀌게된다. 그 변형을 살펴보면 그 효율을 측정할 수 있는데, 한글 글자단위 검색 등의 유형의 작업에서는 조합방식의 부호계를 사용하면 더욱 편리하다는 것을 알 수 있다. 이는 단순히 한글 글자단위 검색 기능에서 유리하다고 하기보다는 한글의 특성을 더 잘 반영하고 있다고 할 수 있는 것이다. 또한 조합방식의 부호체계 중에서도 별도의 연산값이 소리마디에서 글자를 분리해 낼 수 있는 부호계 (3-바이트 부호계, 첫-가-끝 부호계) 의 경우는 글자를 기본 단위로 처리하고자 하는 응용 분야에서 더욱 편리하게 사용될 수 있다.
-
훈민정음 해례에 따르면 한글문자는 음소 및 음절 문자 특성을 가지고 있다. 이러한 특성들을 컴퓨터 시스템에서 구현함에 있어서 야기되어 왔던 각종 문제를 분석한 다음 이들 문제들에 대하여 한글문자의 특성을 제약함이 없이 컴퓨터에 대한 기술을 개발함으로써 해결책을 모색한다. 본 논문은 훈민정음 해례에서 밝힌 한글 문자의 음소 및 음절 문자 특성에 따라서 기존의 코드 체계를 평가하며, 그리고 이들에 대한 구현 방안을 제시하고자 한다. 또한 이러한 특성을 반영한 한글 입출력들인 '셔블'을 개발하고 이에 대한 검증을 시도하였다.
-
코퍼스는 기계 가독형으로 개장되어 있는 실제 사용 언어의 집합으로 자연어 처리에 필요한 여러 가지 언어 정보를 내재하고 있다. 이들 정보는 코퍼스 분석기를 이용하여 획득할 수 있으며 용례와 각종 통계 정보 및 확률 정보, 연어 목록 등은 코퍼스에서 추출할 수 있는 대표적인 언어 정보들이다. 그러나 기존의 한국어 코퍼스 분석 도구들은 용례 추출 기능만을 보유하여 활용 범위가 제한되어 있었다. 이에 본 논문에서는 대량의 한국어 코퍼스를 분석하여 용례뿐만 아니라 자연어 처리의 제분야에서 필요한 언어 정보들을 추출하는 방법에 대해 연구하였으며 이의 검증을 위해 KCAT(Korean Corpus Analysis Tool)를 구현하였다. KCAT는 코퍼스 색인, 용례 추출, 통계 정보 추출, 연어 추출 부분으로 구성되어 있다. 용례 색인을 위해서는 여러 가지 사전과 용례 색인 구조가 필요한데 KCAT에서는 가변 차수 B-Tree 구조를 이용하여 사전을 구성하며 용례 색인을 위해 버킷 단위의 역 화일 구조를 이용한다. 질 좋은 용례의 추출을 위해 KCAT는 다양한 용례 연산 및 정렬 기능을 제공한다. 또한 통계적 방법의 자연어 처리 분야를 위해 어휘 확률, 상태 전이 확률, 관측 심볼 확률, 상호 정보, T-score 등을 제공하며, 기계 번역 분야에서 필요한 연어를 추출한다.
-
품사 태깅은 코퍼스에 정확한 품사 정보를 첨가하는 작업이다. 많은 단어는 하나 이상의 품사를 갖는 중의성이 있으며, 품사 태깅은 지역적 문맥을 이용하여 품사 중의성을 해결한다. 한국어에서 품사 중의성은 다양한 원인에 의해서 발생한다. 일반적으로 동형 이품사 형태소에 의해 발생되는 품사 중의성은 문맥 확률과 어휘 확률에 의해 해결될 수 있지만, 이형 동품사 형태소에 의해 발생되는 품사 중의성은 상호 정보나 의미 정보가 있어야만 해결될 수 있다. 그리나, 기존의 한국어 품사 태깅 방법은 문맥 확률과 어휘 확률만을 이용하여 모든 품사 중의성을 해결하려 하였다. 본 논문은 어절 태깅 단계에서는 중의성을 최소화하고, 형태소 태깅 단계에서는 최소화된 중의성 중에서 하나를 결정하는 두단계 태깅 방법을 제시한다. 제안된 어절 태깅 방법은 단순화된 어절 태그를 이용하므로 품사 집합에 독립적이면, 대량의 어절을 소량의 의사 부류에 사상하므로 통계 정보의 양이 적다. 또한, 은닉 마르코프 모델을 이용하므로 태깅되지 않은 원시 코퍼스로부터 학습이 가능하며, 적은 수의 파라메터와 Viterbi 알고리즘을 이용하므로 태깅 속도가 효율적이다.
-
본 연구에서는 인간과 컴퓨터 사이의 음성을 이용한 대화 시스템을 구현하였다. 특별히 음성을 인식하는데 있어서 단어추출(word apotting) 방법을 사용하는 경우에 알맞은 의미 분석 방법과 도표 형태의 규칙을 기반으로 하여 시스템의 응답을 생성하는 방법에 대하여 연구하였다. 단어추출 방법을 사용하여 음성을 인식하는 경우에는 형태소분석 및 구문분석의 과정을 이용하여 사용자의 발화 의도를 분석하기 어려우므로 새로운 의미분석 방법을 필요로 한다. 본 연구에서는 퍼지 관계를 사용하여 사용자의 발화 의도를 파악하는 새로운 의미분석 방법을 제안하였다. 그리고, 사용자의 발화 의도에 적절한 시스템의 응답을 만들고 응답의 내용을 효율적으로 관리하기 위한 방범으로 현재의 상태와 사용자의 의도에 따른 응답 규칙을 만들었다. 이 규칙은 도표의 형태로 구현되어 규칙의 갱신 및 확장을 편리하게 만들었다. 대화의 영역은 열차 예매에 관련된 예매, 취소, 문의 및 관광지 안내로 제안하였다. 음성의 오인식에 의한 오류에 적절히 대처하기 위해 시스템의 응답은 확인 및 수정 과정을 포함하고 있다. 본 시스템은 문자 입력과 음성 입력으로 각각 실험한 결과, 사용자는 시스템의 도움을 받아 자신이 의도하는 목적을 달성할 수 있었다.
-
한국어에 있어서 품사 태깅은 형태소 분석결과의 모호성을 제거하는 것으로, 기존의 방법을 보면, 확률을 이용하는 방법, 퍼지망을 이용하는 방법, 신경망을 이용하는 방법등 다양하다. 현재의 주류가 확률을 이용한 방법이다. 하지만, 이 방법은 제한된 윈도우 크기와 품사사이의 관계만을 이용한다는 한계점을 지니고 있다. 본 논문에서는 확률을 이용한 결과에, 확률에서 다루지 못하는 범위에 대하여 자동 학습된 규칙을 추가로 적용하여 이 한계점을 극복한다. 규칙 적용시 윈도우 크기를 임의로 정할 수 있고, 품사사이의 관계외에 어절사이의 관계도 고려할 수 있으므로 확률적 방법이 다루지 못하는 부분에 대하여 어휘단계에서의 교정이 가능하게 된다. 현재 20가지 정도의 규칙을 수작업 코딩하여 사용한 결과 확률적 방법의 성능을 3% 정도 향상시킬 수 있었으며, 앞으로 규칙생성을 자동학습할 경우 더 큰 성능향상을 기대해 볼 수 있다.
-
한국어 음성인식 결과의 형태소 분석은 한국어 문서의 분석보다 더 많은 문제점을 가지고 있다. 음성 인식의 낮은 인식률, 여러 개의 후보를 제시하는 경우의 지수적 가능성, 말하는 단위와 띄어쓰기 단위의 불일치, 형태소 안에서 그리고 형태소와 형태소 사이에서 일어나는 음운 변동등이 음성 인식 결과를 분석할 때 추가되는 문제점이다. 본 논문에서는 한 음소에 대해 여러 개의 후보를 제시하는 음성 인식 결과에 대하여, TRIE 인덱싱, 어절 간의 접속을 위한 확장된 접속 검사, 음운 변동을 고려한 사전구성, 음운 접속 정보를 사용하는 형태소 분석 방법을 제안한다.
-
본 연구에서는 중사전 규모의 현대국어사전에서 약 5,000 개의 표제항목의 뜻풀이 8,000여 항에 사용된 어휘를 분석한 결과를 제시하였다. 분석 결과 명사류의 의미구조에서 최상위계층에 속하는 것들이 사전의 뜻풀이에 자주 사용됨을 확인할 수 있었고, 아울러 뜻풀이에 사용되는 단어들이 어느 정도 통제된 상태임을 알 수 있었다. 그러나 표제항목과 뜻풀이에 사용된 단어들 사이의 관계만을 바탕으로 해서는 의미망을 구축하기 어려웠는데, 그것은 국어사전에서의 뜻풀이가 지니고 있는 구조적 문제에서 기인하는 것이다. 즉 일부 한자어의 경우에는 명사로 정의되지 않으며, 그 결과 표제명사와 뜻풀이에 사용된 명사 사이의 관계를 바탕으로 한 의미망의 구축에 포함되지 않는 것이다. 또한 순환적 뜻풀이의 경우 역시 의미망 구축에 장애요소로 작용함을 밝혔다.
-
이 글은 그 동안 '숙어' 또는 '관용어'라는 이름 하에 별 다른 구별 없이 일괄적으로 다루어져 왔던 현대 국어 관용구를 그의 형태적 통사적 의미론적 결합 관계의 특성에 따라 재분류하여 그들의 특성과 하위 분류 등을 밝혀 보았다. 즉, 관용구를 그 내적구조의 특성, 구성요소들 사이의 의미상의 관련성의 긴밀도, 어휘와의 정도에 따라, 어휘화된 정도가 가장 높고 긴밀도에 있어서도 가장 높고 내적구성에 있어서도 여러 가지 특성을 보이는 것을 '숙어'라 하고, 그 이외의 것을 '연어'라 했다. '연어'가 생겨난 요인에 따라 '형태적 연어'와 '통사적 연어', '의미적 연어'로 나누었다. 이러한 분류는 국어 관용구의 특성을 밝혀 줄 수 있을 뿐만 아니라, 이에 더 나아가 각 관용구의 특성에 따른 올바른 기술을 통해 국어의 특수한 어휘 결합에 대한 보다 나은 이해를 꾀할 수 있다고 본다.
-
언어처리에 통계 확률적인 방법이 도입되면서 현실적으로 상당한 진전이 있었지만 한국어의 경우에는 대부분 형태소 해석과 품사 태깅에 그치고 있다. 본 논문에서는 구문분석 수준에서의 통계적인 한국어 분석에 쓰일 자료 구축으로서의 구문 태깅의 방법론과 그 자동화에 대해 보고한다.
-
본 논문은 한글 문헌의 자동 키워드 추출을 위한 새로운 접근 기법을 제시한다. 한글에서 나타나는 형식형태소는 어절내에서 일정한 결합규칙을 가지며 또한 명사구나 동사구에서 보여지는 것처럼 어절간의 연결에도 관계된다. 유한개의 형식형태소를 노드로 하여 구성된 형태소 네트???p은 어휘사전 및 문헌을 통해 링크를 생성하게 되며 형태소분석과정에서 이를 이용하면 명사 추출의 정확성을 높일 수 있고 사전 탐색을 최소화하여 미등록어 추정 및 분석 속도를 향상시킬 수 있다.
-
정보 검색 시스템의 정확성은 색인어의 정확성과 질의 해석의 정확성에 의존한다. 한국어 정보 검색분야에서는 한국어의 특성을 고려하는 것이 무엇보다 중요하다. 한국어의 문서 색인과 질의 해석시 야기되는 어의 모호성(word sense ambiguity)을 가지는 단어에 대해서는 어의 모호성을 해소한 정확한 색인과 질의 해석이 전제되어야 정확한 문서를 검색해낼 수 있다. 본 논문은 한국어 문서 색인시 동음이의어(homonym)에 의해 발생하는 어의 모호성을 해소하기 위한 방안에 대해 다루고 있으며 의미적 관련 정보를 이용할 것을 제안하고 타당성을 보이는 실험 결과를 제시한다.
-
본 논문에서는 한글 문서 검색 시스템에서 자연어 질의어로 검색할경우, 질의어를 주제어와 참조어로 나누어 재구성하여 검색하는 방법을 제시하였다. 먼저 주제어로 전문검색을 하여 후보 카드들을 추출한 후 비주제어로 다시 본문 탐색을 하여 추출된 카드의 가중치를 재조정함으로써 카드추출의 정확성을 높였다. 이 논문에 제시된 방법의 실험은 한국전자통신연구소 언어정보연구실에서 개발한 멀티미디어 전자 백과 사전의 자연어 검색모듈에서 행하여 졌다. 이 방법으로 별다른 검색속도의 저하나, 저장공간의 추가가 없이 기존의 검색 방법에서보다 약 58%정도의 검색의 정확성이 올라갔다. 본 논문에서 제시한 검색의 방법은 여러가지 응용의 자연어 인터페이스에서 데이타를 검색하는 정보검색의 분야에 적용되어 정확성을 높일 수 있을 것이다.
-
정보검색분야의 여러 기술들을 연구하고 이 결과들을 실험 평가하기 위해서는 모든 연구자들이 공동으로 사용할 수 있는 시험용 데이터 모음(Test Data Collection)이 필요하다. 외국에서는 이미 오래전부터 각 분야별 시험용 데이터 모음들을 준비하여 검색시스팀의 개발 및 객관적인 성능평가에 이용하여 왔는데 국내에서는 아직까지 이러한 시험용 데이터 모음이 개발되지 못한 실정이다. 본 연구는 한국어 정보검색 기술연구 활성화에 기여하기 위하여 한국어정보검색 기술 연구결과의 성능평가에 공동으로 활용할 수 있는 국내 최초의 시험용 데이터 모음인 KTSET을 개발하였다. KTSET은 정보과학회와 정보관리학회지의 논문지 및 학술대회 논문집으로부터 추출된 1,053개의 논문과 이를 검색대상으로 한 50개의 자연어질의어로 구성되었으며 대상문서들과 질의어 각각에 대한 색인결과와 질의어와 대상문서들간의 적합도 정보를 제공한다.
-
말뭉치에 품사를 부여하는 일은 언어연구의 중요한 기초가 된다. 형태소 해석의 모호한 결과로부터 한 가지 품사를 선정하는 작업을 태깅이라고 한다. 한국어에서 은닉 마르코프 모델 (Hidden Markov Model)을 이용한 태깅은 형태소 관계만 흑은 어절관계만을 이용한 방법이 있어 왔다. 본 논문에서는 어절관계와 형태소관계를 동시에 은닉 마르코프 모델에 반영하여 태깅의 정확도를 높인 모델을 제시한다. 제안된 방법은 품사의 변별력은 뛰어나지만 은닉 마르코프 모델의 노드의 수가 커짐으로써 형태소만을 고려한 방법보다 더 많은 학습데이타를 필요로 한다. 실험적으로 본 논문의 방법이 기존의 방법보다 높은 정확성을 가지고 있음이 검증되었다.
-
정보 검색의 효율은 정보검색 시스템에서 사용되는 지식의 질에 상당한 영향을 받는다. 이러한 지식 표현의 한 가지로 널리 사용되고 있는 것이 시소러스이다. 이러한 시소러스의 구축은 지식을 얼마만큼 잘 구성하는가에 있다. 따라서 시소러스의 자동 구축은 상당한 효용을 지니게 된다. 시소러스의 자동구축시에 대량의 말뭉치로부터 지식을 추출하는 방법론이 많이 연구되어 오고 있다. 그러나 이러한 방법은 단어의 통계적인 행태에 크게 의존하고 있기때문에 자료 회귀(data sparseness)의 문제가 큰 장에 요인이 되고 있다. 본 연구에서는 이러한 자료회귀문제를 해결하기 위해 추론망을 사용하고자 하는 모험을 제시하고자 한다.
-
본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이
$7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다. -
Hitel 과 같은 전자정보 시스템은 사용자가 원하는 정보를 체계적으로 얻을 수 있도록 하기 위하여 메뉴들을 적당히 계층적으로 구성하여 제공하고 있다. 그러나, 보통 이 메뉴들의 계층이 정확한 분류법에 기초하여 만들어지지 않았을 뿐 아니라 그 양도 엄청나게 방대하여, 이 메뉴 계층을 이용하여 사용자가 원하는 정보를 얻기가 쉽지 않다. 실험적으로 보통 Hitel을 자주 이용하는 사람들도 자신이 주로 이용하는 메뉴들의 구성만 이해하고 있을뿐, 사용하지 않는 부분의 메뉴들의 구성은 잘 알지 못하는 것이 일반적이었다. 따라서 Hitel을 자주 이용하는 사용자도 자신이 이용해 보지 않은 정보를 얻기 쉽지 않으며, 더더욱 초보자에게는 이 메뉴계층을 이용하여 원하는 정보를 얻기가 쉽지 않은 실정이다. 본 연구에서는 정보검색 기술을 이용하여 Hitel과 같은 전자정보 시스템에서 사용자가 쉽게 자신이 원하는 정보를 얻을 수 있는 보조 시스템을 개발하고자 한다. 본 시스템은 사용자가 메뉴계층을 이용하기 전에 간략한 자연어로 입력을 주면, 여기에 적합한 메뉴나 실제 정보를 검색해 낸다. 따라서 사용자는 이 메뉴정보를 이용하여 메뉴계층을 쉽게 따라갈 수 있을 뿐 아니라, 경우에 따라서는 원하는 실제 정보를 검색하기 때문에 메뉴계층을 탐색할 필요가 없다. 본 연구에서는 자연어 입력을 최장 일치 방법으로 의미있는 명사들을 추출하여 불리한 질의어로 만든 후, 명사들 사이의 관계가 표현된 시소러스를 이용하여 이 질의어를 확장시킨다. 다음에 이 질의어들을 메뉴들과 부분/정확부합을 통하여 관련된 메뉴들을 찾아낸 후, 이들의 계층과제를 고려하여 최종 메뉴들을 검색한다. 본 시스템은 현재 C언어로 만들어져 구동중이며, 정확한 실험은 아직 하지 않았지만 높은 검색율을 보이고 있다. industrialized, was improved by introducing pressure in cooling procedure for both carbon and iron thermistors.er>
$CHCl_3$ >Hexane층 순으로 높은 활성을 나타냈다. 5. 아질산염소거능은 끝순, 들깨잎, 콩나물이 우수하였고 그중 들깨잎이 저해율 72%로 가장 높았으며, 용매분획 중에는 BuOH과 water추출물의 활성이 가장 높았다. 6. ACE 저해 효과는 고구마 부위별로는 끝순이 괴근에 비하여 1.5배 높았고, 들깨잎, 콩나물, 시금치보다$1.9{\sim}3.7$ 배 높았다. 용매분획별로는 EtOAc, BuOH, water 추출물이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS- -
문법체계내의 문법규칙은 규칙의 기술양식에 의해 언어특성이 결정된다. 본 논문에서는 문법 체계의 규칙기술을 위한 새로운 자질 집합 기술 (feature set description)을 제안하고, 이를 기반으로 한 파라메터화된 문맥자유문법 (parametrized context-free grammar : PCFG)을 정의하여, 자연언어의 문법규칙을 구성하는 방법에 대하여 기술한다. 자질 집합 기술은 간결한 규칙체계를 유지하면서 강력한 생성능력을 갖는 문법체계를 구현할 수 있어, 자연언어 처리 시스템에 효과적으로 적용할 수 있음을 보였다.
-
본 논문에서는 트리의 점증적인 합성에 의하여 파싱을 진행시켜 나가는 파싱 방법을 소개하며 이의 한국어 파싱에의 응용을 살펴 본다. 이와 같은 트리 합성 파싱(tree combining parsing)을 지원하기 위한 문법인 트리 합성 문법(Tree Combining Grammar)을 소개한다. 우리는 먼저 문맥 자유 문법을 작성한 후 이로부터 자동적인 변환에 의하여 트리 합성 문법을 얻는 과정을 취한다. 따라서 트리 합성 파싱은 일종의 문맥 자유 파싱(context-free parsing)으로 볼 수 있으나 점증성(incremental), 하향성(top-down), 상향성(bottom-up), 유연성(flexible) 등과 같은 장점을 갖고 있다. 트리 합성 파싱의 유연성을 기반으로 하여 부분 자유 어순, 중심어 후행성과 같은 특성을 가진 한국어를 효과적으로 파싱할 수 있도록 트리 합성 파싱을 확장하는 방법을 살펴본다.
-
자연어 생성 시스템은 기계 변역이나 대화 시스템 등 여러 시스템의 인터페이스로 중요한 역할을 한다. 자연어 생성 시스템을 효율적으로 구축하고, 확장을 용이하게 하기 위해서는 해당언어의 생성에 필요한 정보를 효과적으로 표현할 수 있는 규칙 표현법이 필요하다. 본 논문은 한국어 생성에서 사용하는 격틀과 격틀 이외의 여러 정보를 표현할 수 있는 표현법을 제안하였다. 그리고 제안한 규칙을 수행하기 위해서 Shieber의 semantic-head-driven-generation방식[4]을 변형한 엔진을 구현하였다.
-
본 논문은 PC 환경에서 한국어 문장구조를 분석할 수 있는 분석 기법을 제시한다. 상대적으로 어순이 자유로운 언어인 한국어의 특성에 중점을 두어, 이를 효과적으로 처리할 수 있는 분식 기법으로 shift-reduce 알고리즘을 제시한다. shift-reduce 분석 기법은 구문론 및 의미론적 하위 범주화어 의한 분석을 효율적으로 실행할 수 있도록 해주며. bottom-up과 left-right에 의한 분석 과정을 보완하여 준다.
-
우리는 본 논문을 통하여 자연언어 처리 (NLP) 분야에서 가장 그 응용이 소홀했던 지배결속 이론 (Chomsky, 1981, 1982, 1986)중 대명사류(pronominals)의 해석과 관련된 결속이론의 응용을 시도해 보고자 한다. 이 논문에서 사용된 원리 및 개념은 결속 조건중 성분통어(c-command), 지시 지표 (indexation), 영역조건 (Binding Domain) 이다. 이러한 접근 방식은 한국어의 대명사류를 해석하려 할 때, 위의 세 개념들에 최소한의 수정을 가하면 가장 경제적으로 실행 가능하다는 점에서 그 가치가 높다고 생각된다.
-
이 논문에서는 적합성 이론(Relevance Theory)에 의해서 현대 한국어 접속어미, 특히 담화표지(discourse marker) '-니까'가 담화의 이해에 어떻게 기여하는가를 고찰하고자 한다. '-니까'는 이제까지 '-(으)니-'와 별 의미나 기능의 차이가 없는 것으로 간주되어 왔는데, 이는 기존의 연구가 주로 통사 의미론적인 관점에서 수행되어 온 데 기인한다. 그러나 '-니까'는 엄연히 '-(으)니-'와 별개로 존재하고 있고, 더욱이 통시적으로 '-(으)니-' 보다는 '-니까'가 나중에 나타났다는 점을 고려한다면, '-니까'는 '-(으)니-'에 없는 특정한 기능을 반드시 수행하리라는 추측이 가능하다. 따라서 이 논문에서는 기존의 통사 의미적인 관점이 아닌 인지 화용론적 관점에서 '-(으)니-'와 '-니까'에 대한 새로운 분석을 시도하고자 한다. 아울러 '-니까'를 포함하는 '그러니까'도 함께 살펴보려고 한다. '그러니까'는 담화상에서 그에 선행하는 모든 정보를 맥락적 배경지식으로 놓고, 후속되는 발화를 그에 대한 맥락 함축(contextual implication)으로 나타내는 화용론적 기능을 담당하는 담화 연결표현이라고 주장하고자 한다. 영어의 'so'가 'therefore', 'thus', 'hence' 등과 구별되고, 그 기준이 적합성 원리에 의해 설명될 수 있듯이, 우리말의 '그러니까' 역시 '그래서', '그러므로' '그러니' 등과 구별되며, 그 차이점이 적합성 원리로 설명될 수 있다는 점을 보일 것이다. 더 나아가서, 현대 한국어의 여타 접속어미에도 본고에서와 같은 새로운 관점 또는 이론의 틀로써 잘 설명될 수 있는 현상이 존재하는지의 여부를 폭넓고 정밀하게 분석 연구하는 일이 요구된다는 점을 나타내고자 한다.편 어류에 함유된 유기주석화합물의 비율을 볼 때, BT 화합물의 경우 MBT 비율이 높게 나타난 반면 PT 화합물에서는 TPT 비율이 높게 나타났다. 전체적으로 볼 때 구룡포항에서 수획한 어패류의 유기주석화합물 농도는 국내 다른 항구의 어패류보다 높지 않은 것으로 나타났다.${\lrcorner}$ 내는 경우가 더 많았으며(75.4%), 남 여 대학생간 에는 고도로 통계적 유의성(p<0.001)이 인정되었다. 4. 음식선택 배경은
${\ulcorner}$ 자신${\lrcorner}$ 이 결정하는 경우가 가장 많았고(52.1%), 선호하는 음식은 치킨, 햄버거, 피자 순이었으며, 남 여 대학생간에는 고도로 통계적 유의차(p<0.001)가 있었다. 즐기는 음료로는${\ulcorner}$ 콜라${\lrcorner}$ 가 가장 많았으며(46.8%), 그 다음은 사이다, 주스 등의 순으로 나타났으나, 남 여 대학생간에는 유의성있는 차이는 없었다. 음식의 먹는 시기는 점심과 저녁사이의${\ulcorner}$ 간식${\lrcorner}$ 이 가장 많았으며(42.2%), 남 여 대학생간에는 유의한 차이는 없었다. 패스트푸드는 많은 사람들이${\ulcorner}$ 맛${\lrcorner}$ 이 좋기 때문에 이용하며(62.8%), 남 여 대학생간에는 통계적 유의성(p<0.05)이 인정되었다. 5.${\ulcorner}$ 입맛의 서구화(36.4%)와 외식을 선호(29.1%)${\lrcorner}$ 하기 때문에 패스트푸드를 이용하게 된 것으로 응답 하였으며, 남 여 대학생 -
자동 프로그램이란 인간이 프로그램 언어를 습득하는데 드는 노력과 시간을 감소시키고 프로그램하는 과정의 일부나 전부를 컴퓨터가 대신하도록 하여 프로그램 환경을 개선하고 유지, 보수의 비용을 줄이는데 그 목적이 있으며, 자동 프로그램 4대 구성 요소중 프로그램 명세서를 초고급언어나 예제에 의한 방법 또는 트레이스(Trace)로 기술하는 것이 일반적이다. 그러나 이 방법은 전문가가 아니면 이해하기 어렵고, 불량이 많은 작성하기 어려운 문제점이 있다. 본 논문에서는 이런 단점을 개선하기 위해서 일반 사용자가 접하기 쉽고, 이해하기 용이한 자연어 문장으로 명세서를 작성한다. 그러나 자연어에는 많은 애매성이 존재하는데 이것을 방지하기 위해 사용자에게 미리 자연어 프로그램 틀을 제시한다. 자연어 문장으로 작성된 명세서는 형태소 분석과 구문 분석에 의해 처리되며, 구문 분석시 복합문과 내포문은 단문으로 분리한 다음, 동사를 중심으로한 격 프레임(case frame)를 만들며, 이것을 바탕으로 중간언어를 생성하는 방법을 제안한다.
-
고속 통신망의 발달은 CSCW의 연구를 초래했다. 본 연구에서는 CSCW를 위한 다중 사용자용 인터페이스를 지원하는 한글 에이전트 설계에 대하여 설명한다. 본 연구의 다중 사용자용 인터페이스는 우리 글인 "한글" 사용자의 개념적 모델과 객체지향 프로그래밍 언어에 의하여 지원 받는 구조 사이에서의 동질 구조를 갖도록 한다. 즉, 한글 에이전트는 인터페이스를 공유할 수 있도록 하여 모든 데이타를 개념적 모델에 의한 객체로 동시, 공유 처리한다. 본 연구의 한글 에이전트는 객체지향 방법으로 설계되어 인간의 개념 모델에 더욱 가까운 공동작업 환경을 제시함으로써, 원격지 회의, 실시간 강의 시스템 등에 응용된다.
-
기존 철자 검사/교정기들은 한 어절을 구성하는 형태소들의 품사 정도만을 이용하고 있다. 때문에 철자 검사나 교정의 정확도 면에서 한계를 가진다. 본 논문에서는 한국어의 구문적 연관 관계 및 구문 내에 존재하는 단어들 간의 의미적 연관관계 등을 바탕으로 오류 유형을 추정하는 오류 유형 추정 함수를 제안하고, 이를 이용한 철자 교정기를 구현하였다. 본 논문에서 구현한 오류 유형 추정 함수를 이용한 철자 검사/교정기는 한 어절에 국한되었던 철자 검사/교정의 범위를 여러 어절로 확장하고자 하는 시도의 시발이라 할 수 있다. 따라서 구문 검사 및 의미 검사를 수행하는 문체 검사기의 원형으로서 그 의의를 가진다.
-
기존의 문서 시스템은 문서의 논리적인 정보와 문서의 외양에 관련된 처리정보들이 확연히 구분되지 않음으로써 서로 다른 시스템간의 문서 교환시 정보의 손실을 가져올 뿐 아니라, 문서의 저장방식에서도 순차 화일 구조를 갖기 때문에 문서의 논리적 요소에 대한 대화식 검색이 불가능하다. 이러한 단점을 극복하고자 문서의 논리적 구조 및 내용을 중심으로 작성 가능한 표준 메타 언어인 SGML이 제정되었으며, 본 연구에서는 SGML 문서를 인식하고 해석하기 위한 SGML파서와 문서의 논리적 구조를 반영하는 저장구조 및 이를 이용한 브라우저를 구현하였다.
-
국어 철자 검색 프로그램 세 개의 검색 능력을 비교하였다. 오류가 없는 파일, 타자시의 전형적인 오류를 포함하는 파일(자소별 오류율 1%), 그리고 광학적 문자인식 프로그램의 전형적인 오류를 포함하는 파일(자소별 오류율
$2.7{\sim}2.9%$ ) 등에 대하여 한글과 컴퓨터, 한국 마이크로소프트, 핸디 소프트의 워드프로세서에 도구로 포함된 철자검색 프로그램을 수행하였다. 이 세 프로그램 중에서 한글과 컴퓨터의 제품은 정방향 오판율과 오류율 낮은 파일에 대한 역방향 오판율이 낮았고 핸디 소프트의 제품은 오류율이 높은 파일에 대한 역방향 오판율이 낮았다. 세 프로그램 모두 역방향 오판율이 자소별 오류율의 10배 이상이라는 점에 있어서 심각한 문제를 안고 있는 것으로 판단된다. -
본 논문에서는 통계적 방법을 이용한 후처리기를 설계하고, 구현하여 평가하였다. 통계적인 방법은 처리 속도보다는 공간 효율을 높임으로써 후처리의 성능을 높일 수 있다는 가정에서, 후처리의 성능을 향상시키기 위해서 다음의 3가지 방법을 제안한다. 첫째, 전이 확률에서 중복 표현되는 정보를 정의하고, 제거할 수 있는 방법을 제안한다. 둘째, 정수인 순위값으로부터 실수인 전이 확률의 근사값을 추정해 냄으로써 공간 효율을 높일 수 있는 방법을 제안한다. 셋째, 위의 두가지 방법을 복합적으로 적용하여 공간 효율을 높은 오류 탐지와 오류 교정 방법을 제안한다.