• 제목/요약/키워드: Lexical Markers

검색결과 13건 처리시간 0.02초

한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기 ((A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System))

  • 김학수;안영훈;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.466-475
    • /
    • 2003
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 의도를 파악할 수 있는 질의 유형 분류기가 필요하다. 본 논문에서는 지지 벡터 기계(support vector machine, SVM)를 이용한 질의유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에 자동 문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

언어의 '매개작용' 범주 고찰: 프랑스어와 한국어 비교 연구 (Reconsideration of the Linguistic Category of Mediation in Language: a Comparative Approach between French and Korean)

  • 서정연
    • 비교문화연구
    • /
    • 제46권
    • /
    • pp.297-325
    • /
    • 2017
  • 이 논문은 언어에서 포착되는 '증거성(${\acute{e}}videntialit{\acute{e}}$)' 범주의 의미적 속성과 그 체계를 연구하기 위한 언어학적 토대연구로 진행되었다. 본 연구에서, 우리는 프랑스어와 한국어의 증거성 범주를 $Descl{\acute{e}}s$ & $Guentch{\acute{e}}va$(2000)의 '발화작용이론(la $th{\acute{e}}orie$ de $l^{\prime}op{\acute{e}}ration$ ${\acute{e}}nonciative$)'을 중심으로 비교, 분석하였다. 선행 연구를 바탕으로, 우리는 프랑스어의 문법표지인 '조건법 현재시제'와 한국어의 문법표지인 '-더-'에 드러난 증거성 범주의 의미적 가치를 기술하고, 이 범주가 언어마다 다르게 발현되는 양상을 살펴보았다. 본 연구에서 우리는 발화작용 이론을 객관적 분석 기제로 이용해, 양 언어 간에 드러나는 증거성 범주를 매개작용으로 다시 정의하고, 시상 및 양태 범주와 구별되는 범주의 구별된 위상을 규명하였다. 또한, 해당 범주의 범언어적 체계와 보편적 의미 가치를 탐색하는 일반 언어학적 연구도 병행하였다. 이를 통해, 본 연구는 '증거성' 이라는 범언어적 현상을 발화작용의 체계 내에서 통합적으로 설명해내었고, 본 연구의 결과는 응용언어학 등의 다양한 분야로 까지 확장되어 활용될 수 있는 가능성도 마련하였다.

일한기계번역에서 진행형 "ている"의 번역처리 (A Processing of Progressive Aspect "te-iru" in Japanese-Korean Machine Translation)

  • 김정인;문경희;이종혁
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.685-692
    • /
    • 2001
  • 본 논문은 일한기계번역에서 일본어 진행표현 "ている" 형태로부터 한국어 대역어의 선정과정에서 발생하는 애매성을 해소하기 위하여 연구한 것이다. 대부분의 일한 기계번역 시스템은 양궁어의 문법적인 유사엉에 기초하여 어휘적인 단계의 처리만으로 고품질의 번역이 가능한 직접 번역방식을 채용하고 있다. 그러나, 직접 번역방식에 기초한 일한 기계번역에서는 술부에 존재하는 "ている"형태의 상적인 의미를 구별할 수 있는 방법론이 아직 제안되지 않았다. 일본어에서 "ている"형태는 동작진행과 상태진행을 모두 나타내지만 한국어에서는 "고 있다."와 "어 있다."로 나누어 표기한다. 양 언어간의 상적인 의미 대응은 간단하지 않지만, 술부의 의미 정보, 부사와 부사어의 의미정보 등을 이용하여 "ている"형태의 상적인 의미를 결정하는 것이 가능하다. "ている"형태의 적절한 대역어 선정을 위하여, 사전 속의 모든 일본어 술어에 다섯 종류의 의미코드를 입력한다. 즉 "1:동작진행만으로 사용되는 술어", "2: 일반적으로는 동작진행으로 사용되지만, 수동인 경우에는 상태진행의 형태로도 사용되는 술어", "3: 상태진행으로만 사용되는 술어", "4: 동작진행, 상태진행의 구별이 애매한 술어", "5: 기타" 당의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2","4"형태의 술어로부터 진행형은 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다. 실험에는 아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.

  • PDF