• 제목/요약/키워드: 자연 언어 처리

검색결과 429건 처리시간 0.021초

개념그래프를 이용한 의미사전의 개발에 관한 연구 (A Study on Development of Semantic Lexicon Based on Conceptual Graphs)

  • 김은희;양기철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.403-407
    • /
    • 1996
  • 자연언어는 사람이 쉽게 이해할 수 있지만 이론 컴퓨터가 이해하는데는 많은 문제점들이 발생한다. 이러한 문제의 해결을 위해 의미처리가 수행되어야하며 효율적인 의미처리를 위해서는 정확한 의미사전의 개발이 요구된다. 본 논문에서는 개념그래프를 이용한 의미사전의 개발과정에서 고려되어야할 몇가지 문제점들을 살펴본다.

  • PDF

태깅 지원 시스템 : Hi-Tagger (A Tagging Support System : Hi-Tagger)

  • 이인근;정재은;황도삼;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-94
    • /
    • 2012
  • 컴퓨터가 인간의 자연언어를 처리하고 이해하도록 하기 위한 많은 연구가 진행되어 왔다. 그러나 컴퓨터에 의해 자동으로 구축한 정보의 신뢰성 문제로 인해 그 효용성이 낮다. 따라서 최근에는 웹 2.0 환경에서의 집단지성을 통한 오픈지식의 구축과 지식 간의 링크 정보의 활용이 주목을 받고 있다. 그러나 양질의 지식을 구축하기 위해서는 인간의 개입이 불가피하며 대부분의 오픈지식도 사용자들의 노력에 의존하여 구축되고 있다. 따라서 본 논문에서는 자연언어로 작성된 문장의 용어에 대한 태깅 작업을 지원하는 태깅지원 시스템을 개발한다. 개발한 시스템에서는 사용자가 문장을 작성하는 과정에서 자동으로 태깅 가능한 용어를 추천하고, 시스템이 추천한 용어에 대해 사용자는 태그셋(tagset) 에 등록된 태그 및 링크로 태깅을 수행한다. 이 시스템을 이용하여 경제, 과학, 문학, 철학의 4개 분야에 대해 5인의 실험자가 한글문서의 태깅 실험을 수행함으로써 개발한 시스템의 효용성을 확인한다.

  • PDF

다양한 언어 정보를 이용한 음소 단위 억양 및 VoiceXML 문서 생성 (Diphone-based Intonation and VoiceXML document Generation using Multi-dimensional Linguistic Information)

  • 이화진;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-76
    • /
    • 2002
  • 최근 음성 합성 과정에서 화자의 의도를 가장 많이 반영하는 언어 정보인 문맥 정보를 사용하려는 시도가 이루어지고 있으나 문맥 정보를 적은 비중으로 사용하기 때문에 자연성 향상에 큰 도움을 주지 못하고 있다. 본 연구에서는 구문 정보, 의미 정보를 억양 생성 과정에 이용함과 동시에 문맥 정보와 음성 정보와의 관계를 음성 데이터를 바탕으로 분석하여 다양한 문맥 정보를 음성 합성 과정에 반영하는 방법을 제안한다. 또한 한국어에서 나타나는 다양한 억양 곡선 유형을 형태소를 이용하여 의다 효율적으로 처리할 수 있는 방법을 제안하여 자연스러운 억양 생성 시스템을 구현하고 시스템의 결과를 음소 단위 억양 생성기와 VoiceXML을 이용하여 적용시켜보고 결과를 논의한다.

  • PDF

비자동회귀 다중 디코더 기반 한국어 형태소 분석 (Non-autoregressive Multi Decoders for Korean Morphological Analysis)

  • 조성민;송현제
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.418-423
    • /
    • 2022
  • 한국어 형태소 분석은 자연어 처리의 기초가 되는 태스크이므로 빠르게 결과를 출력해야 한다. 기존연구는 자동회귀 모델을 한국어 형태소 분석에 적용하여 좋은 성능을 기록하였다. 하지만 자동회귀 모델은 느리다는 단점이 있고, 이 문제를 극복하기 위해 비자동회귀 모델을 사용할 수 있다. 비자동회귀 모델을 한국어 형태소 분석에 적용하면 조화롭지 않은 시퀀스 문제와 토큰 반복 문제가 발생한다. 본 논문에서는 두 문제를 해결하기 위하여 다중 디코더 기반의 한국어 형태소 분석을 제안한다. 조화롭지 않은 시퀀스는 다중 디코더를 적용함으로써, 토큰 반복 문제는 두 개의 디코더에 서로 어텐션을 적용하여 문제를 완화할 수 있다. 본 논문에서 제안한 모델은 세종 형태소 분석 말뭉치를 대상으로 좋은 성능을 확보하면서 빠르게 결과를 생성할 수 있음을 실험적으로 보였다.

  • PDF

표층형을 이용한 BERT 기반 한국어 상호참조해결 (Korean Co-reference Resolution using BERT with Surfaceform)

  • 허철훈;김건태;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.67-70
    • /
    • 2019
  • 상호참조해결은 자연언어 문서 내에서 같은 개체를 나타내는 언급들을 연결하는 문제다. 대명사, 지시 관형사, 축약어, 동음이의어와 같은 언급들의 상호참조를 해결함으로써, 다양한 자연언어 처리 문제의 성능 향상에 기여할 수 있다. 본 논문에서는 현재 영어권 상호참조해결에서 좋은 성능을 내고 있는 BERT 기반 상호참조해결 모델에 한국어 데이터 셋를 적용시키고 표층형을 이용한 규칙을 추가했다. 본 논문의 모델과 기존의 모델들을 실험하여 성능을 비교하였다. 기존의 연구들과는 다르게 적은 특질로 정밀도 73.59%, 재현율 71.1%, CoNLL F1-score 72.31%의 성능을 보였다. 모델들의 결과를 분석하여 BERT 기반의 모델이 다양한 특질을 사용한 기존 딥러닝 모델에 비해 문맥적 요소를 잘 파악하는 것을 확인했다.

  • PDF

데이터베이스 의미론을 위한 한국어 피동형의 전산적 처리 (Processing Korean Passives for Database Semantics)

  • 홍정하;최승철;이기용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.411-418
    • /
    • 2000
  • Hausser (1999)와 이기용 (1999a, 1999c)에서는 데이터베이스 관리 시스템(DBMS)을 이용하여 자연언어의 의미를 다루는 데이터베이스 의미론을 제안하였다. 특히 이기용 (1999c)에서는 수형도(tree), 논리 형태(logical fomulas), 자질 구조(feature structure)와 같은 다양한 언어 표상 형식들을 관계형 데이터베이스 관리 시스템(RDBMS)의 표상 형식인 테이블 형식으로 전환 가능함을 보임으로써 데이터베이스 의미론에 관계형 데이터 베이스 관리 시스템을 도입할 수 있음을 제시하였다. 한편, Lee (2000)에서 제시한 데이터베이스 의미론 모형에서는 데이터베이스 관리 시스템과 사용자(end-user)를 연결하는 언어 정보 처리 시스템(LIPS; Linguistic Information Processing System)을 제안하였다. 이 언어정보 처리 시스템은 사용자에 의해 입력된 언어 자료를 처리하여 그 분석 결과를 데이터베이스 관리 시스템에 전달하고, 이를 통해 구축된 데이터베이스에서 추출한 정보를 다시 사용자에게 전달하는 시스템이다. 이 논문은 한국어 '이, 히, 리, 기' 피동형을 전산처리를 할 수 있도록, 데이터베이스 의미론에서 핵심 요소인 언어정보 처리 시스템과 데이터베이스 관리 시스템을 구현하는 것 이 목적이다.

  • PDF

KTARSQI: 한국어 텍스트의 시간 및 사건 표현 주석 (KTARSQI: The Annotation of Temporal and Event Expressions in Korean Text)

  • 임서현;김윤신;조유미;장하연;고민수;남승호;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.130-135
    • /
    • 2009
  • 정보추출(information extraction), 질의-응답 시스템(Question-Answering system) 등의 자연언어처리 응용분야에서 시간과 사건에 관련한 정보를 추출하는 것은 중요한 부분이다. 그럼에도 불구하고, 한국어의 자연언어처리 응용분야에서는 아직까지 이 연구가 본격화되지 않았다. 미국 TARSQI 프로젝트의 연구결과를 바탕으로 하여 한국어 텍스트에서 시간 및 사건 표현의 주석, 추출, 추론을 위한 명세 언어(KTimeML), 주석 말뭉치(KTimeBank), 자동 태깅 시스템(KTarsqi Toolkit: KTTK)의 개발을 목표로 2008년 KTARSQI 프로젝트가 시작되었다. 이 논문에서는 KTARSQI 프로젝트의 목표와 과제에 대한 전반적인 소개와 함께, 현재까지 진행된 작업의 결과로서 사건 태그의 명세와 주석에 관한 논의를 덧붙인다.

  • PDF

'와/과' 구문의 중의성 연구 (The Study of ambiguity in the 'wa/kwa')

  • 유혜원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.383-389
    • /
    • 2000
  • 본고는 한영번역기 개발을 위한 기초 작업으로 '와/과'구문에 나타나는 여러 가지 패턴을 정리하고 이들 구문에서 보이는 중의성 문제를 해결하고자 하였다. 이러한 작업을 위해서는 자료 수집 및 분석이 우선이기 때문에 코퍼스에서 '와/과'구문을 뽑아서 분석하여 규칙을 마련하였다. 여기에서 사용된 자질연산문법(FCG)은 자연언어처리를 위한 문법으로 변형규칙과 수형도의 개념 없이 자질을 이용한 연산 체계로서 언어처리를 하고자 하는 문법이다. 이 이론을 바탕으로 규칙을 세우고 실제 언어 자료를 뽑아서 테스트를 하여 95%의 성공률을 보여주었다. 그러나 여기서의 연구는 '와/과'구문의 처리를 위한 가장 뼈대가 되는 기초연구이며, 앞으로 좀 더 많은 처리가 이루어져야 하리라 생각된다.

  • PDF