• 제목/요약/키워드: 언어복원

검색결과 93건 처리시간 0.033초

"대화체 이해 시스템에서의 격조사 생략현상에 대한 한 기술적 고찰" ("A Descriptive Review on Korean Case Markers and their Deletion in On-Going Dialogues")

  • 홍민표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.160-166
    • /
    • 1997
  • 본고는 우리말에서 빈번하게 일어나는 축약 및 생략 현상을 언어학적으로 규명하기 위한 노력의 일환으로,. 이를 위해 실제 대화체에서 나타나는 격조사 생략현상에 대한 관찰결과를 기술적으로 분석하고, 이를 토대로 향후 대화체 이해 시스템 구현을 위한 생략된 격조사 복원연구의 방향을 제시한다. 연구를 위해 녹취한 약 한시간 분량의 2인 흑은 3인의 자연스런 라디오 대담 프로그램 전화대화들을 전사한 자료를 중심으로, 실제 대화에서 실현되거나 생략된 격조사들을 유형별로 분석한 격과를 보고하고, 기존의 연구 및 관찰에 경험적 타당성을 제공함과 동시에 그들의 분석을 대화이해 시스템에 구현하고자 할 때 발생할 수 있는 문제점을 지적한다. 나아가 격조사가 생략된 명사구들이 나타나는 환경을 통사 및 담화적 특성에 따라 분류함으로써, 대화이해 시스템 구현을 목적으로 하는 격조사 생략현상 연구 및 이를 토대로 한 명사구와 용언 사이의 문법적 의미적 관계 규명을 위한 향후 연구에서 어휘 부의 확장 필요성을 논한다.

  • PDF

대화체에서 부대화의 개시/종료 및 화자의 의도, 그리고 청자 논항의 생략 (Subdialogue Cues, Speaker Intention, and the Deletion of Hearer Arguments in Spoken Korean)

  • 홍민표;이현호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.358-364
    • /
    • 1998
  • 본 연구는 한국어 대화인지모형을 구축하는 데 필요한 화용론적 지식에 관한 연구의 일환으로, 부대화의 개시 및 종료 시점에서 나타나는 담화 참여자의 의도 및 그 의도와 관련된 표층표지를 분석하고, 나아가 필수 논항 성분의 하나로서 대화체에서는 자주 생략되어 나타나는 청화자 논항의 의미복원을 위한 예비적 단계로서 술어의 어미 특성 및 화자의 언어행위 혹은 화행과 관련하여 청자 논항의 생략 유형을 분류하고 분석했다. 이러한 연구는 한국어 대화 에이전트를 개발하는데 있어 필수적인 단계로서 향후 대화체 이해시스템 연구에 기초적인 틀을 제공해 줄 수 있다.

  • PDF

자연 언어의 장기 의존성을 고려한 심층 학습 모델 (Deep learning model that considers the long-term dependency of natural language)

  • 박찬용;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.281-284
    • /
    • 2018
  • 본 논문에서는 machine reading 분야에서 기존의 long short-term memory (LSTM) 모델이 가지는 문제점을 해결하는 새로운 네트워크를 제안하고자 한다. 기존의 LSTM 모델은 크게 두가지 제한점을 가지는데, 그 중 첫째는 forget gate로 인해 잊혀진 중요한 문맥 정보들이 복원될 수 있는 방법이 없다는 것이다. 자연어에서 과거의 문맥 정보에 따라 현재의 단어의 의미가 크게 좌지우지될 수 있으므로 올바른 문장의 이해를 위해 필요한 과거 문맥의 정보 유지는 필수적이다. 또 다른 문제는 자연어는 그 자체로 단어들 간의 복잡한 구조를 통해 문장이 이루어지는 반면 기존의 시계열 모델들은 단어들 간의 관계를 추론할 수 있는 직접적인 방법을 가지고 있지 않다는 것이다. 본 논문에서는 최근 딥 러닝 분야에서 널리 쓰이는 attention mechanism과 본 논문이 제안하는 restore gate를 결합한 네트워크를 통해 상기 문제를 해결하고자 한다. 본 논문의 실험에서는 기존의 다른 시계열 모델들과 비교를 통해 제안한 모델의 우수성을 확인하였다.

  • PDF

텍스트 애니메이션을 위한 생략 정보 파악 및 복원 (Identification and Recovery of Elided Information for Text Animation)

  • 장은영;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.205-213
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로, 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는. 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF

한베 통계기계번역의 성능 향상을 위한 내포문 추출 및 복원 기법 (Embedded clause extraction and restoration for the performance enhancement in Korean-Vietnamese statistical machine translation)

  • 조승우;김영길;권홍석;이의현;이원기;조형미;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.280-284
    • /
    • 2016
  • 본 논문에서는 기호로 둘러싸인 내포문이 포함된 문장의 번역 성능을 높이는 방법을 제안한다. 입력 문장에서 내포문을 추출하여 여러 문장으로 나타내고, 각각의 문장들을 번역한다. 그리고 번역된 문장들을 복원정보를 활용하여 최종 번역 문장을 생성한다. 이러한 방법론은 입력 문장의 길이를 줄여주며, 그로 인하여 문장 구조가 단순해져 번역 품질이 향상된다. 본 논문에서는 한국어-베트남어 통계 기반 번역기에 대하여 제안한 방법론을 적용하고 실험하였다. 그 결과 BLEU 점수가 약 1.5 향상된 것을 확인할 수 있었다.

  • PDF

객체지향 컴파일러의 심벌 테이블 검증을 위한 선언문 복원 기법 (The Declarations Reconstruction Technique for the Symbol Table Verification of the Object-oriented Compiler)

  • 손민성;권혁주;김영근;이양선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.669-672
    • /
    • 2006
  • 본 연구팀은 유비쿼터스 게임 플랫폼을 위한 Embedded C++ 컴파일러를 개발하였으며, 컴파일러 개발 과정에서 객체지향언어인 C++과 Java 언어를 모두 수용할 수 있는 심벌 테이블을 설계하였다. 심벌 테이블은 컴파일러의 어휘 분석과 구문 분석 과정을 거친 후 SDT(syntax-directed translation)에 의해 생성된 AST(Abstract Syntax Tree)를 분석하여 인식된 명칭(identifier)과 그 속성(attribute)들을 수집하여 저장하는 자료구조로써, 심벌 테이블에 저장된 속성들은 의미 분석(semantic analysis) 단계에서 수집된 속성과 참조된 명칭의 사용이 타당한지를 검사하고, 코드 생성(code generation) 단계에서 올바른 코드가 생성되도록 하는 중요한 요소이다. 따라서 심벌 테이블의 설계가 올바른지와 입력된 속성이 정확한지에 대한 검증과 분석은 필수 불가결하다. 본 논문에서는 컴파일러 개발과정에서 설계한 심벌 테이블을 검증하고 분석하기 위한 목적으로써 심벌 테이블을 이용하여 선언문을 복원시키는 역번역기(detranslator)에 대하여 기술한다. 구현된 역번역기는 C++ 컴파일러와 Java 컴파일러의 선언문 처리 과정에서 심벌 테이블에 입력된 속성들을 본래의 입력 프로그램으로 역번역한다. 따라서 역번역기를 통하여 심벌 테이블의 완전성과 심벌 테이블에 입력된 속성 정보의 정확성을 쉽게 검증할 수 있으며, 역번역과 함께 출력되는 디버그 정보를 이용하여 효율적으로 컴파일러의 개발과 수정을 할 수 있다.

  • PDF

강건한 음성 대화 시스템을 위한 담화분석 기술 (Discourse Analysis for Robust Spoken Dialogue System)

  • 이충희;오효정;장명길;서영훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.1005-1009
    • /
    • 2010
  • 지시대명사와 같은 조응어(anaphora)의 본래 단어나 구를 선행사라고 지칭하며, 음성 대화 중에는 선행사에 대한 생략과 대용어 사용이 빈번히 발생한다. 또한 언어 현상들은 문맥을 보지 않으면 이해될 수 없는 것들이 많다는 것이 담화분석의 기본 가정이므로, 생략 및 대용어 복원은 담화분석에서 매우 중요한 역할을 한다. 본 논문에서는 대용어와 생략어 복원에 기반해서 대화 레벨에서의 강건성을 향상시킨 음성 기반 대화 시스템을 제안한다. 제안된 항법의 적절성과 효과는 TV 도메인에서 평가되었다.

고속 이더넷 응용을 위한 10b/8b 디코더의 설계 (A Design of 10b/8b Decoder for High-Speed Ethernet Applications)

  • 차근호;손승일;최익성
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.664-668
    • /
    • 2004
  • 본 논문에서는 고속 이더넷의 고속의 이더넷의 물리계층에서 수신된 비트열로 부터 클록을 복원하고, 이 클록으로부터 동기된 비트열을 10b/8b 디코딩한 다음, 바이트열로 복원하여 데이터 링크계층의 MAC(Media Access controller)로 전송한다. PCS의 디코더는 S비트의 데이터와 제어신호를 추출하여 MAC으로 전달하는 기능을 수행한다. 즉 본 논문에서는 PCS기능 중 가장 중요한 요소인 10b/8b 디코더를 VHDL언어를 사용하여 기술하고 Xilinx ISE5.1를 이용하여 구현하였고, 입력 부분에 DDR인터페이스를 사용하였다. 구현한 결과 1056개의 게이트 사용하였으며, 10Gbps를 지원하기 위해서는 한 블록 당 2.5Gbps의 처리속도가 필요하다. 설계 모듈은 5.1Gbps의 처리 속도를 지원하여 관련 응용분야에서 사용이 가능할 것으로 사료된다.

  • PDF

문화콘텐츠로서 포스트드라마 연극의 탈경계적 성격 (Trans-boundary Characteristics of the Post-dramatic Play as a Cultural Content)

  • 송은아
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권4호
    • /
    • pp.157-164
    • /
    • 2019
  • 드라마 연극이 희곡 텍스트를 무대 위에 재현하는데 관심을 두고 있다면, 포스트드라마 연극은 희곡 텍스트로부터 해방된 연극을 지향한다. 이 과정에서 드라마 연극이 만들어놓은 여러 경계들이 해체된다. 배우와 관객, 허구와 현실, 연극과 비연극, 작품과 사건, 언어와 비언어 등이 대표적인 경계의 이름이다. 이러한 경계의 해체는 드라마 연극에 의해서 잊혀졌던 고대 그리스 연극의 축제적 성격을 복원하는 계기가 된다. 이것은 아리스토텔레스 이래로 연극을 지배하였던 언어중심주의, 희곡중심주의를 해체하고 새로운 연극을 지향하게 한다. 언어중심주의, 희곡중심주의가 연극의 위기를 자초했다면, 포스트드라마 연극은 그것들을 해체함으로써 새로운 문화콘텐츠로서 관객과 소통하는 방법을 찾게 한다. 그 방법은 무엇보다 연극성의 회복에서 발견된다. 드라마 연극이 연극성보다 문학성에 종속된 것에 비해서 포스트드라마 연극은 문학성으로부터 해방된 연극성을 지향하고 있기 때문이다. 연극성이 강화된 포스트드라마 연극의 탈경계적 성격은 대중성 획득의 발판이 될 것이며, 이는 포스트드라마 연극의 문화콘텐츠로서의 가능성을 보여준다.

한국어의 형태론적 모호성 유형 및 해결 방안 (Classification and Disambiguation of Morphological Ambiguity of the Korean Language)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.83-87
    • /
    • 1997
  • 한국어는 실질형태소와 형식형태소가 결합되는 교착어라는 특성 때문에 품사 모호성을 비롯한 여러 가지 유형의 형태론적 모호성이 발생한다. 형태론적 모호성 해결의 관점에서 형태론적 모호성을 한국어의 특성에 따라 어근 유형 모호성, 형태소 분리 모호성, 형태소 길이 모호성, 불규칙 용언의 원형 복원 모호성, '아/에/이' 탈락 모호성 등으로 분류한다. 이 때 임의의 두 분석 결과에서 발생하는 모호성이 특정 유형에만 속하도록 모호성 유형들을 서로 독립적으로 정의한다. 또한 품사 모호성을 계층적 품사 분류 체계에 따라 $1{\sim}3$차적 품사 모호성으로 구분하고 국어사전에서 발견되는 품사 모호성을 분석한다. 이를 기반으로 형태론적 모호성의 유형을 단어 내에서 해결 가능한 것과 그렇지 않은 것으로 구분하여, 단어 내에서 해결 가능한 모호성을 해결하는 방법을 제안한다.

  • PDF