• Title/Summary/Keyword: 생략

Search Result 1,007, Processing Time 0.023 seconds

Optimizing ELECTRA-based model for Zero Anaphora Resolution (생략복원을 위한 ELECTRA 기반 모델 최적화 연구)

  • Park, Jinsol;Choi, Maengsik;Matteson, Andrew;Lee, Chunghee
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.329-334
    • /
    • 2021
  • 한국어에서는 문장 내의 주어나 목적어가 자주 생략된다. 자연어 처리에서 이러한 문장을 그대로 사용하는 것은 정보 부족으로 인한 문제 난이도 상승으로 귀결된다. 생략복원은 텍스트에서 생략된 부분을 이전 문구에서 찾아서 복원해 주는 기술이며, 본 논문은 생략된 주어를 복원하는 방법에 대한 연구이다. 본 논문에서는 기존에 생략복원에 사용되지 않았던 다양한 입력 형태를 시도한다. 또한, 출력 레이어로는 finetuning layer(Linear, Bi-LSTM, MultiHeadAttention)와 생략복원 태스크 형태(BIO tagging, span prediction)의 다양한 조합을 실험한다. 국립국어원 무형 대용어 복원 말뭉치를 기반으로 생략복원이 불필요한 네거티브 샘플을 추가하여 ELECTRA 기반의 딥러닝 생략복원 모델을 학습시키고, 생략복원에 최적화된 조합을 검토한다.

  • PDF

Korean Zero Anaphora Resolution Guidelines (한국어 생략어복원 가이드라인)

  • Ryu, Jihee;Lim, Joon-Ho;Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

Korean Zero Anaphora Resolution Guidelines (한국어 생략어복원 가이드라인)

  • Ryu, Jihee;Lim, Joon-Ho;Lim, Soojong;Kim, Hyunki
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

Valid Conversation Recognition for Restoring Entity Ellipsis in Chat Bot (대화 시스템의 개체 생략 복원을 위한 유효 발화문 인식)

  • So, Chan Ho;Wang, Ji Hyun;Lee, Chunghee;Lee, Yeonsoo;Kang, Jaewoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.54-59
    • /
    • 2019
  • 본 논문은 대화 시스템인 챗봇의 성능 향상을 위한 생략 복원 기술의 정확률을 올리기 위한 유효 발화문 인식 모델을 제안한다. 생략 복원 기술은 챗봇 사용자의 현재 발화문의 생략된 정보를 이전 발화문으로부터 복원하는 기술이다. 유효 발화문 인식 모델은 현재 발화문의 생략된 정보를 보유한 이전 발화문을 인식하는 역할을 수행한다. 유효 발화문 인식 모델은 BERT 기반 이진 분류 모델이며, 사용된 BERT 모델은 한국어 문서를 기반으로 새로 학습된 한국어 사전 학습 BERT 모델이다. 사용자의 현재 발화문과 이전 발화문들의 토큰 임베딩을 한국어 BERT를 통해 얻고, CNN 모델을 이용하여 각 토큰의 지역적인 정보를 추출해서 발화문 쌍의 표현 정보를 구해 해당 이전 발화문에 생략된 개체값이 있는지를 판단한다. 제안한 모델의 효과를 검증하기 위해 유효 발화문 인식 모델에서 유효하다고 판단한 이전 발화문만을 생략 복원 모델에 적용한 결과, 생략 복원 모델의 정확률이 약 5% 정도 상승한 것을 확인하였다.

  • PDF

A Study on the Ellipsis of Case markers through the Hangul letters of Hyun-Poong Kwak's family (현풍(玄風) 곽씨(郭氏) 언간(諺簡)의 격조사(格助詞) 생략(省略)에 대한 고찰(考察))

  • Jeon, Byeong-Yong
    • (The)Study of the Eastern Classic
    • /
    • no.33
    • /
    • pp.413-435
    • /
    • 2008
  • This study is purposed to analyze the appearances and functions of ellipsis of case markers through the Hangul letters of Hyun-Poong Kwak's family in the early 17th century. Hangul letters appear more colloquial than typography, and ellipsis is the one of main features of it. Generally, 'ellipsis' occurs when a constituent of a sentence deliberately leaves out of a sentence, because it is repeated or can be deduced by the context or occasion. As Hangul letter is written for a specific person, 'ellipsis' occurs more often than typography written for unspecified individuals. The ellipsis of case markers are not an exception. The ellipsis has functions as follow. The first, function is 'brevity.' Communication can be more convenient by ellipsis. Next will be 'informality.' Informality caused by ellipsis can make people express their thoughts and feelings fluently and naturally. It is the reason that spoken language has more frequently occurred ellipses than written language. The third function is 'quickness.' The same information can be delivered more quickly by the sentence using ellipsis than not using. In the 21st Century, ellipsis is misused in netizen communication owing to the quickness. The last function should be 'the effect of a literary style.' The effects can embody through ellipsis such as 'rhythm effect', 'letter style effect', 'translation style effect.' As a result of analyzing ellipsis of case markers, frequency follows the order below.[subjective objective > Locative > Dative > Commutative > Instrumental]

"A Descriptive Review on Korean Case Markers and their Deletion in On-Going Dialogues" ("대화체 이해 시스템에서의 격조사 생략현상에 대한 한 기술적 고찰")

  • Hong, Min-Pyo
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.160-166
    • /
    • 1997
  • 본고는 우리말에서 빈번하게 일어나는 축약 및 생략 현상을 언어학적으로 규명하기 위한 노력의 일환으로,. 이를 위해 실제 대화체에서 나타나는 격조사 생략현상에 대한 관찰결과를 기술적으로 분석하고, 이를 토대로 향후 대화체 이해 시스템 구현을 위한 생략된 격조사 복원연구의 방향을 제시한다. 연구를 위해 녹취한 약 한시간 분량의 2인 흑은 3인의 자연스런 라디오 대담 프로그램 전화대화들을 전사한 자료를 중심으로, 실제 대화에서 실현되거나 생략된 격조사들을 유형별로 분석한 격과를 보고하고, 기존의 연구 및 관찰에 경험적 타당성을 제공함과 동시에 그들의 분석을 대화이해 시스템에 구현하고자 할 때 발생할 수 있는 문제점을 지적한다. 나아가 격조사가 생략된 명사구들이 나타나는 환경을 통사 및 담화적 특성에 따라 분류함으로써, 대화이해 시스템 구현을 목적으로 하는 격조사 생략현상 연구 및 이를 토대로 한 명사구와 용언 사이의 문법적 의미적 관계 규명을 위한 향후 연구에서 어휘 부의 확장 필요성을 논한다.

  • PDF

Case Particle Restoration as Preprocessing for Syntactic Analysis (격조사 복원: 구문분석 전처리)

  • Seo, Hyeong-Won;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.3-7
    • /
    • 2012
  • 본 논문은 구문분석의 전처리로서 생략된 한국어 격조사의 복원 방법을 제안한다. 격조사 생략은 체언과 용언 사이의 관계가 아주 밀접하여 생략하여도 의사 전달에 문제가 없을 경우에 자주 발생한다. 이렇게 생략된 조사는 구문분석의 복잡도를 크게 높일 뿐 아니라 구문 분석의 오류의 원인이 되기도 한다. 본 논문에서는 구문구조 부착 말뭉치를 분석하여 생략된 조사는 그 체언과 용언 사이의 거리가 매우 가깝다는 사실을 발견하였고 이 성질을 이용해서 기계학습 방법을 이용해서 생략된 조사를 복원하는 방법을 제안한다. 본 논문에서는 ETRI 구문구조 부착 말뭉치를 이용해서 실험한 결과, 생략된 조사의 81%를 정확하게 복원할 수 있었다.

  • PDF

The Role of Semantic Representation of Verbs and Inference in the Interpretation of Missing Objects in Korean Discourse (목적어 생략에 대한 동사의 의미표상 및 추론의 역할)

  • Cho, Sook-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.457-461
    • /
    • 2001
  • 본 논문은 동사의 의미표상과 명사의 한정성의 강호관계를 중심으로 목적어의 생략현상을 검토하였다. 한국어는 영어 같은 언어와 달리 주어, 목적어 등이 자주 생략된다. 이 연구는 한국어의 목적어 생략이 단순히 인간성 (humanness), 주체성 (agency), 한정성(definiteness) 등 명사의 의미자질에 의해서만 결정되는 것이 아니라, 다음 두 가지 제약이 결정적으로 작용함을 제안하고자 한다. 첫째, 목적어 생략은 행동양상 (mold of agent act)과 원인 (cause)을 심층적으로 포함하는 소위 '핵심 타동사 (core transitive)'와 선행사의 한정성 정도에 의해 결정되는데, 구체적으로 목적어 생략은 한정성 자질을 가진 선행사가 없는 담화에서는 허용되지 않는다는 제약이다. 둘째, 타동사와 명사의 한정성과는 독립적으로, 한국어의 목적어 생략은 또한, 추론에 의거하여 보다 더 적절히 해석될 수 있는 경우를 실증적으로 보이고자 한다.

  • PDF

A Skipping Method of Transformation and Quantization Process using Skip Blocks Estimation in Fast Video Coding (고속 동영상 방식의 스킵 블록 예측을 이용한 변환 및 양자화 과정 생략 기법)

  • Song, Won-Seon;Hong, Min-Cheol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2009.11a
    • /
    • pp.231-234
    • /
    • 2009
  • 본 논문에서는 고속 동영상 방식의 스킵 블록 예측을 이용한 변환 과정 및 양자화 과정 생략 기법에 대해 제안한다. 정수여현 변환과 양자화 과정을 이용하여 생략 가능 블록을 예측하고, 이를 이용하여 압축 효율에 영향 없이 효과적으로 양자화 생략하는 방식에 대해 기술한다. 실험 결과를 통해 제안 방식을 이용한 예측된 블록이 부가적인 계산 없이 효과적으로 예측되어 생략되었음을 확인할 수 있었다.

  • PDF

Plan-based Ellipsis Resolution for Utterances in Noun-Phrase-Form in Restricted Domain Dialogues (제한된 영역의 대화에서 체언구 형태의 발화 이해를 위한 계획기반 생략 처리)

  • 윤철진;서정연
    • Korean Journal of Cognitive Science
    • /
    • v.11 no.1
    • /
    • pp.81-92
    • /
    • 2000
  • Elliptical fragments are common in natural language dialogues between humans. Since most elliptical fragments should be interpeted within the context. it is not easy for computers to recognize the speaker's intention from the elliptical fragments. In t this paper we propose a model to recognize speaker's intention from elliptical fragments 1 in Korean by expanding the tripartite plan-based model proposed by Lambert. We add new discourse recipes to define user's discourse actions through elliptical fragments. In order to use plan inference process. we must represent utterances as actions. e. g .. r e elliptical fragments are represented as surface speech acts. In surface speech act representation. we include the information of 'Josa' (case markers in Korean), because t the information of 'Josa' plays a very important role in analysing speakers' intention in Korean. Finally. by using an object and discourse focus theory, the system can recognize the intention that a user is trying to compare between two plans by uttering elliptical fragments

  • PDF