• 제목/요약/키워드: 생략

검색결과 1,007건 처리시간 0.023초

생략복원을 위한 ELECTRA 기반 모델 최적화 연구 (Optimizing ELECTRA-based model for Zero Anaphora Resolution)

  • 박진솔;최맹식;;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-334
    • /
    • 2021
  • 한국어에서는 문장 내의 주어나 목적어가 자주 생략된다. 자연어 처리에서 이러한 문장을 그대로 사용하는 것은 정보 부족으로 인한 문제 난이도 상승으로 귀결된다. 생략복원은 텍스트에서 생략된 부분을 이전 문구에서 찾아서 복원해 주는 기술이며, 본 논문은 생략된 주어를 복원하는 방법에 대한 연구이다. 본 논문에서는 기존에 생략복원에 사용되지 않았던 다양한 입력 형태를 시도한다. 또한, 출력 레이어로는 finetuning layer(Linear, Bi-LSTM, MultiHeadAttention)와 생략복원 태스크 형태(BIO tagging, span prediction)의 다양한 조합을 실험한다. 국립국어원 무형 대용어 복원 말뭉치를 기반으로 생략복원이 불필요한 네거티브 샘플을 추가하여 ELECTRA 기반의 딥러닝 생략복원 모델을 학습시키고, 생략복원에 최적화된 조합을 검토한다.

  • PDF

한국어 생략어복원 가이드라인 (Korean Zero Anaphora Resolution Guidelines)

  • 류지희;임준호;임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

한국어 생략어복원 가이드라인 (Korean Zero Anaphora Resolution Guidelines)

  • 류지희;임준호;임수종;김현기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

대화 시스템의 개체 생략 복원을 위한 유효 발화문 인식 (Valid Conversation Recognition for Restoring Entity Ellipsis in Chat Bot)

  • 소찬호;왕지현;이충희;이연수;강재우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.54-59
    • /
    • 2019
  • 본 논문은 대화 시스템인 챗봇의 성능 향상을 위한 생략 복원 기술의 정확률을 올리기 위한 유효 발화문 인식 모델을 제안한다. 생략 복원 기술은 챗봇 사용자의 현재 발화문의 생략된 정보를 이전 발화문으로부터 복원하는 기술이다. 유효 발화문 인식 모델은 현재 발화문의 생략된 정보를 보유한 이전 발화문을 인식하는 역할을 수행한다. 유효 발화문 인식 모델은 BERT 기반 이진 분류 모델이며, 사용된 BERT 모델은 한국어 문서를 기반으로 새로 학습된 한국어 사전 학습 BERT 모델이다. 사용자의 현재 발화문과 이전 발화문들의 토큰 임베딩을 한국어 BERT를 통해 얻고, CNN 모델을 이용하여 각 토큰의 지역적인 정보를 추출해서 발화문 쌍의 표현 정보를 구해 해당 이전 발화문에 생략된 개체값이 있는지를 판단한다. 제안한 모델의 효과를 검증하기 위해 유효 발화문 인식 모델에서 유효하다고 판단한 이전 발화문만을 생략 복원 모델에 적용한 결과, 생략 복원 모델의 정확률이 약 5% 정도 상승한 것을 확인하였다.

  • PDF

현풍(玄風) 곽씨(郭氏) 언간(諺簡)의 격조사(格助詞) 생략(省略)에 대한 고찰(考察) (A Study on the Ellipsis of Case markers through the Hangul letters of Hyun-Poong Kwak's family)

  • 전병용
    • 동양고전연구
    • /
    • 제33호
    • /
    • pp.413-435
    • /
    • 2008
  • 본고의 목적은 17세기 전반기(前半期)에 쓰인 '현풍(玄風) 곽씨(郭氏) 언간(諺簡)'을 대상으로 격조사(格助詞)의 생략 양상과 기능을 분석하는 데 있다. 판본 자료가 주로 불특정한 다수에게 메시지를 전달하는 데 반해 언간 자료는 특정한 개인에게 메시지를 전달한다는 점에서 판본 자료보다 '생략'이 더 자주 나타난다. 그 가운데에서 '격조사'의 생략이 두드러진다. 이러한 생략에는 '간결성', '비격식성', '신속성', '문체적 효과' 따위의 기능이 있다. 위에 제시한 생략의 네 가지 기능을 중심으로 격조사 생략의 양상을 분석하였다. 분석 결과는 다음과 같다. 격조사 가운데 주격조사와 대격조사의 생략이 가장 자주 일어난다. 문장의 운율효과를 높일 때나 연어와 관용어 표현에서 이러한 생략이 일어났다. 또한 한문을 직역한 번역체에서도 생략이 나타났다. 처격조사는 주격조사와 대격조사에 비해 상대적으로 생략이 덜 일어나는 편이다. 처격조사 가운데에서도 '-에/-의'가 '-에셔/-의셔/-셔'보다 생략이 더 잘 되었다. '-에/-의' 다음에 동작성이 약하거나 동작성이 없는 동사가 오고, '-에셔/-의셔/-셔' 다음에 동작성이 강한 동사가 오는 것과 관련이 있는 듯하나 단정할 수 없다. 여격조사는 주격, 대격, 처격에 비해 실현이 잘 되었다. 다만 존칭 체언이 '아바님'이나 '어마님'일 경우 존칭의 여격조사('-')가 결합되지 않고 평칭의 여격조사('-의게/-게')가 결합된다는 점이 특기(特記)할 만하다. 속격조사는 현대국어에서와 마찬가지로 생략이 잘 되었으며 중세국어 언해문에서 보았던 주격적 속격이 꽤 남아 있었다. 구격조사 '-로'는 시간관련 어휘와 결합에서 [과거]의 '어제'에는 붙지 않고, [현재]의 ''과 [미래]의 ''에는 결합하는 경우가 많았고 간혹 생략되는 경우도 있었다.

"대화체 이해 시스템에서의 격조사 생략현상에 대한 한 기술적 고찰" ("A Descriptive Review on Korean Case Markers and their Deletion in On-Going Dialogues")

  • 홍민표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.160-166
    • /
    • 1997
  • 본고는 우리말에서 빈번하게 일어나는 축약 및 생략 현상을 언어학적으로 규명하기 위한 노력의 일환으로,. 이를 위해 실제 대화체에서 나타나는 격조사 생략현상에 대한 관찰결과를 기술적으로 분석하고, 이를 토대로 향후 대화체 이해 시스템 구현을 위한 생략된 격조사 복원연구의 방향을 제시한다. 연구를 위해 녹취한 약 한시간 분량의 2인 흑은 3인의 자연스런 라디오 대담 프로그램 전화대화들을 전사한 자료를 중심으로, 실제 대화에서 실현되거나 생략된 격조사들을 유형별로 분석한 격과를 보고하고, 기존의 연구 및 관찰에 경험적 타당성을 제공함과 동시에 그들의 분석을 대화이해 시스템에 구현하고자 할 때 발생할 수 있는 문제점을 지적한다. 나아가 격조사가 생략된 명사구들이 나타나는 환경을 통사 및 담화적 특성에 따라 분류함으로써, 대화이해 시스템 구현을 목적으로 하는 격조사 생략현상 연구 및 이를 토대로 한 명사구와 용언 사이의 문법적 의미적 관계 규명을 위한 향후 연구에서 어휘 부의 확장 필요성을 논한다.

  • PDF

격조사 복원: 구문분석 전처리 (Case Particle Restoration as Preprocessing for Syntactic Analysis)

  • 서형원;권홍석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 2012
  • 본 논문은 구문분석의 전처리로서 생략된 한국어 격조사의 복원 방법을 제안한다. 격조사 생략은 체언과 용언 사이의 관계가 아주 밀접하여 생략하여도 의사 전달에 문제가 없을 경우에 자주 발생한다. 이렇게 생략된 조사는 구문분석의 복잡도를 크게 높일 뿐 아니라 구문 분석의 오류의 원인이 되기도 한다. 본 논문에서는 구문구조 부착 말뭉치를 분석하여 생략된 조사는 그 체언과 용언 사이의 거리가 매우 가깝다는 사실을 발견하였고 이 성질을 이용해서 기계학습 방법을 이용해서 생략된 조사를 복원하는 방법을 제안한다. 본 논문에서는 ETRI 구문구조 부착 말뭉치를 이용해서 실험한 결과, 생략된 조사의 81%를 정확하게 복원할 수 있었다.

  • PDF

목적어 생략에 대한 동사의 의미표상 및 추론의 역할 (The Role of Semantic Representation of Verbs and Inference in the Interpretation of Missing Objects in Korean Discourse)

  • 조숙환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.457-461
    • /
    • 2001
  • 본 논문은 동사의 의미표상과 명사의 한정성의 강호관계를 중심으로 목적어의 생략현상을 검토하였다. 한국어는 영어 같은 언어와 달리 주어, 목적어 등이 자주 생략된다. 이 연구는 한국어의 목적어 생략이 단순히 인간성 (humanness), 주체성 (agency), 한정성(definiteness) 등 명사의 의미자질에 의해서만 결정되는 것이 아니라, 다음 두 가지 제약이 결정적으로 작용함을 제안하고자 한다. 첫째, 목적어 생략은 행동양상 (mold of agent act)과 원인 (cause)을 심층적으로 포함하는 소위 '핵심 타동사 (core transitive)'와 선행사의 한정성 정도에 의해 결정되는데, 구체적으로 목적어 생략은 한정성 자질을 가진 선행사가 없는 담화에서는 허용되지 않는다는 제약이다. 둘째, 타동사와 명사의 한정성과는 독립적으로, 한국어의 목적어 생략은 또한, 추론에 의거하여 보다 더 적절히 해석될 수 있는 경우를 실증적으로 보이고자 한다.

  • PDF

고속 동영상 방식의 스킵 블록 예측을 이용한 변환 및 양자화 과정 생략 기법 (A Skipping Method of Transformation and Quantization Process using Skip Blocks Estimation in Fast Video Coding)

  • 송원선;홍민철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 추계학술대회
    • /
    • pp.231-234
    • /
    • 2009
  • 본 논문에서는 고속 동영상 방식의 스킵 블록 예측을 이용한 변환 과정 및 양자화 과정 생략 기법에 대해 제안한다. 정수여현 변환과 양자화 과정을 이용하여 생략 가능 블록을 예측하고, 이를 이용하여 압축 효율에 영향 없이 효과적으로 양자화 생략하는 방식에 대해 기술한다. 실험 결과를 통해 제안 방식을 이용한 예측된 블록이 부가적인 계산 없이 효과적으로 예측되어 생략되었음을 확인할 수 있었다.

  • PDF

제한된 영역의 대화에서 체언구 형태의 발화 이해를 위한 계획기반 생략 처리 (Plan-based Ellipsis Resolution for Utterances in Noun-Phrase-Form in Restricted Domain Dialogues)

  • 윤철진;서정연
    • 인지과학
    • /
    • 제11권1호
    • /
    • pp.81-92
    • /
    • 2000
  • 인간의 자연스러운 대화에서는 생략 현상이 빈번하게 일어난다. 생략 어구로부터 화자의 의도를 파악하는 것은 쉽지가 않다. 생략 어구 자체만 가지고는 그것의 의미와 화자의 의도를 파악하기 힘들며 이전 발화들로부터 구성된, 혹은 영역에 내재된 맥락과의 연관성을 살펴보아야 하기 때문이다. 본 연구에서는 Lambert가 제안한 3단계 계획기반 대화이해모델을 확장함으로써 한국어 대화에서 나타나는 생략 어구로부터 화자의 의도를 인식하는 모델을 제안한다. 먼저 Lambert의 모델에서 고려하지 않은, 생략 어구 형태의 발화를 통해 화자가 의도하는 담화 행위를 새로운 담화 recipe로 정의하여 추가하였다. 한국어에서는 조사가 화자의 의도를 나타내므로 이러한 특성을 이용하여 생략어구를 표층 화행으로 표현할 때, 조사 정보를 포함하여 화자의 의도 인식을 용이하게 함을 볼 수 있었다. 또한 객체와 초점화 이론을 제안하여, 생략 어구를 통해서 화자가 두 개의 계획을 비교하여 고려하는 의도를 인식할 수 있도록 했다.

  • PDF