• 제목/요약/키워드: 문장 표현

검색결과 532건 처리시간 0.023초

술어-논항 튜플 기반 근사 정렬을 이용한 문장 단위 바꿔쓰기표현 유형 및 오류 분석 (Analysis of Sentential Paraphrase Patterns and Errors through Predicate-Argument Tuple-based Approximate Alignment)

  • 최성필;송사광;맹성현
    • 정보처리학회논문지B
    • /
    • 제19B권2호
    • /
    • pp.135-148
    • /
    • 2012
  • 본 논문에서는 Predicate-Argument Tuple (PAT)를 기반으로 텍스트 간 심층적 근사 정렬(Approximate Alignment)을 통한 문장 단위 바꿔쓰기표현(sentential paraphrase) 식별 모델을 제안한다. 두 문장 간의 PAT 기반 근사 정렬 결과를 바탕으로, 두 문장의 의미적 연관성을 효과적으로 표현하는 다양한 정렬 자질(alignment feature)들을 정의함으로써, 바꿔쓰기표현 식별 문제를 지도 학습(supervised learning) 기반의 자동 분류 모델로 접근하였다. 실험을 통해서 제안 모델의 가능성을 확인할 수 있었으며, 시스템의 오류 분석을 통해 제안 방법이 아직 해결하지 못하는 다양한 바꿔쓰기표현 유형들을 식별함으로써 향후 시스템의 성능 개선 방향을 도출하였다.

게임세대를 위한 수학문장의 그래픽 표현방법 (A Method of Graphic Representation of Mathematical Sentences for Game Generation)

  • 장희동
    • 한국게임학회 논문지
    • /
    • 제12권5호
    • /
    • pp.5-12
    • /
    • 2012
  • 그래픽으로 표현된 정보는 컴퓨터게임에 익숙한 게임세대들에게 정보를 인지하는데 텍스트보다 선호하는 스타일이다. 또한 수학교육에 있어서도, 그래픽으로 표현된 수학문제를 통해 해를 찾는 학습은 학습자들에게 문제해결 능력을 향상시키는 데 뚜렷한 효과가 있다고 한다. 본 논문에서는 게임세대인 학습자들의 효과적인 학습을 위해, 수학문장을 그래픽적으로 표현하는 방법을 제안하였다. 제안하는 방법은 가시성이 우수한 그래픽 요소들을 사용하여 단위정보를 논리적인 구조로 배치하고 단위 정보들 사이의 논리적인 연관성을 기호, 선분, 또는 화살표로 표현하여 게임세대들이 문장의 내용을 인지하지 쉽고 논리적으로 정확하게 이해할 수 있다. 기존의 수학문장의 그래픽표현방법과 달리 제안하는 방법은 문장의 시제와 태까지도 정확하게 표현할 수 있다. 제안하는 방법은 게임세대인 학습자들에게 효과적인 수학학습이 이루어질 수 있도록 학습도구로 사용될 수 있고 또 수학교육용 컴퓨터게임의 학습 스캐폴딩 기능을 위해 사용되는 수학정보의 그래픽표현을 위해 널리 활용될 수 있다.

문서 임베딩을 이용한 소셜 미디어 문장의 개체 연결 (Document Embedding for Entity Linking in Social Media)

  • 박영민;정소윤;이정엄;신동수;김선아;서정연
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.194-196
    • /
    • 2017
  • 기존의 단어 기반 접근법을 이용한 개체 연결은 단어의 변형, 신조어 등이 빈번하게 나타나는 비정형 문장에 대해서는 좋은 성능을 기대하기 어렵다. 본 논문에서는 문서 임베딩과 선형 변환을 이용하여 단어 기반 접근법의 단점을 해소하는 개체 연결을 제안한다. 문서 임베딩은 하나의 문서 전체를 벡터 공간에 표현하여 문서 간 의미적 유사도를 계산할 수 있다. 본 논문에서는 또한 비교적 정형 문장인 위키백과 문장과 비정형 문장인 소셜 미디어 문장 사이에 선형 변환을 수행하여 두 문형 사이의 표현 격차를 해소하였다. 제안하는 개체 연결 방법은 대표적인 소셜 미디어인 트위터 환경 문장에서 단어 기반 접근법과 비교하여 높은 성능 향상을 보였다.

  • PDF

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기 (Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF

정렬된 성경 코퍼스로부터 바꿔쓰기표현(paraphrase)의 자동 추출 (Automatic Extraction of Paraphrases from a Parallel Bible Corpus)

  • 이공주;윤보현
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.323-336
    • /
    • 2006
  • 바꿔쓰기(paraphrasing)는 동일한 내용을 다르게 표현하는 방식을 의미한다. 이러한 바꿔쓰기표현들(paraphrues)은 기계번역, 질의 응답 시스템, 문서 요약과 같은 다양한 분야에 매우 유용하게 사용될 수 있다. 그러나 이와 같은 바꿔쓰기표현의 유용성에도 불구하고 바꿔쓰기표현을 자동으로 추출할 수 있는 방법이 매우 어렵다. 우선 바꿔쓰기표현을 자동으로 추출할 수 있는 데이터를 구하는 것부터가 어려운 문제이다. 본 연구에서는 여러 버전의 한글 성경 코퍼스로부터 바꿔쓰기표현을 자동으로 추출해 보고자 한다. 성경은 각 문장이 절과 구로 나누어져 있어 문장과 문장을 정렬시키는 것이 매우 용이하다. 정렬된 여러 버전의 성경 코퍼스로부터 자율학습(unsupervised learning)을 통해서 자동으로 바꿔쓰기표현을 추출한다. 이와 같은 방법은 어휘수준의 바꿔쓰기표현 뿐만 아니라 구문수준의 바꿔쓰기표현도 추출할 수 있음을 보여준다.

  • PDF

양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법 (Temporal Relationship Extraction for Natural Language Texts by Using Deep Bidirectional Language Model)

  • 임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2019
  • 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 주어진 문서 내에서 시간 정보를 발견하기 위한 작업으로는 시간적인 표현(time expression) 자체를 인식하거나, 시간 표현과 연관성이 있는 사건(event)을 찾거나, 시간 표현 또는 사건 간에서 발생하는 시간적 연관 관계(temporal relationship)를 추출하는 것이 있다. 문서에 사용된 언어에 따라 고유한 언어적 특성이 다르기 때문에, 만약 시간 정보에 대한 관계성을 고려하지 않는다면 주어진 문장들로부터 모든 시간 정보를 추출해내는 것은 상당히 어려운 일이다. 본 논문에서는, 양방향 구조로 학습된 심층 신경망 기반 언어 모델을 활용하여 한국어 입력문장들로부터 시간 정보를 발견하는 작업 중 하나인 시간 관계정보를 추출하는 기법을 제안한다. 이 기법은 주어진 단일 문장을 개별 단어 토큰들로 분리하여 임베딩 벡터로 변환하며, 각 토큰들의 잠재적 정보를 고려하여 문장 내에 어떤 유형의 시간 관계정보가 존재하는지를 인식하도록 학습시킨다. 또한, 한국어 시간 정보 주석 말뭉치를 활용한 실험을 수행하여 제안 기법의 시간 관계정보 인식 정확도를 확인한다.

  • PDF

문장 임베딩을 위한 Cross-Encoder의 Re-Ranker를 적용한 의미 검색 기반 대조적 학습 (Contrastive Learning of Sentence Embeddings utilizing Semantic Search through Re-Ranker of Cross-Encoder)

  • 오동석;김수완;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.473-476
    • /
    • 2022
  • 문장 임베딩은 문장의 의미를 고려하여 모델이 적절하게 의미적인 벡터 공간에 표상하는 것이다. 문장 임베딩을 위해 다양한 방법들이 제안되었지만, 최근 가장 높은 성능을 보이는 방법은 대조적 학습 방법이다. 대조적 학습을 이용한 문장 임베딩은 문장의 의미가 의미적으로 유사하면 가까운 공간에 배치하고, 그렇지 않으면 멀게 배치하도록 학습하는 방법이다. 이러한 대조적 학습은 비지도와 지도 학습 방법이 존재하는데, 본 논문에서는 효과적인 비지도 학습방법을 제안한다. 기존의 비지도 학습 방법은 문장 표현을 학습하는 언어모델이 자체적인 정보를 활용하여 문장의 의미를 구별한다. 그러나, 하나의 모델이 판단하는 정보로만 문장 표현을 학습하는 것은 편향적으로 학습될 수 있기 때문에 한계가 존재한다. 따라서 본 논문에서는 Cross-Encoder의 Re-Ranker를 통한 의미 검색으로부터 추천된 문장 쌍을 학습하여 기존 모델의 성능을 개선한다. 결과적으로, STS 테스크에서 베이스라인보다 2% 정도 더 높은 성능을 보여준다.

  • PDF

화행 정보를 활용한 문장에서의 감정 인식 (Emotion Recognition of Sentence by using Speech Act)

  • 김기태;류법모;최용석;이상태
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2009년도 춘계학술대회
    • /
    • pp.199-200
    • /
    • 2009
  • 자연스러운 대화가 가능한 인공지능 대화시스템을 구축하기 위해서는 사용자의 문장에 내재된 감정을 이해할 수 있는 시스템이어야만 한다. 또한 상호간의 대화를 통해서 풍겨지는 분위기를 파악할 수 있다면 사용자에게 마치 인간과 대화하는 듯한 자연스러움을 느끼도록 할 수 있을 것이다. 실제 대화에서 감정은 언어적인 표현뿐 아니라 비언어적인 표현으로도 표출되지만, 본 논문은 텍스트 상에서 언어적으로 표현되는 감정 정보를 인식하는데 초점을 둔다. 언어적인 표현으로 한정하여 감정을 인식하는 경우에는 감정을 직접 표현하고 있는 형용사나 동사가 중심이 된다. 본 논문에서는 형용사를 중심으로 하여 화행 정보와 결합하여 감정을 인식하는 시스템에 대해서 제시하고자 한다. 이 논문은 문장에 내재되어 있는 숨겨진 감정이나 분위기 등을 파악하기 위한 연구에 대한 선행 연구로서 텍스트 상에서 직접 드러나는 감정을 인식하기 위한 방법을 제안한다.

  • PDF

문장추상화 : 개념추상화를 도입한 문장교열 (Sentence ion : Sentence Revision with Concept ion)

  • 김곤;양재곤;배재학;이종혁
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.563-572
    • /
    • 2004
  • 문장추상화(Sentence Abstraction)는 문장의 의사전달 기능이 보존된 단순화이다. 이는 문장교열(Sentence Revision)과 개념추상화(Concept Abstraction)를 동시에 가능하게 한다. 문장교열은 사람이 생각한 바와 문장으로 표현된 의미의 차이를 해결하는 방법이다. 개념추상화는 개념들의 공통된 요소로부터 얻은 보편적인 관념을 표현하는 것이다. 문장추상화는 문장의 주요구성성분들을 선별해 내고, 이들의 의미적인 정보를 파악하여 상위개념을 표현함으로써 문장교열과 개념추상화를 가능하게 한다. 본 논문에서는 문장추상화를 위한 구문분석기 LGPI+와, 온톨러지 OfN을 구체화하였다. 문장추상기 SABOT는 LGPI+와 OfN을 활용하며, 구문분석 결과를 처리하여 문장에서 추상화 할 후보난어를 선택한다. 문장추상화를 활용한 원문이해 시스템으로 23개 이야기의 58개 문단에 대해 중요 문장에 대한 문장재현율과 선별된 문장들의 주제관련성을 확인해 보았다. 실험결과, 문장재현율은 54~72%의 범위이었고, 주제관련성은 76~86% 정도의 비율로 나타났다. 이를 유사 시스템과 비교해 보았을 때, 약 10~20% 정도의 성능향상을 보인다. 본 논문에서는 문장추상화를 활용하여 글의 화제문을 효율적으로 선택할 수 있는 문장교열과 원문의 이해심도를 보다 더 깊게 할 수 있는 개념추상화가 가능함을 확인하였다.

커널 기반의 '단백질-단백질 작용' 의미 포함 문장 분류 (Kernel-based sentence classification for protein-protein interaction)

  • 김성환;엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.286-288
    • /
    • 2005
  • 본 논문에서는 tree kernel을 이용 '단백질-단백질 작용' 내용 포함 문장의 추출 방법을 제시한다. Tree kernel은 convolution kernel의 하나로서, 이를 이용하여 파싱 트리(parsing tree)로 표현된 문장을 데이터로 하여 '단백질-단백질 작용' 내용을 포함하고 있는 문장을 그렇지 않은 문장으로부터 분류할 수 있다. 문장 전체를 데이터로 사용하는 것보다 관련 영역을 서브트리(sub-tree)로 추출하여 사용한 것이 더 효과적임을 확인할 수 있었고, kernel계산에 있어 파싱 트리의 태그 내용이 중요한 역할을 하기 때문에 이를 '단백질-단백질 작용'의 의미를 반영할 수 있도록 semantic하게 변환한 효과 및 트리의 길이에 따른 영향도 실험해 보았다. 문제에 사용된 데이터의 양이 다소 적었지만, 데이터 표현 방식에 따라 파싱이나 패턴기법을 이용한 기존의 방법과 비교해 좋은 성능을 보일 수 있다는 가능성을 확인할 수 있었다.

  • PDF