• 제목/요약/키워드: 문장(紋章)

검색결과 3,055건 처리시간 0.029초

핵심어 시퀀스와 지식 그래프를 이용한 RNN 기반 자연어 문장 생성 (RNN Based Natural Language Sentence Generation from a Knowledge Graph and Keyword Sequence)

  • 권성구;노윤석;최수정;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.425-429
    • /
    • 2018
  • 지식 그래프는 많은 수의 개채와 이들 사이의 관계를 저장하고 있기 때문에 많은 연구에서 중요한 자원으로 활용된다. 최근에는 챗봇과 질의응답과 같은 연구에서 자연어 생성을 위한 연구에 활용되고 있다. 특히 자연어 생성에서 최근 발전 된 심층 신경망이 사용되고 있는데, 이러한 방식은 모델 학습을 위한 많은 양의 데이터가 필요하다. 즉, 심층신경망을 기반으로 지식 그래프에서 문장을 생성하기 위해서는 많은 트리플과 문장 쌍 데이터가 필요하지만 학습을 위해 사용하기엔 데이터가 부족하다는 문제가 있다. 따라서 본 논문에서는 데이터 부족 문제를 해결하기 위해 핵심어 시퀀스를 추출하여 학습하는 방법을 제안하고, 학습된 모델을 통해 트리플을 입력으로 하여 자연어 문장을 생성한다. 부족한 트리플과 문장 쌍 데이터를 대체하기 위해 핵심어 시퀀스를 추출하는 모듈을 사용해 핵심어 시퀀스와 문장 쌍 데이터를 생성하였고, 순환 신경망 기반의 인코더 - 디코더 모델을 사용해 자연어 문장을 생성하였다. 실험 결과, 핵심어 시퀀스와 문장 쌍 데이터를 이용해 학습된 모델을 이용해 트리플에서 자연어 문장 생성이 원활히 가능하며, 부족한 트리플과 문장 쌍 데이터를 대체하는데 효과적임을 밝혔다.

  • PDF

Self-Attention 기반의 문장 임베딩을 이용한 효과적인 문장 유사도 기법 기반의 FAQ 시스템 (An Effective Sentence Similarity Measure Method Based FAQ System Using Self-Attentive Sentence Embedding)

  • 김보성;김주애;이정엄;김선아;고영중;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.361-363
    • /
    • 2018
  • FAQ 시스템은 주어진 질문과 가장 유사한 질의를 찾아 이에 대한 답을 제공하는 시스템이다. 질의 간의 유사도를 측정하기 위해 문장을 벡터로 표현하며 일반적으로 TFIDF, Okapi BM25와 같은 방법으로 계산한 단어 가중치 벡터를 이용하여 문장을 표현한다. 하지만 단어 가중치 벡터는 어휘적 정보를 표현하는데 유용한 반면 단어의 의미적인(semantic) 정보는 표현하기 어렵다. 본 논문에서는 이를 보완하고자 딥러닝을 이용한 문장 임베딩을 구축하고 단어 가중치 벡터와 문장 임베딩을 조합한 문장 유사도 계산 모델을 제안한다. 또한 문장 임베딩 구현 시 self-attention 기법을 적용하여 문장 내 중요한 부분에 가중치를 주었다. 실험 결과 제안하는 유사도 계산 모델은 비교 모델에 비해 모두 높은 성능을 보였고 self-attention을 적용한 실험에서는 추가적인 성능 향상이 있었다.

  • PDF

통계 정보와 유전자 학습에 의한 최적의 문장 분할 위치 결정 (Determination of an Optimal Sentence Segmentation Position using Statistical Information and Genetic Learning)

  • 김성동;김영택
    • 전자공학회논문지C
    • /
    • 제35C권10호
    • /
    • pp.38-47
    • /
    • 1998
  • 실용적인 기계번역 시스템을 위한 구문 분석은 긴 문장의 분석을 허용하여야 하는데 긴 문장의 분석은 높은 분석의 복잡도 때문에 매우 어려운 문제이다. 본 논문에서는 긴 문장의 효율적인 분석을 위해 문장을 분할하는 방법을 제안하며 통계 정보와 유전자 학습에 의한 최적의 문장 분할 위치 결정 방법을 소개한다. 문장 분할 위치의 결정은 분할 위치가 태그된 훈련 데이타에서 얻어진 어휘 문맥 제한 조건을 이용하여 입력문장의 분할 가능 위치를 결정하는 부분과 여러 개의 분할 가능 위치 중에서 안전한 분할을 보장하고 보다 많은 분석의 효율 향상을 얻을 수 있는 최적의 분할 위치를 학습을 통해 선택하는 부분으로 구성된다. 실험을 통해 제안된 문장 분할 위치 결정 방법이 안전한 분할을 수행하며 문장 분석의 효율을 향상시킴을 보인다.

  • PDF

문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기 (Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method)

  • 정지수;원세연;서혜인;정상근;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF

속성기반 위협문장 생성 모델 (Attribute-Based Threats Statement Generation Model)

  • 최승;최상수;이강수
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.74-77
    • /
    • 2004
  • PP/ST의 보안환경 개발은 정보보호제품에 대하여 이력서라고 할 수 있다. 이에 기존의 위협문장 생성모델을 개선하여 속성기반 위협문장 생성모델을 제시한다. 본 모델은 PKB의 속성들을 이용하여 위협문장 생성시 각 항목(주어, 목적어, 동기, 동사, 결과)에 속성을 추가·확장하여, 문장이 컨텐츠 뿐만 아니라 특수성을 갖게 된다. 본 논문에서 제시된 모델은 PP/ST 개발시 위헙문장을 생성할 때 활용될 수 있다.

  • PDF

변수-변수 관련성을 이용한 동적 프로그램 조각 추출 알고리즘 (An Extraction Algorithm of Dynamic Program Slice Using Variable-Variable Relationships)

  • 김태희;김병기
    • 한국정보처리학회논문지
    • /
    • 제5권11호
    • /
    • pp.2874-2883
    • /
    • 1998
  • 프로그램 조각화 기법은 프로그램을 이해하기 쉬운 조각 단위로 분해하여 소프트웨어 개발자나 유지보수다사 프로그램을 쉽게 이해할 수 있도록 지원한는 방법이다. 본 논문ㅇ세는 변수-변수 관련성을 이용하여 정확하고 수행 가능한 프로그램 조각을 추출하는 동적 프로그램 조각 추축 알고리즘을 제안한다. 각 문장에서 변경되는 변수와 참조되는 변수로 나누어서 변수 집합을 계산하고, 선언부에 있는 문장에 대해 변수-변수 관련성을 계산한다. 변수-변수 관련성을 계산할 때는 선언부의 변수가 다른 문장에서 변경되는 변수로 사용된 경우와 참조되는 변수로 사용된 경우를 별도로 조사하여 변경되는 변수 집합은 무조건 관련 집합에 포함시키고, 문장에서 참조되는 변수들은 문장들을 다시 비교하여 기준 변수와 관련된 문장만을 추출하여 관련 집합에 포함시킨다. 제안한 알고리즘은 C 언어를 대상으로 실험한 결과 정확하고 수행 가능한 동적 조각을 추출하였고, 기존의 방법들보다 관련 문자을 찾기 위한 문장의 비교횟수를 평균 42%까지 감소시켰다. 기준 변수가 많을수록 기준 변수와 관련이 없는 변수가 많을수록 문장의 비교 횟수가 현저하게 감소하였다.

  • PDF

한국어 구문 분석과 문장 생성을 위한 범주 문법 적용의 몇 가지 원칙 (Some Application Principles of Categorial Grammars for Korean Syntactic Analysis and Sentence Generation)

  • 송도규;차건회;박재득
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-359
    • /
    • 1997
  • 주로 영어, 불어 등의 형상적 언어(configurational languages)의 구문 분석을 위해 개발된 범주 문법은 문장 구성 성분의 문장 내의 위치가 대체적으로 고정적이며 통사 기능이 그 위치로서 할당 되는 형상적 언어의 통사적인 특성에 따라 방향성의 개념을 도입하였다. 그러나 이 방향성 개념은 문장 구성 성분의 문장 내의 위치가 비교적 자유로운 한국어 등의 비형상적 언어(non-configurational languages)에 그대로 적용하기에는 많은 무리가 따른다. 심지어 형상적 언어에 적용하는 경우에도 도치나 외치된 문장 또 격리된 구조(unbounded dependency constructions)가 있는 문장들도 적절히 분석해 내지 못한다. 이런 이유로 본고에서는 범주 문법에 도입되어 있는 방향성을 재고하고 아울러 한국어 구문 분석과 문장 생성을 위한 범주 문법 적용상의 다섯 원칙을 제안한다.

  • PDF

영한 기계번역에서 효율적인 분석을 위한 긴 문장의 분할 (A Long Sentence Segmentation for the Efficient Analysis in English-Korean Machine Translation)

  • 김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-96
    • /
    • 2005
  • 본 연구에서는 영한 기계 번역에서 20단어 이상의 긴 문장을 보다 정확히 분석하기 위하여 문장을 복수개의 의미 있는 절로 분할하고자 한다. 긴 문장은 구문 분석을 시도할 때, 시간적으로 또는 공간적으로 급격히 증가하는 자원을 소모시킨다. 이러한 문제를 해결하기 위하여, 본 연구에서는 긴 문장에서 분할 가능한 지점을 인식하여 이러한 지점을 중심으로 여러 개의 절을 생성한 후, 이 절을 개별적으로 분석하고자 하였다. 문장을 분할하기 위해서 일단 문장 내부에 존재하고 있는 분할이 가능한 지점을 선택하고, 선택된 지점을 중심으로 문맥 정보를 표현하는 입력 벡터를 생성하였다. 그리고 Support Vector Machine (SVM)을 이용하여 이러한 후보 지점의 특성을 학습하여 향후 긴 문장이 입력되었을 때 보다 정확하게 분할점을 찾고자 하였다. 본 논문에서는 SVM의 보다 좋은 학습과 분류를 위하여 내부 커널로써 다항 커널 (polynomial kernel)을 사용하였다. 그리고 실험을 통하여 약 0.97의 f-measure 값을 얻을 수 있었다.

  • PDF

Polya의 문제해결 전략을 이용한 효과적인 문장제 지도방안 -고등학교 중심-

  • 방승진;이상원
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제8권
    • /
    • pp.209-229
    • /
    • 1999
  • 보통 문장제(거리 ${\cdot}$ 속도 문제, 시계 문제, 농도 문제, 개수 세기, 측도 영역)는 초등학교부터 반복하면서 대학수학능력 시험에서는 외적 문제해결력을 측정하는 문장으로 나타난다. 문장제를 해결하는데는 사고가 여러 단계로 이루어져야 한다. 따라서 일반적으로 문장제는 난해하므로 조직적이고 전문적인 학습지도가 이루어져야 한다. 하지만 입시위주의 교육 등 여러 여건상 잘 이루어지지 않고 있는 것이 현실이다. 수학을 잘하는 학생이라도 문장제를 해결하지 못하는 경우가 많다. 본 연구에서는 문장제의 해결의 저해 요인을 완화시킬 수 있는 지도 방안으로서 Polya의 문제해결 전략을 이용하며, 실험반과 비교반의 학습 효과를 비교 분석하여 이를 통하여 효율적인 문장제 지도방안을 연구한다.

  • PDF

문장분석용 통합 사용자 인터페이스 ISAAC의 개선 (Improvement of ISAAC (An Integrated User Interface for Sentence Analysis))

  • 김곤;김민찬;배재학;유해영;이종혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.325-328
    • /
    • 2003
  • 문장분석은 문장의 의미를 파악하기 위한 작업이다. 문장분석에는 문장 구성성분에 종합적인 정보를 필요로 한다. 문장분석을 위해서는 다양한 언어학적 도구와 자원이 필요하다. 가용 도구와 자원은 대부분 독립적으로 개발 축적된 것들이다. 이러한 도구와 자원을 이용하여 문장분석 정보들을 단계적으로 관리하고 처리하기에는 어려움이 있다. 이를 위해 본 논문에서는 문장분석용 통합 사용자 인터페이스 ISAAC를 개선하여 구문분석의 성공률과 그 정보의 상호보완성을 높이고자 하였다.

  • PDF