• 제목/요약/키워드: 문장 자동생성

검색결과 194건 처리시간 0.022초

한국어 문장 유형의 자동 분류 한국어-수화 변환 및 한국어 음성 합성에의 응용 (Sentence Type Identification in Korean Applications to Korean-Sign Language Translation and Korean Speech Synthesis)

  • 정진우;이호준;박종철
    • 한국HCI학회논문지
    • /
    • 제5권1호
    • /
    • pp.25-35
    • /
    • 2010
  • 본 논문에서는 한국어 문장 유형을 자동으로 분류하는 방법을 제안하고 한국어-수화 변환과 한국어 음성 합성 분야에서 문장 유형 정보가 자연스러운 수화 표현과 음성 표현을 생성하는데 이용되는 과정을 보인다. 한국어에서 문장 유형은 크게 평서문, 명령문, 청유문, 의문문, 감탄문의 다섯 가지로 분류되는데, 기존의 방법으로는 대화체 문장에서 동일한 문장이 여러 가지 유형으로 해석되는 중의성의 문제가 발생한다. 본 논문에서는 문장 내에서 형태소 및 구문단위의 다양한 단서들을 활용하여 이를 해결하는 방법을 제안하며, 실험 결과 본 논문에서 제시한 문장 유형 분류 시스템이 만족할 만한 성능을 보이는 것을 확인하였다. 이를 이용하여 한국어-수화 변환 시스템에서 문장 유형에 따라 수화의 비수지신호가 다르게 표현되는 현상을 처리하는 과정과 한국어 음성 합성 시스템에서 문장 유형에 따라 문장의 문미 억양이 변하는 현상을 처리하는 과정을 제시한다. 문장 유형 정보를 음성 합성과 수화 자동 생성에 이용하는 것은 기존에는 연구되지 않았던 방법으로, 좀 더 자연스러운 음성과 수화 표현을 생성하는데 중요한 역할을 할 것으로 기대한다.

  • PDF

음성인식을 이용한 자막 자동생성 시스템 (Subtitle Automatic Generation System using Speech to Text)

  • 손원섭;김응곤
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.81-88
    • /
    • 2021
  • 최근 COVID-19로 인한 온라인 강의 영상과 같은 많은 영상이 생성되고 있는데 노동 시간의 한계와 비용의 부족 등으로 인해 자막을 보유한 영상이 일부분에 불과하여 청각장애인들의 정보 취득에 방해 요소로 대두되고 있다. 본 논문에서는 음성인식을 이용하여 자막을 자동으로 생성하고 종결 어미와 시간을 이용해 문장을 분리하여 자막을 생성함으로써 자막 생성에 드는 시간과 노동력을 줄일 수 있도록 하는 시스템을 개발하고자 한다.

어휘 사전에 없는 단어를 포함한 문서의 요약문 생성 방법 (Summary Generation of a Document with Out-of-vocabulary Words)

  • 이태석;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.530-531
    • /
    • 2018
  • 문서 자동 요약은 주요 단어 또는 문장을 추출하거나 문장을 생성하는 방식으로 요약한다. 최근 연구에서는 대량의 문서를 딥러닝하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 추출 요약이나 생성 요약 모두 핵심 단어를 인식하는 것이 매우 중요하다. 학습할 때 각 단어가 문장에서 출현한 패턴으로부터 의미를 인식하고 단어를 선별하여 요약한다. 결국 기계학습에서는 학습 문서에 출현한 어휘만으로 요약을 한다. 따라서 학습 문서에 출현하지 않았던 어휘가 포함된 새로운 문서의 요약에서 기존 모델이 잘 작동하기 어려운 문제가 있다. 본 논문에서는 학습단계에서 출현하지 않은 단어까지도 중요성을 인식하고 요약문을 생성할 수 있는 신경망 모델을 제안하였다.

  • PDF

STT로 생성된 자막의 자동 문장 분할 (Automatic sentence segmentation of subtitles generated by STT)

  • 김기현;김홍기;오병두;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.559-560
    • /
    • 2018
  • 순환 신경망(RNN) 기반의 Long Short-Term Memory(LSTM)는 자연어처리 분야에서 우수한 성능을 보이는 모델이다. 음성을 문자로 변환해주는 Speech to Text (STT)를 이용해 자막을 생성하고, 생성된 자막을 다른 언어로 동시에 번역을 해주는 서비스가 활발히 진행되고 있다. STT를 사용하여 자막을 추출하는 경우에는 마침표가 없이 전부 연결된 문장이 생성되기 때문에 정확한 번역이 불가능하다. 본 논문에서는 영어자막의 자동 번역 시, 정확도를 높이기 위해 텍스트를 문장으로 분할하여 마침표를 생성해주는 방법을 제안한다. 이 때, LSTM을 이용하여 데이터를 학습시킨 후 테스트한 결과 62.3%의 정확도로 마침표의 위치를 예측했다.

  • PDF

Chain-of-Thought와 Program-aided Language Models을 이용한 전제-가설-라벨 삼중항 자동 생성 (Generating Premise-Hypothesis-Label Triplet Using Chain-of-Thought and Program-aided Language Models)

  • 조희진;이창기;배경만
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.352-357
    • /
    • 2023
  • 자연어 추론은 두 문장(전제, 가설)간의 관계를 이해하고 추론하여 함의, 모순, 중립 세 가지 범주로 분류하며, 전제-가설-라벨(PHL) 데이터셋을 활용하여 자연어 추론 모델을 학습한다. 그러나, 새로운 도메인에 자연어 추론을 적용할 경우 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자원이 필요하다는 문제가 있다. 본 논문에서는 자연어 추론을 위한 학습 데이터인 전제-가설-라벨 삼중항을 자동 생성하기 위해 [1]에서 제안한 문장 변환 규칙 대신에 거대 언어 모델과 Chain-of-Thought(CoT), Program-aided Language Models(PaL) 등의 프롬프팅(Prompting) 방법을 이용하여 전제-가설-라벨 삼중항을 자동으로 생성하는 방법을 제안한다. 실험 결과, CoT와 PaL 프롬프팅 방법으로 자동 생성된 데이터의 품질이 기존 규칙이나 기본 프롬프팅 방법보다 더 우수하였다.

  • PDF

생성적 적대 네트워크로 자동 생성한 감성 텍스트의 성능 평가 (Evaluation of Sentimental Texts Automatically Generated by a Generative Adversarial Network)

  • 박천용;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권6호
    • /
    • pp.257-264
    • /
    • 2019
  • 최근 자연언어처리 분야에서 딥러닝 모델이 좋은 성과를 보이고 있다. 이러한 딥러닝 모델의 성능을 향상시키기 위해서는 많은 양의 데이터가 필요하다. 하지만 많은 양의 데이터를 모으기 위해서는 많은 인력과 시간이 소요되기 때문에 데이터 확장을 통해 이와 같은 문제를 해소할 수 있다. 그러나 문장 데이터의 경우 이미지 데이터에 비해 데이터 변형이 어렵기 때문에 다양한 문장을 생성할 수 있는 생성 모델을 통해 문장 데이터 자동 확장을 해보고자 한다. 본 연구에서는 최근 이미지 생성 모델에서 좋은 성능을 보이고 있는 생성적 적대 신경망 중 하나인 CS-GAN을 사용하여 학습 데이터로부터 새로운 문장들을 생성해 보고 유용성을 다양한 지표로 평가하였다. 평가 결과 CS-GAN이 기존의 언어 모델을 사용할 때보다 다양한 문장을 생성할 수 있었고 생성된 문장을 감성 분류기에 학습시켰을 때 감성 분류기의 성능이 향상됨을 보였다.

단락 자동 구분을 통한 중요 문자 추출 (Setences Extraction System using Automatic Division of Paragraph)

  • 김계성;이현주;정영규;서연경;손기준;이상조
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.233-237
    • /
    • 2000
  • 본 논문은 단락의 자동 구분을 통한 중요 문장 추출 시스템을 제안한다. 먼저 어휘의 재출현 여부와 어휘의 일치도, 어휘의 역할 변화를 파악하여 재출현 어휘에 대한 양상을 분석하고 이를 통하여 문장 간의 긴밀도를 정량적으로 계산한다. 다음으로 측정된 문장 간 긴밀도를 이용하여 사용자의 추출 범위에 따라 단락을 구분하고, 각 단락의 대표 문장을 선정하여 최종 요약문을 생성한다. 제안한 방법은 문서 제목, 문장의 위치, 수사 구조 등의 정보를 이용하지 않으며, 단순히 어휘의 출현 빈도만을 이용하던 기존의 통계적인 방법보다 질높은 요약문을 생성할 수 있다. 또한 제안한 방법론은 본 논문이 대상으로 삼고 있는 신문기사의 영역뿐만 아니라 다른 영역으로의 적용이 가능하다.

  • PDF

Instruction Tuning을 통한 한국어 언어 모델 문장 생성 제어 (Instruction Tuning for Controlled Text Generation in Korean Language Model)

  • 장진희;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.289-294
    • /
    • 2023
  • 대형 언어 모델(Large Language Model)은 방대한 데이터와 파라미터를 기반으로 문맥 이해에서 높은 성능을 달성하였지만, Human Alignment를 위한 문장 생성 제어 연구는 아직 활발한 도전 과제로 남아있다. 본 논문에서는 Instruction Tuning을 통한 문장 생성 제어 실험을 진행한다. 자연어 처리 도구를 사용하여 단일 혹은 다중 제약 조건을 포함하는 Instruction 데이터 셋을 자동으로 구축하고 한국어 언어 모델인 Polyglot-Ko 모델에 fine-tuning 하여 모델 생성이 제약 조건을 만족하는지 검증하였다. 실험 결과 4개의 제약 조건에 대해 평균 0.88의 accuracy를 보이며 효과적인 문장 생성 제어가 가능함을 확인하였다.

  • PDF

한국어 지식 그래프-투-텍스트 생성을 위한 데이터셋 자동 구축 (A Synthetic Dataset for Korean Knowledge Graph-to-Text Generation)

  • 정다현;이승윤;이승준;서재형;어수경;박찬준;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.219-224
    • /
    • 2022
  • 최근 딥러닝이 상식 정보를 추론하지 못하거나, 해석 불가능하다는 한계점을 보완하기 위해 지식 그래프를 기반으로 자연어 텍스트를 생성하는 연구가 중요하게 수행되고 있다. 그러나 이를 위해서 대량의 지식 그래프와 이에 대응되는 문장쌍이 요구되는데, 이를 구축하는 데는 시간과 비용이 많이 소요되는 한계점이 존재한다. 또한 하나의 그래프에 다수의 문장을 생성할 수 있기에 구축자 별로 품질 차이가 발생하게 되고, 데이터 균등성에 문제가 발생하게 된다. 이에 본 논문은 공개된 지식 그래프인 디비피디아를 활용하여 전문가의 도움 없이 자동으로 데이터를 쉽고 빠르게 구축하는 방법론을 제안한다. 이를 기반으로 KoBART와 mBART, mT5와 같은 한국어를 포함한 대용량 언어모델을 활용하여 문장 생성 실험을 진행하였다. 실험 결과 mBART를 활용하여 미세 조정 학습을 진행한 모델이 좋은 성능을 보였고, 자연스러운 문장을 생성하는데 효과적임을 확인하였다.

  • PDF

기술 용어에 대한 한국어 정의 문장 자동 생성을 위한 순환 신경망 모델 활용 연구 (Research on the Utilization of Recurrent Neural Networks for Automatic Generation of Korean Definitional Sentences of Technical Terms)

  • 최가람;김한국;김광훈;김유일;최성필
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.99-120
    • /
    • 2017
  • 본 논문에서는 지속적으로 커져가는 산업 시장에 대해 관련 연구자들이 이를 효율적으로 분석할 수 있는 반자동 지원 체제개발을 위한 기술 용어와 기술 개념에 대한 정의문 및 설명문을 자동으로 생성하는 한국어 문장 생성 모델을 제시한다. 한국어 정의 문장 생성을 위하여 딥러닝 기술 중 데이터의 전/후 관계를 포함한 시퀀스 레이블링이 가능한 LSTM을 활용한다. LSTM을 근간으로 한 두 가지 모델은 기술명을 입력할 시 그에 대한 정의문 및 설명문을 생성한다. 다양하게 수집된 대규모 학습 말뭉치를 이용해 실험한 결과, 본 논문에서 구현한 2가지 모델 중 CNN 음절 임베딩을 활용한 어절 단위 LSTM 모델이 용어에 대한 정의문 및 설명문을 생성하는데 더 나은 결과를 도출시킨다는 사실을 확인하였다. 본 논문의 연구 결과를 바탕으로 동일한 주제를 다루는 문장 집합을 생성할 수 있는 확장 모델을 개발할 수 있으며 더 나아가서는 기술에 대한 문헌을 자동으로 작성하는 인공지능 모델을 구현할 수 있으리라 사료된다.