• 제목/요약/키워드: 딥러닝 언어모델

검색결과 249건 처리시간 0.027초

요약문 기반 문학 스타일 문장 생성 (Generating Literature-Style Sentences based on Summarized Text )

  • 최부광;이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.67-70
    • /
    • 2022
  • 최근 자연어 생성 연구는 딥러닝 기반의 사전 학습 모델을 중심으로 활발하게 연구되고 있다. 하위 분야 중 하나인 텍스트 확장은 입력 텍스트를 출력에 잘 반영하는 것이 무엇보다도 중요하다. 기존 한국어 기반 텍스트 확장 연구의 경우 몇 개의 개념 집합에 기반해 문장을 생성하도록 한다. 그러나 이는 사람의 실제 발화 길이에 비해 짧고 단순한 문장만을 생성한다는 문제점이 존재한다. 본 논문은 이러한 문제점을 개선하면서 문학 스타일의 문장들을 생성하는 모델을 제안하였다. 또한 동일 모델에 대해 학습 데이터의 양에 따른 성능도 비교하였다. 그 결과, 짧은 요약문을 통해 문학 스타일의 여러 문장들을 생성하는 것을 확인하였고, 학습 데이터를 추가한 모델이 성능이 더 높게 나타나는 것을 확인하였다.

  • PDF

감정 분석에서의 심리 모델 적용 비교 연구 (A Comparative Study on Sentiment Analysis Based on Psychological Model)

  • 김해준;도준호;선주오;정서희;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.450-452
    • /
    • 2020
  • 기술의 발전과 함께 사용자에게 가까이 자리 잡은 소셜 네트워크 서비스는 이미지, 동영상, 텍스트 등 활용 가능한 데이터의 수를 폭발적으로 증가시켰다. 작성자의 감정을 포함하고 있는 텍스트 데이터는 시장 조사, 주가 예측 등 다양한 분야에서 이용할 수 있으며, 이로 인해 긍부정의 이진 분류가 아닌 다중 감정 분석의 필요성 또한 높아지고 있다. 본 논문에서는 딥러닝 기반 감정 분류에 심리학 이론의 기반 감정 모델을 활용한 결합 모델과 단일 모델을 비교한다. 학습을 위해 AI Hub에서 제공하는 데이터와 노래 가사 데이터를 복합적으로 사용하였으며, 결과에서는 대부분의 경우에 결합 모델이 높은 결과를 보였다.

  • PDF

데이터 불균형 기법의 부작용 완화를 위한 어텐션 기반 앙상블 (Attention-Based Ensemble for Mitigating Side Effects of Data Imbalance Method)

  • 박요한;최용석;;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.546-551
    • /
    • 2023
  • 일반적으로 딥러닝 모델은 모든 라벨에 데이터 수가 균형을 이룰 때 가장 좋은 성능을 보인다. 그러나 현실에서는 특정라벨에 대한 데이터가 부족한 경우가 많으며 이로 인해 불균형 데이터 문제가 발생한다. 이에 대한 해결책으로 오버샘플링과 가중치 손실과 같은 데이터 불균형 기법이 연구되었지만 이러한 기법들은 데이터가 적은 라벨의 성능을 개선하는 동시에 데이터가 많은 라벨의 성능을 저하시키는 부작용을 가지고 있다. 본 논문에서는 이 문제를 완화시키고자 어텐션 기반의 앙상블 기법을 제안한다. 어텐션 기반의 앙상블은 데이터 불균형 기법을 적용한 모델과 적용하지 않은 모델의 출력 값을 가중 평균하여 최종 예측을 수행한다. 이때 가중치는 어텐션 메커니즘을 통해 동적으로 조절된다. 그로므로 어텐션 기반의 앙상블 모델은 입력 데이터 특성에 따라 가중치를 조절할 수가 있다. 실험은 에세이 자동 평가 데이터를 대상으로 수행하였다. 실험 결과로는 제안한 모델이 데이터 불균형 기법의 부작용을 완화하고 성능이 개선되었다.

  • PDF

RNN을 이용한 동작기록 마이닝 기반의 추천 방법 (A Code Recommendation Method Using RNN Based on Interaction History)

  • 조희태;이선아;강성원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권12호
    • /
    • pp.461-468
    • /
    • 2018
  • 개발자들은 소프트웨어 개발과 유지보수 작업 중 하나의 코드를 수정하는데 들이는 시간보다 이를 위해 코드를 탐색하고 이해하는데 더 많은 시간을 소모한다. 코드를 탐색하는 시간을 줄이기 위하여 기존 연구들은 데이터 마이닝과 통계적 언어모델 기법을 이용하여 수정할 코드를 추천하여 왔다. 그러나 이 경우 모델의 학습 데이터와 입력되는 데이터가 정확하게 일치하지 않으면 추천이 발생하지 않는다. 이 논문에서 우리는 딥러닝의 기법 중 하나인 Recurrent Neural Networks에 동작기록을 학습시켜 기존 연구의 상기 문제점 없이 수정할 코드의 위치를 추천하는 방법을 제안한다. 제안 방법은 RNN과 동작기록을 활용한 추천 기법으로 평균 약 91%의 정확도와 71%의 재현율을 달성함으로써 기존의 추천방법보다 코드 탐색 시간을 더욱 줄일 수 있게 해 준다.

딥러닝 자동 분류 모델을 위한 공황장애 소셜미디어 코퍼스 구축 및 분석 (Building and Analyzing Panic Disorder Social Media Corpus for Automatic Deep Learning Classification Model)

  • 이수빈;김성덕;이주희;고영수;송민
    • 정보관리학회지
    • /
    • 제38권2호
    • /
    • pp.153-172
    • /
    • 2021
  • 본 연구는 공황장애 말뭉치 구축과 분석을 통해 공황장애의 특성을 살펴보고 공황장애 경향 문헌을 분류할 수 있는 딥러닝 자동 분류 모델을 만들고자 하였다. 이를 위해 소셜미디어에서 수집한 공황장애 관련 문헌 5,884개를 정신 질환 진단 매뉴얼 기준으로 직접 주석 처리하여 공황장애 경향 문헌과 비 경향 문헌으로 분류하였다. 이 중 공황장애 경향 문헌에 나타난 어휘적 특성 및 어휘의 관계성을 분석하기 위해 TF-IDF값을 산출하고 단어 동시출현 분석을 실시하였다. 공황장애의 특성 및 증상 간의 관련성을 분석하기 위해 증상 빈도수와 주석 처리된 증상 번호 간의 동시출현 빈도수를 산출하였다. 또한, 구축한 말뭉치를 활용하여 딥러닝 자동 분류 모델 학습 및 성능 평가를 하였다. 이를 위하여 최신 딥러닝 언어 모델 BERT 중 세 가지 모델을 활용하였고 이 중 KcBERT가 가장 우수한 성능을 보였다. 본 연구는 공황장애 관련 증상을 겪는 사람들의 조기 진단 및 치료를 돕고 소셜미디어 말뭉치를 활용한 정신 질환 연구의 영역을 확장하고자 시도한 점에서 의의가 있다.

생성적 적대 네트워크로 자동 생성한 감성 텍스트의 성능 평가 (Evaluation of Sentimental Texts Automatically Generated by a Generative Adversarial Network)

  • 박천용;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권6호
    • /
    • pp.257-264
    • /
    • 2019
  • 최근 자연언어처리 분야에서 딥러닝 모델이 좋은 성과를 보이고 있다. 이러한 딥러닝 모델의 성능을 향상시키기 위해서는 많은 양의 데이터가 필요하다. 하지만 많은 양의 데이터를 모으기 위해서는 많은 인력과 시간이 소요되기 때문에 데이터 확장을 통해 이와 같은 문제를 해소할 수 있다. 그러나 문장 데이터의 경우 이미지 데이터에 비해 데이터 변형이 어렵기 때문에 다양한 문장을 생성할 수 있는 생성 모델을 통해 문장 데이터 자동 확장을 해보고자 한다. 본 연구에서는 최근 이미지 생성 모델에서 좋은 성능을 보이고 있는 생성적 적대 신경망 중 하나인 CS-GAN을 사용하여 학습 데이터로부터 새로운 문장들을 생성해 보고 유용성을 다양한 지표로 평가하였다. 평가 결과 CS-GAN이 기존의 언어 모델을 사용할 때보다 다양한 문장을 생성할 수 있었고 생성된 문장을 감성 분류기에 학습시켰을 때 감성 분류기의 성능이 향상됨을 보였다.

Bidirectional Stack Pointer Network를 이용한 한국어 의존 파싱 (Bidirectional Stack Pointer Network for Korean Dependency Parsing)

  • 홍승연;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.19-22
    • /
    • 2018
  • 본 논문에서는 기존 Stack Pointer Network의 의존 파싱 모델을 확장한 Bi-Stack Pointer Network를 제안한다. Stack Pointer Network는 기존의 Pointer Network에 내부 stack을 만들어 전체 문장을 읽어 dependency tree를 구성한다. stack은 tree의 깊이 우선 탐색을 통해 선정되고 Pointer Network는 stack의 top 단어(head)의 자식(child)을 선택한다. 제안한 모델은 기존의 Stack Pointer Network가 지배소(head)정보로 의존소(child)를 예측하는 부분에 Biaffine attention을 통해 의존소(child)에서 지배소(head)를 예측하는 방향을 추가하여 양방향 예측이 가능하게 한 모델이다. 실험 결과, 제안 Bi-Stack Pointer Network모델은 UAS 91.53%, LAS 90.93%의 성능을 보여주어 기존 최고 성능을 개선시켰다.

  • PDF

자연어 추론에서의 교차 검증 앙상블 기법 (Cross-Validated Ensemble Methods in Natural Language Inference)

  • 양기수;황태선;오동석;박찬준;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.8-11
    • /
    • 2019
  • 앙상블 기법은 여러 모델을 종합하여 최종 판단을 산출하는 기계 학습 기법으로서 딥러닝 모델의 성능 향상을 보장한다. 하지만 대부분의 기법은 앙상블만을 위한 추가적인 모델 또는 별도의 연산을 요구한다. 이에 우리는 앙상블 기법을 교차 검증 방법과 결합하여 앙상블 연산을 위한 비용을 줄이며 일반화 성능을 높이는 교차 검증 앙상블 기법을 제안한다. 본 기법의 효과를 입증하기 위해 MRPC, RTE 데이터셋과 BiLSTM, CNN, BERT 모델을 이용하여 기존 앙상블 기법보다 향상된 성능을 보인다. 추가로 교차 검증에서 비롯한 일반화 원리와 교차 검증 변수에 따른 성능 변화에 대하여 논의한다.

  • PDF

딥러닝을 이용한 한국어 VQA (Korean VQA with Deep learning)

  • 배장성;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.364-366
    • /
    • 2018
  • Visual Question Answering(VQA)은 주어진 이미지와 질문에 대해 알맞은 정답을 찾는 기술이다. VQA는 어린이 학습, 인공지능 비서 등 여러 분야에 활용할 수 있는 중요한 기술이다. 그러나 관련된 한국어 데이터를 확보하기 힘든 이유로 한국어를 이용한 연구는 이루어지지 못하고 있다. 본 논문에서는 기존 영어 VQA 데이터를 한글로 번역하여 한국어 VQA 데이터로 사용하며, 이미지 정보와 질문 정보를 적절히 조절할 수 있는 Gate를 한국어 VQA에 적용한다. 실험 결과, 본 논문에서 제안한 모델이 영어 및 한국어 VQA 데이터에서 다른 모델보다 더 좋은 성능을 보였다.

  • PDF

딥러닝을 활용한 한국어 기반 색상 팔레트 생성 (Korean-based color palette creation using deep learning)

  • 팽현석;김현우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.559-562
    • /
    • 2020
  • 본 논문에서는 한국어 입력 텍스트의 의미를 반영하는 색상 팔레트를 생성하는 방법을 제안한다. 기존 영문 모델에서 한국어의 특수성을 고려하여 입력 방법과 형태소 분석, 임베딩 등 여러 조건을 달리한 접근을 시도하고 최종적으로 두개의 모델을 선정하여 평가를 진행한다. 정량적 평가인 단일 팔레트 다양성 평가와 정성적 평가인 사용자 평가를 진행하였으며 결과 기존 영문 버전보다 다양성이 높았고 사용자가 실제 팔레트 보다 생성된 팔레트를 선호하는 비율도 향상되었다. 이번 연구로 한국어 임베딩을 활용하여 팔레트를 생성하였을 때 보다 다양한 색상과 의미적으로도 적합한 색상을 선정함을 확인할 수 있었다.

  • PDF