• 제목/요약/키워드: 딥러닝 언어모델

검색결과 248건 처리시간 0.024초

딥러닝 기반의 한글 폰트 연구를 위한 한글 폰트 데이터셋 (Hangul Font Dataset for Korean Font Research Based on Deep Learning)

  • 고홍희;이현수;석정재;;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.73-78
    • /
    • 2021
  • 최근 딥러닝에 대한 관심이 증가하면서 이를 이용한 다양한 분야에서 연구가 진행되고 있다. 그러나 딥러닝 기반의 생성 모델을 이용하는 폰트의 자동 생성 연구들은 로마자 및 한자와 같은 몇 언어들에 국한되어 연구되고 있다. 한글 폰트 디자인은 매우 큰 시간과 비용이 들어가는 작업으로, 딥러닝을 이용하면 손쉽게 생성할 수 있다. 한글 폰트를 생성하는 연구는 딥러닝 기반의 생성 모델들과 발맞추기 위해 프로세스 자동화 관점에서 한글 폰트 데이터셋을 준비하는 것이 중요하다. 이를 위하여 본 논문에서는 딥러닝 기반의 한글 폰트 연구를 위한 한글 폰트 데이터셋을 제안하고. 그 데이터셋을 구성하는 방법을 기술한다. 본 논문에서 제안하는 한글 폰트 데이터셋을 기반으로 딥러닝 한글 폰트 생성 어플리케이션에 적용하는 과정을 통해 제안하는 데이터셋 구성의 유용성을 보인다.

한국어 학습 모델별 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (Comparison of Korean Classification Models' Korean Essay Score Range Prediction Performance)

  • 조희련;임현열;이유미;차준우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.133-140
    • /
    • 2022
  • 우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준('직업'), 행복한 삶의 조건('행복'), 돈과 행복('경제'), 성공의 정의('성공')로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의 점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 '직업' 답안지 점수 구간(평어) 예측 실험, 5개의 '행복' 답안지 점수 구간 예측 실험, 1개의 혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한 훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과 딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로 가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은 각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의 어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델 (LSTM based Language Model for Topic-focused Sentence Generation)

  • 김다해;이지형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

딥러닝 기반 온라인 리뷰의 언어학적 특성을 활용한 추천 시스템 성능 향상에 관한 연구 (A Study on the Enhancing Recommendation Performance Using the Linguistic Factor of Online Review based on Deep Learning Technique)

  • 장동수;이청용;김재경
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.41-63
    • /
    • 2023
  • 전자상거래 시장의 꾸준한 성장으로 인해 추천 시스템의 필요성은 점차 강조되고 있으며, 최근에는 추천 성능의 향상을 목적으로 리뷰 텍스트를 사용하는 연구가 활발히 진행되고 있다. 특히 많은 연구들은 리뷰 텍스트의 감성 점수를 활용하여 제안되고 있는데, 감성 점수만을 사용하는 방법론은 리뷰 텍스트에 존재하는 구체적인 선호도 정보의 활용 측면에 한계를 가지며 이는 결과적으로 성능 향상에 제약으로 작용하게 된다. 이를 개선하기 위해 본 연구는 딥러닝 기반 추천 모델에 온라인 리뷰 내 다양한 언어학적 요소들을 활용하여 고객의 선호도를 정교하게 학습할 수 있는 새로운 추천 방법론을 제안하였다. 이를 위해 먼저 고객과 상품 간 복잡한 상호작용을 고려할 수 있도록 딥러닝 모델을 통해 상호작용 관계를 비선형으로 학습하였다. 그리고 리뷰 텍스트를 효과적으로 활용할 수 있도록 언어학적 요소 중 고객의 구매 의사결정에 중요한 영향을 미치는 인지적 요인, 정서적 요인 그리고 언어 스타일 매칭을 사용하였다. 실험은 Amazon.com에서 수집한 온라인 리뷰 데이터를 사용하여 진행하였고, 실험 결과 제안 모델의 우수함을 검증할 수 있었다. 본 연구는 추천 시스템에서 리뷰 텍스트 내 고객 선호도에 대한 정보를 효과적으로 활용하는 방법론을 제안하여 연구의 이론적 및 방법론 측면에 기여하였다.

Distance LSTM-CNN with Layer Normalization을 이용한 음차 표기 대역 쌍 판별 (Verification of Transliteration Pairs Using Distance LSTM-CNN with Layer Normalization)

  • 이창수;천주룡;김주근;김태일;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.76-81
    • /
    • 2017
  • 외국어로 구성된 용어를 발음에 기반하여 자국의 언어로 표기하는 것을 음차 표기라 한다. 국가 간의 경계가 허물어짐에 따라, 외국어에 기원을 두는 용어를 설명하기 위해 뉴스 등 다양한 웹 문서에서는 동일한 발음을 가지는 외국어 표기와 한국어 표기를 혼용하여 사용하고 있다. 이에 좋은 검색 결과를 가져오기 위해서는 외국어 표기와 더불어 사람들이 많이 사용하는 다양한 음차 표기를 함께 검색에 활용하는 것이 중요하다. 음차 표기 모델과 음차 표기 대역 쌍 추출을 통해 음차 표현을 생성하는 기존 방법 대신, 본 논문에서는 신뢰할 수 있는 다양한 음차 표현을 찾기 위해 문서에서 음차 표기 후보를 찾고, 이 음차 표기 후보가 정확한 표기인지 판별하는 방식을 제안한다. 다양한 딥러닝 모델을 비교, 검토하여 최종적으로 음차 표기 대역 쌍 판별에 특화된 모델인 Distance LSTM-CNN 모델을 제안하며, 제안하는 모델의 Batch Size 영향을 줄이고 학습 시 수렴 속도 개선을 위해 Layer Normalization을 적용하는 방법을 보인다.

  • PDF

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구 (A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

딥러닝을 이용한 전이 기반 한국어 형태소 분석 및 품사 태깅 (A Transition based Joint Model for Korean Morpheme Segmentation and POS Tagging Using Deep Learning)

  • 민진우;나승훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.305-308
    • /
    • 2017
  • 한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 맞는 알맞은 품사를 결정하는 것은 매우 중요하다. 형태소의 품사를 태깅하는 대표적인 방법은 크게 음절 단위 형태소 분석과 단어 단위 형태소 분석의 두 가지로 나눌 수 있다. 본 논문에서는 의존 파싱 분야에서 널리 활용되고 있는 전이 기반 방식을 적용하여 전이 기반 단어 단위 한국어 형태소 분석 모델을 제안하고 해당 모델을 한국어 형태소 분석 데이터인 세종 품사 부착 말뭉치 셋에 적용하여 F1 97.77 %로 기존의 성능을 더욱 향상시켰다.

  • PDF

EyeBERT: 아이트래킹 기반의 휴먼 리딩을 반영한 추출 요약 기법 (EyeBERT: Eye tracking based Human Reading for Extractive Text Summarization)

  • 이설화;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.522-526
    • /
    • 2019
  • 추출 요약(Extractive summarization)은 문서내에 주요한 요약정보가 되는 문장 또는 단어를 추출하여 요약을 생성하는 기법이다. 딥러닝 기법들이 많이 발전하면서 요약 기법에도 sequence-to-sequence와 같은 많은 시도들이 있었지만 대부분의 방법론들은 딥러닝의 모델 구조관점으로 접근하거나 요약에 있어서 단순히 입력 텍스트를 넣고 알고리즘이 처리하는 머신 리딩(Machine reading)관점으로 접근한다. 텍스트 요약 태스크 자체는 사람이 텍스트에 대한 정보 파악을 요약문을 통해 빠르게 하고 싶은 궁극적인 목표가 있으므로, 사람이 텍스트 요약에 필요한 인지처리과정을 반영할 필요가 있다. 결국, 기존의 머신 리딩보다는 휴먼 리딩(Human reading)에 관한 이해와 구조적 접근이 필요하다. 따라서 본 연구는 휴먼 리딩을 위한 인지처리과정을 위해 아이트래킹 데이터 기반의 새로운 추출 요약 모델을 제안한다.

  • PDF

모바일을 위한 JavaCv를 이용한 Tensoflow모델 구동환경 개발 (Tensorflow Model Environment with JavaCv for Mobile Devices)

  • 박진상;오상권;이성진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.23-24
    • /
    • 2020
  • 현재 PC환경 뿐만 아니라 모바일 환경, 임베디드 환경에서 딥러닝 모델을 구동하기 위한 많은 연구들이 진행 중에 있다. 본 연구에서는 완성된 딥러닝 모델을 구동하는 환경을 Java로 구현하여 개발 접근성을 높이고자 한다. 이미지, 영상처리를 위해 OpenCV를 사용시 C++ API문서는 보편화되어있는 반면에 JavaCv API 문서는 그렇지 못하다. 그러나 모바일 개발 환경 특성상 Java언어로 작업한 코드를 안드로이드 스튜디오에서 작업 시 그대로 가져올 수 있어 개발이 용이하다. 모델 구동을 위한 전반적인 이미지 처리 및 작업환경을 개발하였다.

  • PDF

문법성 품질 예측에 기반한 음성 인식 오류 교정 (Grammatical Quality Estimation for Error Correction in Automatic Speech Recognition)

  • 서민택;나승훈;나민수;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.608-612
    • /
    • 2022
  • 딥러닝의 발전 이후, 다양한 분야에서는 딥러닝을 이용해 이전에 어려웠던 작업들을 해결하여 사용자에게 편의성을 제공하고 있다. 하지만 아직 딥러닝을 통해 이상적인 서비스를 제공하는 데는 어려움이 있다. 특히, 음성 인식 작업에서 음성 양식에서 이용 방안에 대하여 다양성을 제공해주는 음성을 텍스트로 전환하는 Speech-To-Text(STT)은 문장 결과가 이상치에 달하지 못해 오류가 나타나게 된다. 본 논문에서는 STT 결과 보정을 문법 교정으로 치환하여 종단에서 올바른 토큰들을 조합하여 성능 향상을 하기 위해 각 토큰 별 품질 평가를 진행하는 모델을 한국어에서 적용하고 성능의 향상을 확인한다.

  • PDF