• 제목/요약/키워드: 원본 학습 데이터

검색결과 86건 처리시간 0.037초

사전 학습 언어 모델을 이용한 한국어 문서 추출 요약 비교 분석 (A Comparative Study on the Korean Text Extractive Summarization using Pre-trained Language Model)

  • 조영래;백광현;박민지;박병훈;신수연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.518-521
    • /
    • 2023
  • 오늘날 과도한 정보의 양 속에서 디지털 문서 내 중요한 정보를 효율적으로 획득하는 것은 비용 효율의 측면에서 중요한 요구사항이 되었다. 문서 요약은 자연어 처리의 한 분야로서 원본 문서의 핵심적인 정보를 유지하는 동시에 중요 문장을 추출 또는 생성하는 작업이다. 이 중 추출요약은 정보의 손실 및 잘못된 정보 생성의 가능성을 줄이고 요약 가능하다. 그러나 여러 토크나이저와 임베딩 모델 중 적절한 활용을 위한 비교가 미진한 상황이다. 본 논문에서는 한국어 사전학습된 추출 요약 언어 모델들을 선정하고 추가 데이터셋으로 학습하고 성능 평가를 실시하여 그 결과를 비교 분석하였다.

페르소나 기반 한국어 대화 모델 (Persona-based Korean Conversational Model)

  • 장윤나;임정우;허윤아;양기수;박찬준;서재형;이승준;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.453-456
    • /
    • 2021
  • 대화형 에이전트가 일관성 없는 답변, 재미 없는 답변을 하는 문제를 해결하기 위하여 최근 페르소나 기반의 대화 분야의 연구가 활발히 진행되고 있다. 그러나 한국어로 구축된 페르소나 대화 데이터는 아직 구축되지 않은 상황이다. 이에 본 연구에서는 영어 원본 데이터에서 한국어로 번역된 데이터를 활용하여 최초의 페르소나 기반 한국어 대화 모델을 제안한다. 전처리를 통하여 번역 품질을 향상시킨 데이터에 사전 학습 된 한국어 모델인 KoBERT와 KoELECTRA를 미세조정(fine-tuning) 시킴으로써 모델에게 주어진 페르소나와 대화 맥락을 고려하여 올바른 답변을 선택하는 모델을 학습한다. 실험 결과 KoELECTRA-base 모델이 가장 높은 성능을 보이는 것을 확인하였으며, 단순하게 사용자의 발화만을 주는 것 보다 이전 대화 이력이 추가적으로 주어졌을 때 더 좋은 성능을 보이는 것을 확인할 수 있었다.

  • PDF

딥 러닝 기반의 SIFT 이미지 특징 검출 (SIFT Image Feature Detect based on Deep learning)

  • 이재은;문원준;서영호;김동욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.122-123
    • /
    • 2018
  • 본 논문에서는 옥타브(sacle vector, octave)를 0, 시그마(sigma)는 1.6, 간격(intervals)은 3으로 설정하여 검출한 RobHess SIFT 특징들로 데이터 셋을 만들어 딥 러닝 모델인 VGG-16을 기반으로 SIFT 이미지 특징을 검출하는 방법을 제안한다. DIV2K 데이터 셋을 $33{\times}33$ 크기로 잘라서 데이터 셋을 구성하였고, 흑백 영상으로 판별하는 SIFT와는 달리 RGB 영상을 사용 하였다. 영상을 좌 우 반전, 밝기, 회전, 크기를 조절하여 원본 영상을 변형시켜 네트워크 학습 및 평가를 진행하였다. 네트워크는 영상의 가운데에 위치한 픽셀이 특징점인지 아닌지를 판별한다. 검증 데이터의 결과 98.207%의 정확도를 얻었다.

  • PDF

크로마 키 기법을 적용한 데이터 증강 기법의 효용에 대한 연구 (Effectiveness of Data Augmentation Using Chroma Key Technique)

  • 이의재;황큰별;사재학;박상우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.456-458
    • /
    • 2023
  • 원본 이미지를 변형하여 학습용 데이터를 확장하는 기법에 대해서는 이전부터 꾸준히 논의된 바가 있다. 턴 테이블과 크로마 키를 이용하여 객체의 영상을 촬영하고 프레임을 추출하여 이미지 분류, 영상 내 객체 탐지 등에 사용이 가능한 데이터 셋의 확장 구축 방안에 대해 다루며, 성능 분석 결과 평균 90% 이상의 객체 검출률을 보였으며 객체 탐지 모델의 경우에서 보다 높은 정확도를 보임을 확인할 수 있었다. 영상내 단일 객체를 인지하기 위한 상황을 위해 본 논문이 제시하는 데이터셋 구축 방안은 충분한 효과를 보일 수 있을 것으로 기대된다.

RoBERTa 기반 데이터 증강을 통한 국내 학술 논문 분야 분류 연구 (Classification of Domestic Academic Papers Through RoBERTa-based Data Augmentation)

  • 김성식;양진환;최혁순;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1211-1212
    • /
    • 2023
  • 현재 대부분의 국내 학술 데이터 베이스는 개별 학술지 논문의 주제를 파악하는 표준화된 정보를 거의 제공하지 않고 있다. 본 연구에서는 논문의 제목만을 활용하여 학술 논문의 분야를 자동으로 분류하는 방법을 제안한다. 이를 위해 한국어로 사전 훈련된 KLUE-RoBERTa 모델을 사용하며, Back Translation 과 Chat-GPT 를 활용한 데이터 증강을 통해 모델의 성능을 향상한다. 연구 결과, Back Translation 과 Chat-GPT 를 사용하여 증강한 모델이 원본 데이터를 학습한 모델보다 약 11%의 성능 향상을 보였다.

언어 정보를 반영한 문장 점수 측정 기반의 문장 압축 (Sentence Compression based on Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.389-392
    • /
    • 2021
  • 문장 압축은 원본 문장의 중요한 의미를 보존하는 짧은 길이의 압축 문장을 생성하는 자연어처리 태스크이다. 문장 압축은 사용자가 텍스트로부터 필요한 정보를 빠르게 획득할 수 있도록 도울 수 있어 활발히 연구되고 있지만, 기존 연구들은 사람이 직접 정의한 압축 규칙이 필요하거나, 모델 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 사전 학습된 언어 모델을 통한 perplexity 기반의 문장 점수 측정을 통해 문장을 압축하여 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않은 연구 또한 존재하지만, 문장 점수 측정에 문장에 속한 단어들의 의미적 중요도를 반영하지 못하여 중요한 단어가 삭제되는 문제점이 존재한다. 본 논문은 언어 정보 중 품사 정보, 의존관계 정보, 개체명 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 측정에 반영하는 방법을 제안한다. 또한 제안한 문장 점수 측정 방법을 활용하였을 때 문장 점수 측정 기반 문장 압축 모델의 문장 압축 성능이 향상됨을 확인하였으며, 이를 통해 문장에 속한 단어의 언어 정보를 문장 점수 측정에 반영하는 것이 의미적으로 적절한 압축 문장을 생성하는 데 도움이 될 수 있음을 보였다.

CCTV 환경 저조도 영상의 GAN 기반 가시광선-적외선 영상 분리 및 복원 (Low Illumination CCTV Color Image Reconstruction Using VIS-NIR Image Separation Based on GAN)

  • 오교혁;이재린;전병우
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.175-176
    • /
    • 2019
  • 보안 시스템의 중요성이 늘어남에 따라 열악한 CCTV 영상 환경에서의 범죄 예방 및 검거의 중요성이 늘어나고 있다. 본 논문은 CCTV의 제약 환경에 맞는 데이터 취득, 근적외선 및 가시영역 혼합 영상의 분리 및 복원 방법을 제안한다. 데이터 취득 및 학습시킨 데이터의 성능은 PSNR 방법을 이용해 비교하였고, 저조도 영역의 근적외선과 가시영역의 분리 성능은 34dB 이상이 나왔다. 색 복원은 PSNR 측면에서는 22.5dB가 나왔고, 저조도 영역의 분리 성능과 비교하여 낮은 성능을 기록하다. 색복원의 평가 정도는 원본 영상과 주관적 평가방법을 사용하여 비교하였다.

  • PDF

YOLO v3 라이브러리를 이용한 CCTV 저장공간 확보 모델 제안 (Proposal of CCTV Storage Space Securing Model using YOLO v3 Library)

  • 김성익;김황래
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.105-106
    • /
    • 2022
  • 본 논문에서는 YOLO v3 라이브러리를 이용하여 CCTV 저장 공간을 확보하는 모델을 제안한다. 사회안전망을 구축하기 위해 CCTV 설치가 확대되고, 그에 따라 많은 CCTV가 운영됨에 있어 저장 공간이 부족한 현상이 늘고 있다. 이에 본 논문에서는 학습된 데이터 셋을 활용하여 CCTV 영상파일의 프레임을 확인하여 움직임이 있는 객체가 있는지 판단하고, 움직임이 감지되는 프레임 영상을 저장한다. 제안 모델을 적용하여 테스트 한 결과 원본 데이터 크기보다 결과 데이터 크기가 85% 감소됨을 확인하였다. 인적이 드문 곳에 설치된 CCTV의 경우 제안 모델을 적용할 경우, 저장 공간의 관리 및 운영이 용이해질 것으로 기대할 수 있다.

  • PDF

깊은 합성곱 신경망을 이용한 Synthetic Aperture Radar 영상 내 반전 잡음 성분 제거 기법 (A Despeckling Method Using Deep Convolutional Neural Network in Synthetic Aperture Radar Image)

  • 김문흠;이정현;정제창
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 추계학술대회
    • /
    • pp.66-69
    • /
    • 2017
  • 본 논문에서는 깊은 합성 곱 신경망 (Deep Convolutional Neural Network) 를 이용해서 SAR (Synthetic Aperture Radar) 영상의 반전 잡음 (speckle noise) 성분을 제거하는 기법을 제안하고자 한다. Deep Convolutional Neural Network는 이미지의 데이터 특성에 적합한 딥 러닝 방법이고, 이는 SAR 위성영상의 반전 잡음 제거에 사용해도 효과적이다. 반전 잡음 필터 모델 추정을 위한 학습은 임의로 반전 잡음을 합성한 트레이닝 이미지들과 원본 트레이닝 이미지들을 이용한 회귀모델을 통해 진행된다. 학습을 통해 얻은 반전 잡음 필터는 기존 알고리즘에 비해 우수한 외곽선 보존 성능을 나타냄을 확인하였다.

  • PDF

인공지능 학습을 위한 탑 모델링 제작에 대한 연구 (A Study on Top Modeling for Artificial Intelligence Training)

  • 박영채;이상화;이병권
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.521-524
    • /
    • 2023
  • 본 연구에서는 AI 인공지능을 활용한 통일신라 석탑 '경주 불국사 삼층석탑' 복원을 위해 석탑 3D모델링 과정에 대한 연구를 수행하였다. 산성비로 부식되어 갈라진 더 이상 원본의 형태를 알아 볼 수 없는 현재 통일신라 석탑 형태를 3D모델링 작업을 통하여 AI로 하여금 원활한 교육이 실시 되도록 하는 것을 목표로한다. 본래 제작 되어있는 3D 모델링은 많은 버텍스와 페이스로 학습 데이터가 많아 실제 활용하기에 어려움을 가지고 있다. 때문에 적은 양의 버텍스와 페이스로 새로운 3D 모델링 제작에 대한 필요성에 대해 확인하였다. 본 연구는 그에 필요한 석탑 모델링 과정에 대해 서술한다. 이를 위해 본 논문은 석탑에 대한 구조를 살피고 모델링에 활용된 프로그램의 장단점과 분석을 도출하였다. 본 연구를 통해 석탑 복원에 필요한 3D모델링 프로그램 활용의 전망과 더불어 인공지능 AI의 한계점을 3D 모델링의 정확도와 세밀함을 통하여 타파하고자 하였다.

  • PDF