• Title/Summary/Keyword: 학습데이터 구축

Search Result 1,024, Processing Time 0.031 seconds

A Study on the Development of Fire Evacuation Time Prediction Model Based on FDS Data (FDS 데이터 기반 화재 피난가능시간 예측모델 개발에 관한 연구)

  • Lee, Doo-Hee;Kim, Hak-Kyung;Choi, Doo Chan
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2022.10a
    • /
    • pp.83-84
    • /
    • 2022
  • 이 연구에서는 건축물 화재 시, 허용피난시간을 예측하기 위한 예측모델을 개발하는 것을 목표로 한다. 실제 건축물을 대상으로 화재시뮬레이션을 수행하여 FDS 데이터베이스를 구축하였으며, FDS데이터를 학습하여 설계단계에서 건축물 특성을 학습변수로 하여 기계학습을 통해 ASET을 도출하는 예측모델을 제안하였다. 예측모델은 학습데이터와 비교하였을 때 0.9 이상의 높은 R2값을 나타내었다.

  • PDF

Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling (Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축)

  • Young-Jun Lee;Chae-Gyun Lim;Yunsu Choi;Ji-Hui Lm;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

유비쿼터스 컴퓨팅을 위한 지능적인 사용자 위치 이동 학습 및 예측

  • 유지오;김경중;조성배
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2004.11a
    • /
    • pp.139-148
    • /
    • 2004
  • 사용자의 지리적 위치에 따른 서비스를 제공하는 위치기반서비스는 유비쿼터스 컴퓨팅의 중요한 응용으로 여러 위치 감지기술과 다양한 시험 및 상용 서비스들이 개발되어 왔다. 하지만 기존의 위치기반서비스는 단순히 위치와 서비스를 정적으로 연결하는 기법에 그치고 있어 서비스의 유연성이 떨어지는 한계가 있다. 이를 개선하기 위해 위치 정보로부터 고수준 정보를 추론하여 보다 지능적인 서비스를 제공하려는 연구들이 이루어지고 있다. 본 논문에서는 사용자의 위치이동 데이터를 학습하여 미래의 위치 이동 경로를 예측하는 기법을 제안한다. GPS(Global Positioning System)를 사용하여 수집된 시퀸스 데이터를 시퀸스 데이터 처리에 특화된 RSOM (Recurrent Self Organizing Map)을 사용하여 클러스터링하고 이를 마르코브 모델을 사용하여 학습하여 각 위치 이동 패턴 모델을 구축한다. 현재의 위치이동 패턴을 구축된 각 이동패턴 모델들과 비교하여 가장 유사한 위치 이동패턴으로 미래의 사용자이동을 예측한다. 제안한 위치이동 예측 기법을 평가하기 위해 실제 대학생의 생활을 기반으로 하여 GPS 데이터를 대학 캠퍼스 상에서 수집하고 이를 이용하여 제안한 방법의 학습 및 예측 성능을 평가한다. 그 결과 제안한 방법을 사용하여 사용자의 미래의 위치이동경로를 예측하는 것이 가능하고 불확실한 상황에서도 유연하게 예측을 수행함을 확인하였다.

  • PDF

Extraction of the Training Data for Building Case Frames from a Corpus (말뭉치로부터 격틀 구축에 필요한 학습 데이터 추출)

  • Yang, Dan-Hee;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.287-292
    • /
    • 1998
  • 실용적인 격틀(Case frame) 정보를 말뭉치로부터 자동구축하기 위해서는 대량의 홀문장이 필요하다. 그리고 국어 문장 형식은 영어와 많은 차이점이 있다. 또한 기존의 격틀 구축 연구에서 전제했던 광범위한 학습 데이터와 언어학적 지식은 국어에 대해 현재 존재하지 않는다. 그러므로 본 연구는 그러한 문제점들을 밝히고 현실적인 접근 방법을 제시한다. 그리고 겹문장을 홑문장 형태의 문장들로 바꾸기 위한 알고리즘을 제시한다.

  • PDF

A Study on Synthesizing Training Data for One-stage Object Detector (단일 단계 검출 방법을 위한 이미지 합성기반 학습 데이터 증강에 관한 연구)

  • Lee, Seon-Gyeong;Jeong, Chi Yoon;Moon, KyeongDeok;Kim, Chae-Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.446-450
    • /
    • 2020
  • 딥러닝 기반의 영상 분석 방법들은 많은 양의 학습 데이터가 필요하며, 학습 데이터 구축에는 많은 시간과 노력이 소요된다. 특히 객체 검출 분야의 경우 영상 내 객체의 위치, 크기, 범주 등의 정보가 모두 필요하여 학습 데이터 구축에 더 많은 어려움이 있으며, 이를 해결하기 위해 최근 이미지 합성기반 데이터 증강에 관한 연구가 활발히 진행되고 있다. 이미지 합성기반 데이터 증강 방법은 배경 영상에 객체를 합성할 때 객체와 배경 영상이 접한 영역에서 아티팩트(Artifact)가 발생하며, 이는 객체 검출 모델이 아티팩트를 객체의 특징으로 모델링하여 검출 성능이 저하되는 원인이 된다. 이러한 문제를 해결하기 위하여 본 논문에서는 양방향 필터 기반의 이미지 합성 방법을 제안하고, 단일 단계 검출의 대표적인 방법인 RetinaNet을 이용하여 이미지 합성기반 데이터 증강 방법의 성능을 분석하였다. 공개 데이터셋에 대한 실험 결과 본 논문에서 사용한 단일 검출 방법 및 데이터 증강 기법을 사용하면 더 적은 양의 증강 데이터로 기존 방법과 동일한 성능을 보여주는 것을 확인하였다.

Multi-faceted Image Dataset Construction Method Based on Rotational Images. (회전 영상 기반 다면 영상 데이터셋 구축 방법)

  • Kim, Ji-Seong;Heo, Gyeongyong;Jang, Si-Woong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.10a
    • /
    • pp.75-77
    • /
    • 2021
  • In order to find objects in an image through deep learning technology, an image dataset for learning is required. In order to increase the recognition rate of objects, a large amount of image learning data is required. It is difficult for individuals to build large amounts of datasets because it is expensive. This paper introduces a method for more easily constructing an image dataset including several sides of an object by photographing a rotating image. A method of constructing a dataset by placing an object on a rotating plate, photographing it, and dividing and synthesizing the captured images according to the needs is proposed.

  • PDF

Pre-trained Language Model for Table Question and Answering (표 질의응답을 위한 언어 모델 학습 및 데이터 구축)

  • Sim, Myoseop;Jun, Changwook;Choi, Jooyoung;Kim, Hyun;Jang, Hansol;Min, Kyungkoo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.335-339
    • /
    • 2021
  • 기계독해(MRC)는 인공지능 알고리즘이 문서를 이해하고 질문에 대한 정답을 찾는 기술이다. MRC는 사전 학습 모델을 사용하여 높은 성능을 내고 있고, 일반 텍스트문서 뿐만 아니라 문서 내의 테이블(표)에서도 정답을 찾고자 하는 연구에 활발히 적용되고 있다. 본 연구에서는 기존의 사전학습 모델을 테이블 데이터에 활용하여 질의응답을 할 수 있는 방법을 제안한다. 더불어 테이블 데이터를 효율적으로 학습하기 위한 데이터 구성 방법을 소개한다. 사전학습 모델은 BERT[1]를 사용하여 테이블 정보를 인코딩하고 Masked Entity Recovery(MER) 방식을 사용한다. 테이블 질의응답 모델 학습을 위해 한국어 위키 문서에서 표와 연관 텍스트를 추출하여 사전학습을 진행하였고, 미세 조정은 샘플링한 테이블에 대한 질문-답변 데이터 약 7만건을 구성하여 진행하였다. 결과로 KorQuAD2.0 데이터셋의 테이블 관련 질문 데이터에서 EM 69.07, F1 78.34로 기존 연구보다 우수한 성능을 보였다.

  • PDF

Prediction of harmful algal cell density in Lake Paldang using machine learning (머신러닝을 활용한 팔당호 유해남조 세포수 예측)

  • Seohyun Byeon;Hankyu Lee;Jin Hwi Kim;Jae-Ki Shin;Yongeun Park
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.234-234
    • /
    • 2023
  • 유해 남조 대발생(Harmful Algal blooms, HABs)이 담수호에 발생하면 마이크로시스틴과 같은 독성물질과 맛·냄새 물질을 생성하여 상수원이용과 친수활동을 방해한다. 그래서 유해 남조 대발생 전 유해남조 세포수를 예측하여 선제적 대응하는 것은 중요하다. 따라서 본 연구는 머신러닝기반 Random Forest(RF)를 활용하여 팔당댐 앞의 유해남조 세포수를 예측하는 모델을 개발하고 성능을 평가하고자 한다. 모델 구축을 위해 2012년 4월부터 2021년 12월까지의 팔당호(삼봉리, 경안천) 및 남북한강(의암댐~이포보)권역의 조류, 수질, 수리/수문, 기상 자료를 수집하여 입력 및 출력 자료로 이용하였다. 수집된 데이터에는 다양한 입력변수들이 있어 남조 세포수 예측 성능 비교를 위한 전체 26개 변수 적용과 통계학적으로 상관관계가 높은 12개 변수 적용을 통해 모델을 구축하였다. 입력, 출력 자료로 이용한 유해남조 세포수는 로그변환된 값으로 사용하였으며 일반적인 조류 시료 채취기간이 7일이므로 7일 후를 예측하기 위한 모델을 구축하였다. 구축한 모델의 성능은 실측데이터와 예측데이터의 R2로 산출하여 평가하였다. 전체 26개 입력변수로 모델 구축 후 학습 및 검증 수행 결과 R2의 학습 0.803, 검증 0.729로 나타났고, 유해남조 세포수와 유의미한 상관관계를 보이는 12개 입력변수로 모델 구축 후 학습 및 검증 수행 R2은 학습 0.784, 검증 0.731로 나타났다. 두 모델의 성능을 살펴본 결과 입력변수 개수의 변화에 따른 성능차이는 크지 않은 것으로 나타났으며, 남조세포수 예측을 위한 모델로서 활용가능함을 알 수 있었다. 향후 연구에서는 Random Forest 외 다른 기계학습 모델들과 딥러닝 모델을 통해 남조세포수 예측 성능이 높은 모델을 구축해볼 필요성이 있다.

  • PDF

Movie Corpus Emotional Analysis Using Emotion Vocabulary Dictionary (감정 어휘 사전을 활용한 영화 리뷰 말뭉치 감정 분석)

  • Jang, Yeonji;Choi, Jiseon;Park, Seoyoon;Kang, Yejee;Kang, Hyerin;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.379-383
    • /
    • 2021
  • 감정 분석은 텍스트 데이터에서 인간이 느끼는 감정을 다양한 감정 유형으로 분류하는 것이다. 그러나 많은 연구에서 감정 분석은 긍정과 부정, 또는 중립의 극성을 분류하는 감성 분석의 개념과 혼용되고 있다. 본 연구에서는 텍스트에서 느껴지는 감정들을 다양한 감정 유형으로 분류한 감정 말뭉치를 구축하였는데, 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 분류한 감정 어휘 사전을 사용하였다. 9가지 감정 유형으로 분류된 한국어 감정 어휘 사전을 바탕으로 한국어 영화 리뷰 말뭉치에 9가지 감정 유형의 감정을 태깅하여 감정 분석 말뭉치를 구축하고, KcBert에 학습시켰다. 긍정과 부정으로 분류된 데이터로 사전 학습된 KcBert에 9개의 유형으로 분류된 데이터를 학습시켜 기존 모델과 성능 비교를 한 결과, KcBert는 다중 분류 모델에서도 우수한 성능을 보였다.

  • PDF

Construction of a Parallel Corpus for Instant Messenger Spelling Correction and Related Issues (메신저 맞춤법 교정 병렬 말뭉치의 구축과 쟁점)

  • HUANG YINXIA;Jin-san An;Kil-im Nam
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.545-550
    • /
    • 2022
  • 본 연구의 목적은 2021년 메신저 언어 200만 어절을 대상으로 수행된 맞춤법 교정 병렬 말뭉치의 설계와 구축의 쟁점을 소개하고, 교정 말뭉치의 주요 교정 및 주석 내용을 기술함으로써 맞춤법 교정 병렬 말뭉치의 특성을 분석하는 것이다. 2021년 맞춤법 교정 병렬 말뭉치의 주요 목표는 메신저 언어의 특수성을 살림과 동시에 형태소 분석이나 기계 번역 등 한국어 처리 도구가 분석할 수 있는 수준으로 교정하는 다소 상충되는 목적을 구현하는 것이었는데, 이는 교정의 수준과 병렬의 단위 설정 등 상당한 쟁점을 내포한다. 본 연구에서는 말뭉치 구축 시점에서 미처 논의하지 못한 교정 수준의 쟁점과 교정 전후의 통계적 특성을 함께 논의하고자 하며, 다음과 같은 몇 가지 하위 내용을 중심으로 논의하고자 한다.첫째, 맞춤법 교정 병렬 말뭉치의 구조 설계와 구축 절차에 대한 논의로, 2022년 초 국내 최초로 공개된 한국어 맞춤법 교정 병렬 말뭉치('모두의 말뭉치'의 일부)의 구축 과정에서 논의되어 온 말뭉치 구조 설계와 구축 절차를 논의한다. 둘째, 문장 단위로 정렬된 맞춤법 교정 말뭉치에서 관찰 가능한 띄어쓰기, 미등재어, 부호형 이모티콘 등의 메신저 언어의 몇 가지 특성을 살펴본다. 마지막으로, 2021년 메신저 맞춤법 교정 말뭉치의 구축 단계에서 미처 논의되지 못한 남은 문제들을 각각 데이터 구조 설계와 구축 차원의 주요 쟁점을 중심으로 논의한다. 특히 메신저 맞춤법 병렬 말뭉치의 주요 목표인 사전학습 언어모델의 학습데이터로서의 가치와 메신저 언어 연구의 기반 자료 구축의 관점에서 맞춤법 교정 병렬 말뭉치 구축의 의의와 향후 과제를 논의하고자 한다.

  • PDF