• 제목/요약/키워드: Ensemble network

검색결과 190건 처리시간 0.035초

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 (Sound event detection model using self-training based on noisy student model)

  • 김남균;박창수;김홍국;허진욱;임정은
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.479-487
    • /
    • 2021
  • 본 논문에서는 잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 기법을 제안한다. 제안된 음향 사건 검지 모델은 두 단계로 구성된다. 첫 번째 단계에서는 잔차 합성곱 순환 신경망(Residual Convolutional Recurrent Neural Network, RCRNN)을 훈련하여 레이블이 지정되지 않은 비표기 데이터셋의 레이블 예측에 활용한다. 두 번째 단계에서는 세 가지 잡음 종류를 적용한 잡음 학생 모델을 자가학습 기법으로 반복하여 학습한다. 여기서 잡음 학생 모델은 SpecAugment, Mixup, 시간-주파수 이동을 활용한 특징 잡음, 드롭아웃을 활용한 모델 잡음, 그리고 semi-supervised loss function을 적용한 레이블 잡음을 활용하여 학습된다. 제안된 음향 사건 검지 모델의 성능은 Detection and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge Task 4의 validation set으로 평가하였다. DCASE 2020 챌린지 데이터셋의 baseline 및 최상위 랭크된 모델과 이벤트 단위 F1 점수 성능을 비교한 결과, 제안된 음향 사건 검지 모델이 단일 모델과 앙상블 모델에서 최상위 모델 대비 F1 점수를 각각 4.6 %와 3.4 % 향상시켰다.

애니메이션 <플랫 라이프>의 모자이크 이미지 분석 (Analysis of Mosaic Image of Animation )

  • 이지현
    • 만화애니메이션 연구
    • /
    • 통권49호
    • /
    • pp.465-491
    • /
    • 2017
  • 본고는 카툰의 외양적 모습을 충실하게 따르는 애니메이션 <플랫 라이프>를 분석하고, 그 외양의 뒤편에 숨겨진 주제와 서사의 방식에 대한 세밀한 분석을 목표로 삼은 연구논문이다. 이 과정에서 모자이크 영상의 내용 전달 방식을 이용해서 <플랫 라이프>가 말하고 있는 주제를 분석한다. 카툰의 서사는 일반적으로 양태적인 부분에서 그 차이점을 논하는 것이 대다수이지만, 이 작품은 나아가 일반 내러티브 영화의 선형적 서사에 도달하는 것이 특징이다. 미자넷 머레이가 설명하듯, 모자이크적 사고방식(mosaic approach)을 통해 모자이크적 접근방식으로 주제에 다가가는 영상 이미지를 '모자이크 영상'이라 칭한다면, 그들 중 영화(film)의 포맷으로 소개되는 작품을 '모자이크 영화'라고 한정시킬 수 있다. 우선 <플랫 라이프>는 개념적으로 '모자이크 영상'의 특성을 이용하면서, 나아가 '모자이크 영화'의 서사 특징을 활용하는 작품이다. 작품을 분기별로 분석하면, 전반부가 개방된 모자이크 영상 플랫폼의 성향을 한껏 드러내고, 후반부는 영화서사의 선형적 내러티브 방식을 도입한다는 것을 알게 된다. 본고는 '멀티 플롯 필름'의 서사 방식을 모자이크 내러티브(mosaic narrative) 영화와, 네트워크 내러티브(network narrative) 영화, 그리고 멀티 드래프트 필름(multi-draft film)의 세 가지로 구분하고, 병렬되거나 병치되는 이야기가 함께 엮이는 '네트워크 내러티브 필름'의 서사가 <플랫 라이프>의 결말부를 이끌고 있다고 분석한다. 다시 말해, 초반부가 '앙상블 필름의 확장판'으로서 '모자이크 내러티브' 를 따른다면, 후반부는 충실하게 '네트워크 내러티브'를 따르는 것이다. 주제를 말하는 방식에서도 이 애니메이션 영화는 모자이크 영상의 말하기 방식을 활용한다. 그러므로 카툰의 양태적 성향을 따라서 개방적인 방식으로 '유머' 나 '풍자'의 의미를 도출해낸다고 말할 수 있다. 전반부의 모자이크 내러티브 방식에서 다소 모호한 일상성이 드러난다면, 후반부에서는 선형 서사를 통해 '현대 사회에서 인간 이기심의 실체'라는 다소 심도 있는 주제로 나아간다. 이렇듯 풍자화의 외향을 지닌 <플랫라이프>는 실제로 의미를 '해석'할 수 있는 어른들을 대상으로 한 광범위한 사회비판적인 목표를 바라보는 애니메이션이다.

다중 선형 회귀를 이용한 PNU/CME CGCM의 동아시아 여름철 강수예측 보정 연구 (A Correction of East Asian Summer Precipitation Simulated by PNU/CME CGCM Using Multiple Linear Regression)

  • 황윤정;안중배
    • 한국지구과학회지
    • /
    • 제28권2호
    • /
    • pp.214-226
    • /
    • 2007
  • 강수는 다양한 대기 변수들의 영향으로 나타나기 때문에 비선형성이 매우 강하다. 따라서 역학 모형을 통해 예측된 강수의 보정은 비선형 모형인 인공 신경망 등을 통해 가능할 것이지만, 인공 신경망의 경우 초기 가중치 선택, 지역 최소화 문제, 뉴런의 수 결정 등의 문제로 인한 한계가 있다. 그러므로 본 연구에서는 가장 보편적으로 사용되는 다중 선형 회귀 모형을 이용하여 CGCM에 의해 모사된 강수를 보정하였으며, 예측성을 살펴보았다. 이를 위하여 우선 PNU/CME 접합 대순환 모형(Coupled General Circulation model, CGCM)(박혜선과 안중배, 2004)을 이용하여 1979년부터 2005년까지 매해 4월부터 8월까지 5개월간 앙상블 적분을 하였다. 적분 결과 중 한반도를 포함한 동북아시아 지역$(110^{\circ}E-145^{\circ}E,\;25^{\circ}N-55^{\circ}N)$의 여름철인 6월(리드 2), 7월(리드 3), 8월(리드 4) 및 여름철 평균인 JJA(from June to August) 기간의 PNU/CME CGCM에 의해 모사된 강수를 보정하기 위해 다중 선형 회귀(Multiple Linear Regression, MLR)를 이용하였다. PNU/CME 접합 대순환 모형의 결과 중 강수, 500 hPa 연직 속도, 200 hPa 발산장, 지상 기온 등의 예측 인자와 관측 강수와의 선형적인 관계를 이용하여 MLR 모형을 구축하였다. 그리고 교차 검증(cross- validation)을 수행하여 PNU/CME 접합 대순환 모형의 결과와 교차 검증 결과를 비교하였다. 상관계수, 적중률 (hit rate), 오보율(false alarm rate) 그리고 Heidke 기술 점수(Heidke skill score) 등을 살펴본 바, 보정하지 않은 모형의 결과에 비해 MLR 모형을 이용하여 보정한 결과의 강수에 대한 예측성이 뛰어난 것을 알 수 있었다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

인버스 모델링을 이용한 지표면 이산화탄소 플럭스 추정 향상을 위한 항공기 관측 이산화탄소 자료동화 체계 개발 (Development of the Aircraft CO2 Measurement Data Assimilation System to Improve the Estimation of Surface CO2 Fluxes Using an Inverse Modeling System)

  • 김현정;김현미;조민광;박준;김대휘
    • 대기
    • /
    • 제28권2호
    • /
    • pp.113-121
    • /
    • 2018
  • In order to monitor greenhouse gases including $CO_2$, various types of surface-, aircraft-, and satellite-based measurement projects have been conducted. These data help understand the variations of greenhouse gases and are used in atmospheric inverse modeling systems to simulate surface fluxes for greenhouse gases. CarbonTracker is a system for estimating surface $CO_2$ flux, using an atmospheric inverse modeling method, based on only surface observation data. Because of the insufficient surface observation data available for accurate estimation of the surface $CO_2$ flux, additional observations would be required. In this study, a system that assimilates aircraft $CO_2$ measurement data in CarbonTracker (CT2013B) is developed, and the estimated results from this data assimilation system are evaluated. The aircraft $CO_2$ measurement data used are obtained from the Comprehensive Observation Network for Trace gases by the Airliner (CONTRAIL) project. The developed system includes the preprocessor of the raw observation data, the observation operator, and the ensemble Kalman filter (EnKF) data assimilation process. After preprocessing the raw data, the modeled value corresponding spatially and temporally to each observation is calculated using the observation operator. These modeled values and observations are then averaged in space and time, and used in the EnKF data assimilation process. The modeled values are much closer to the observations and show smaller biases and root-mean-square errors, after the assimilation of the aircraft $CO_2$ measurement data. This system could also be used to assimilate other aircraft $CO_2$ measurement data in CarbonTracker.

가뭄의 전이 현상을 고려한 수문학적 가뭄에 대한 베이지안 네트워크 기반 확률 예측 (Bayesian networks-based probabilistic forecasting of hydrological drought considering drought propagation)

  • 신지예;권현한;이주헌;김태웅
    • 한국수자원학회논문집
    • /
    • 제50권11호
    • /
    • pp.769-779
    • /
    • 2017
  • 최근 우리나라에서 빈번하게 발생되는 가뭄으로 인하여 많은 피해가 발생하고 있으며, 이에 대한 사전대응의 필요성이 커지고 있다. 가뭄에 대한 효과적인 사전대응을 위해서는 신뢰성 있는 가뭄 예측 정보가 필수적이다. 본 연구에서는 수문학적 가뭄에 대한 확률론적 예측을 수행하기 위하여 가뭄의 전이현상을 베이지안 네트워크 모형에 반영하였다. 가뭄의 전이현상을 고려한 베이지안 네트워크 기반의 가뭄 예측 모형(PBNDF)은 과거, 현재, 미래에 대한 다중 모형 앙상블 예측결과와 가뭄전이 관계를 결합하여 새로운 수문학적 가뭄 예측 결과를 생산하도록 구축되었다. 본 연구에서 PBNDF 모형은 파머수문학적 가뭄지수를 활용하여 낙동강 유역의 10개 지점을 대상으로 가뭄을 확률적으로 예측하는데 적용되었다. PBNDF 모형의 ROC 분석 결과 ROC 점수가 0.5 이상의 유의한 결과를 나타내 실제 예측 모형으로 활용가능하다는 것을 확인할 수 있었다. 또한, 기존에 개발된 모형(지속성 예측, 베이지안 네트워크 예측 모형)과 평균제곱오차의 제곱근(RMSE), 기술 점수(SS)를 활용하여 비교를 수행하였으며, 그 결과 PBNDF 모형의 RMSE는 상대적으로 낮은 값을 가지며, SS는 약 0.1~0.15 정도 높은 것으로 나타나 예측성능이 향상되었다는 것을 확인할 수 있었다.

부가 정보를 활용한 비전 트랜스포머 기반의 추천시스템 (A Vision Transformer Based Recommender System Using Side Information)

  • 권유진;최민석;조윤호
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.119-137
    • /
    • 2022
  • 최근 추천 시스템 연구에서는 사용자와 아이템 간 상호 작용을 보다 잘 표현하고자 다양한 딥 러닝 모델을 적용하고 있다. ONCF(Outer product-based Neural Collaborative Filtering)는 사용자와 아이템의 행렬을 외적하고 합성곱 신경망을 거치는 구조로 2차원 상호작용 맵을 제작해 사용자와 아이템 간의 상호 작용을 더욱 잘 포착하고자 한 대표적인 딥러닝 기반 추천시스템이다. 하지만 합성곱 신경망을 이용하는 ONCF는 학습 데이터에 나타나지 않은 분포를 갖는 데이터의 경우 예측성능이 떨어지는 귀납적 편향을 가지는 한계가 있다. 본 연구에서는 먼저 NCF구조에 Transformer에 기반한 ViT(Vision Transformer)를 도입한 방법론을 제안한다. ViT는 NLP분야에서 주로 사용되던 트랜스포머를 이미지 분류에 적용하여 좋은 성과를 거둔 방법으로 귀납적 편향이 합성곱 신경망보다 약해 처음 보는 분포에도 robust한 특징이 있다. 다음으로, ONCF는 사용자와 아이템에 대한 단일 잠재 벡터를 사용하였지만 본 연구에서는 모델이 더욱 다채로운 표현을 학습하고 앙상블 효과도 얻기 위해 잠재 벡터를 여러 개 사용하여 채널을 구성한다. 마지막으로 ONCF와 달리 부가 정보(side information)를 추천에 반영할 수 있는 아키텍처를 제시한다. 단순한 입력 결합 방식을 활용하여 신경망에 부가 정보를 반영하는 기존 연구와 달리 본 연구에서는 독립적인 보조 분류기(auxiliary classifier)를 도입하여 추천 시스템에 부가정보를 보다 효율적으로 반영할 수 있도록 하였다. 결론적으로 본 논문에서는 ViT 의 적용, 임베딩 벡터의 채널화, 부가정보 분류기의 도입을 적용한 새로운 딥러닝 모델을 제안하였으며 실험 결과 ONCF보다 높은 성능을 보였다.

초 장단기 통합 태양광 발전량 예측 기법 (Very Short- and Long-Term Prediction Method for Solar Power)

  • 윤문섭;임세령;장한승
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1143-1150
    • /
    • 2023
  • 세계적 기후 위기와 저탄소 정책 이행으로 신재생 에너지에 관한 관심이 높아지고 이와 관련된 산업이 증가하고 있다. 이 중에서 태양 에너지는 고갈되지 않고 오염 물질이나 온실가스를 배출하지 않는 대표적인 친환경 에너지로 주목받고 있으며, 이에 따라 세계적으로 태양광 발전 시설 보급이 증가하고 있다. 하지만 태양광 발전은 지리, 날씨와 같은 환경의 영향을 받기 쉬우므로 안정적인 운영과 효율적인 관리를 위해 정확한 발전량 예측이 중요하다. 하지만 변동성이 큰 태양광 발전을 수학적 통계 기술로 정확한 발전량을 예측하는 것은 불가능하다. 이를 위해서 정확하고 효과적인 예측을 위해 딥러닝 기반의 기술에 관한 연구는 필수적이다. 또한, 기존의 딥러닝을 활용한 예측 방식은 장, 단기적인 예측을 나누어 수행하기 때문에 각각의 예측 결과를 얻기 위한 시간이 길어진다는 단점이 있다. 따라서, 본 연구에서는 시계열 특성을 가진 태양광 발전량 데이터를 사용하여 장단기 통합 예측을 수행하기 위해 순환 신경망의 다대다 구조를 활용한다. 그리고 이를 다양한 딥러닝 모델들에 적용하여 학습을 수행하고 각 모델의 결과를 비교·분석한다.

기계학습을 이용한 수출신용보증 사고예측 (The Prediction of Export Credit Guarantee Accident using Machine Learning)

  • 조재영;주지환;한인구
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 2021
  • 2020년 8월 정부는 한국판 뉴딜을 뒷받침하기 위한 공공기관의 역할 강화방안으로서 각 공공기관별 역량을 바탕으로 5대 분야에 걸쳐 총 20가지 과제를 선정하였다. 빅데이터(Big Data), 인공지능 등을 활용하여 대국민 서비스를 제고하고 공공기관이 보유한 양질의 데이터를 개방하는 등의 다양한 정책을 통해 한국판 뉴딜(New Deal)의 성과를 조기에 창출하고 이를 극대화하기 위한 다양한 노력을 기울이고 있다. 그중에서 한국무역보험공사(KSURE)는 정책금융 공공기관으로 국내 수출기업들을 지원하기 위해 여러 제도를 운영하고 있는데 아직까지는 본 기관이 가지고 있는 빅데이터를 적극적으로 활용하지 못하고 있는 실정이다. 본 연구는 한국무역보험공사의 수출신용보증 사고 발생을 사전에 예측하고자 공사가 보유한 내부 데이터에 기계학습 모형을 적용하였고 해당 모형 간에 예측성과를 비교하였다. 예측 모형으로는 로지스틱(Logit) 회귀모형, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 심층신경망을 사용하였고, 평가 기준으로는 전체 표본의 예측 정확도 이외에도 표본별 사고 확률을 구간으로 나누어 높은 확률로 예측된 표본과 낮은 확률로 예측된 경우의 정확도를 서로 비교하였다. 각 모형별 전체 표본의 예측 정확도는 70% 내외로 나타났고 개별 표본을 사고 확률 구간별로 세부 분석한 결과 양 극단의 확률구간(0~20%, 80~100%)에서 90~100%의 예측 정확도를 보여 모형의 현실적 활용 가능성을 보여주었다. 제2종 오류의 중요성 및 전체적 예측 정확도를 종합적으로 고려할 경우, XGBoost와 심층신경망이 가장 우수한 모형으로 평가되었다. 랜덤포레스트와 LightGBM은 그 다음으로 우수하며, 로지스틱 회귀모형은 가장 낮은 성과를 보였다. 본 연구는 한국무역보험공사의 빅데이터를 기계학습모형으로 분석해 업무의 효율성을 높이는 사례로서 향후 기계학습 등을 활용하여 실무 현장에서 빅데이터 분석 및 활용이 활발해지기를 기대한다.