• Title/Summary/Keyword: 데이터 부족 문제

Search Result 545, Processing Time 0.024 seconds

Model Training and Data Augmentation Schemes For the High-level Machine Reading Comprehension (고차원 기계 독해를 위한 모델 훈련 및 데이터 증강 방안)

  • Lee, Jeongwoo;Moon, Hyeonseok;Park, Chanjun;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.47-52
    • /
    • 2021
  • 최근 지문을 바탕으로 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재하고 관련 데이터 셋 또한 여러 가지가 공개되어 있다. 그러나 한국의 대학수학능력시험 국어 영역과 같은 복잡한 구조의 문제에 대한 고차원적인 문제 해결 능력을 요구하는 데이터 셋은 거의 존재하지 않는다. 이로 인해 고차원적인 독해 문제를 해결하기 위한 연구가 활발히 이루어지고 있지 않으며, 인공지능 모델의 독해 능력에 대한 성능 향상이 제한적이다. 기존의 입력 구조가 단조로운 독해 문제에 대한 모델로는 복잡한 구조의 독해 문제에 적용하기가 쉽지 않으며, 이를 해결하기 위해서는 새로운 모델 훈련 방법이 필요하다. 이에 복잡한 구조의 고차원적인 독해 문제에도 대응이 가능하도록 하는 모델 훈련 방법을 제안하고자 한다. 더불어 3가지의 데이터 증강 기법을 제안함으로써 고차원 독해 문제 데이터 셋의 부족 문제 또한 해소하고자 한다.

  • PDF

Attention-Based Ensemble for Mitigating Side Effects of Data Imbalance Method (데이터 불균형 기법의 부작용 완화를 위한 어텐션 기반 앙상블)

  • Yo-Han Park;Yong-Seok Choi;Wencke Liermann;Kong Joo Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.546-551
    • /
    • 2023
  • 일반적으로 딥러닝 모델은 모든 라벨에 데이터 수가 균형을 이룰 때 가장 좋은 성능을 보인다. 그러나 현실에서는 특정라벨에 대한 데이터가 부족한 경우가 많으며 이로 인해 불균형 데이터 문제가 발생한다. 이에 대한 해결책으로 오버샘플링과 가중치 손실과 같은 데이터 불균형 기법이 연구되었지만 이러한 기법들은 데이터가 적은 라벨의 성능을 개선하는 동시에 데이터가 많은 라벨의 성능을 저하시키는 부작용을 가지고 있다. 본 논문에서는 이 문제를 완화시키고자 어텐션 기반의 앙상블 기법을 제안한다. 어텐션 기반의 앙상블은 데이터 불균형 기법을 적용한 모델과 적용하지 않은 모델의 출력 값을 가중 평균하여 최종 예측을 수행한다. 이때 가중치는 어텐션 메커니즘을 통해 동적으로 조절된다. 그로므로 어텐션 기반의 앙상블 모델은 입력 데이터 특성에 따라 가중치를 조절할 수가 있다. 실험은 에세이 자동 평가 데이터를 대상으로 수행하였다. 실험 결과로는 제안한 모델이 데이터 불균형 기법의 부작용을 완화하고 성능이 개선되었다.

  • PDF

Development of Hadoop-based Illegal Parking Data Management and Analysis System (하둡 기반 불법 주·정차 데이터 관리 및 분석 시스템 개발)

  • Jang, Jinsoo;Song, Youngho;Baek, Na-Eun;Chang, Jae-Woo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2017.01a
    • /
    • pp.167-170
    • /
    • 2017
  • 자동차 보급 증가로 인한 주차 공간 부족 문제는 불법 주정차 차량 발생의 원인이 되어, 교통 체증을 야기하는 심각한 사회문제가 되었다. 따라서 각 지방자치단체에서는 불법 주정차 문제 해결을 위한 법안을 마련하기 위해 노력하고 있으며, 불법 주정차문제를 해결하기 위한 연구가 진행되고 있다. 한편, 정보통신의 발달에 의해 데이터의 양이 매우 빠른 속도로 증가하고 있으며, 아울러 공공 데이터의 양도 매우 빠른 속도로 증가하고 있다. 따라서 공공 빅데이터를 효율적으로 처리하기 위한 연구가 필요하다. 그러나 현재 공공 빅데이터 관리 및 분석을 수행하기 위한 효율적인 시스템을 구축하는 데는 아직 미흡한 실정이다. 따라서 본 논문에서는 불법 주정차 데이터와 같은 공공데이터를 효율적으로 분석하고 효과적인 주 정차 단속을 위한 하둡 기반 불법 주 정차 데이터 관리 및 분석 시스템을 제안한다.

  • PDF

온라인 유통사의 자체 브랜드, 왜 문제가 되고 어떻게 접근해야 하나?

  • Kim, Tae-Gyeong;Kim, Seong-Su;Lee, Gyu-Hyeon
    • 한국벤처창업학회:학술대회논문집
    • /
    • 2022.04a
    • /
    • pp.215-219
    • /
    • 2022
  • 디지털 플랫폼을 기반으로 한 벤처를 성공적으로 육성하려면 빅데이터와 인공지능 알고리즘을 바탕으로 한 비즈니스 모델이 사회적으로 적합한 형태로 수용되어야 한다. 그러나 디지털 벤처가 데이터와 알고리즘 활용에 있어 공정한가에 대한 의구심과 도전이 지속되고 있으며 이와 관련된 연구 노력도 부족한 실정이다. 본 연구는 온라인 유통 플랫폼 벤처로 급격히 성장한 쿠팡이 직면한 도전을 통해 빅데이터와 알고리즘 기반의 비즈니스 수행에 따른 어려움과 이에 대한 이론적 고찰을 시도했다. 쿠팡의 도전을 알고리즘, 빅데이터, 자동 최저가 매칭 시스템, 그리고 오프라인 업체의 비교 데이터 활용에 관한 문제로 정리했다. 이들 각각에 대하여 의무 범위론의 관점에서 문제 해결의 실마리를 제시하였다. 본 연구는 쿠팡의 자체 브랜드 출시를 배경으로 디지털 플랫폼 기반의 벤처 기업이 성장하면서 제기되는 사회적 도전 과제들을 검토함으로써 지속가능성을 유지하기 위한 전략적 고민과 실천적 연구 노력이 뒤따를 필요성을 환기시킨다.

  • PDF

Observational Learning Algorithm for Network Ensemble (네트웍 앙상블을 위한 관찰 학습 알고리즘)

  • Jang, Min;Cho, Sung-Zoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.336-338
    • /
    • 1999
  • 본 논문에서는 사회 학습의 이론의 하나인 관찰 학습 이론에 기반한 네트웍 앙상블을 위한 관찰 학습 알고리즘을 제안한다. 하나의 네트웍이 학습할 대 함께 학습되는 다른 네트웍들을 이용하여 가상 데이터를 생성하여 학습에 이용하므로써 데이터가 부족한 경우 네트웍이 과학습 되는 것을 방지고 각 네트웍의 일반화 성능을 향상시키는 동시에 앙상블의 성능도 향상시킨다. 제안된 방법을 사인 함수의 근사 문제와 중첩된 두 정규 분포의 분류 문제에 적용하고 단일 네트웍, 네트웍 위원회, Bagging 알고리즘과 비교하여 제안된 방법의 일반화 성능의 우수성을 보였다.

  • PDF

Self-supervised Meta-learning for the Application of Federated Learning on the Medical Domain (연합학습의 의료분야 적용을 위한 자기지도 메타러닝)

  • Kong, Heesan;Kim, Kwangsu
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.4
    • /
    • pp.27-40
    • /
    • 2022
  • Medical AI, which has lately made significant advances, is playing a vital role, such as assisting clinicians with diagnosis and decision-making. The field of chest X-rays, in particular, is attracting a lot of attention since it is important for accessibility and identification of chest diseases, as well as the current COVID-19 pandemic. However, despite the vast amount of data, there remains a limit to developing an effective AI model due to a lack of labeled data. A research that used federated learning on chest X-ray data to lessen this difficulty has emerged, although it still has the following limitations. 1) It does not consider the problems that may occur in the Non-IID environment. 2) Even in the federated learning environment, there is still a shortage of labeled data of clients. We propose a method to solve the above problems by using the self-supervised learning model as a global model of federated learning. To that aim, we investigate a self-supervised learning methods suited for federated learning using chest X-ray data and demonstrate the benefits of adopting the self-supervised learning model for federated learning.

Personalized book recommendation system using video content viewing data (영상 콘텐츠 시청 데이터를 활용한 개인 맞춤형 도서 추천 시스템)

  • Yea Bin Lim;Gyeong Min Lee;Yu Jin Kim;Seo Young Lee;Hyon Hee Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.544-545
    • /
    • 2024
  • 최근 성인 독서량은 지속적으로 감소하는데 비해 영상 콘텐츠 소비가 증가하고 있다. 이에 따라 새로운 사용자에 대한 선호도 및 행동 패턴에 대한 정보가 없고 새로운 도서에 대한 사용자 평가나 구매 정보가 부족해 콜드 스타트 문제와 데이터 희소성 문제가 발생하고 있다. 본 논문에서는 영상물 콘텐츠 기반 도서 하이브리드 추천 시스템을 제안하였다. 제안하는 추천 시스템은 영상물의 콘텐츠를 활용하여 콜드 스타트 문제와 데이터 희소성 문제를 해결할 수 있을 뿐만 아니라, 전통적인 도서 추천 시스템에 비해 성능이 향상되었고 장르, 줄거리, 평점 정보 기반 사용자 취향 정보까지 모두 반영된 질 높은 추천 결과까지 확인할 수 있었다.

Study for implementation of smart water management system on Cisangkuy river basin in Indonesia (인도네시아 찌상쿠이강 유역의 지능형 물관리 시스템 적용 연구)

  • Kim, Eugene;Ko, Ick Hwan;Park, Chan Ho
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.469-469
    • /
    • 2017
  • 기후 변화 및 환경오염으로 인하여 물부족 국가가 세계적으로 증가하고 있는 추세이며, 특히 집중형 강우의 형태가 많아짐에 따라 홍수피해 및 상수공급의 문제가 사회적으로 큰 이슈가 되고 있다. 최근 20여 년간의 급속한 경제성장과 도시화 과정에서 인도네시아는 인구와 산업의 과도한 도시집중으로 지난 1960-80년대 한국이 산업화 과정에서 겪었던 것보다 훨씬 심각한 환경문제에 직면하고 있으며, 자카르타와 반둥을 포함하는 광역 수도권 지역의 물 부족과 수질 오염, 환경문제가 이미 매우 위험한 수준에 도달하고 있는 실정이다. 특히, 찌따룸강 중상류에 위치한 인도네시아 3대 도시인 반둥시는 고질적인 용수부족 문제를 겪고 있다. 2010년 현재 약 일평균 15 CMS의 용수가 부족한 상황이며, 2030년에는 지속적인 인구증가로 약 23 CMS의 용수가 추가로 더 필요한 것으로 전망된다. 이러한 용수공급 문제 해결을 위해 반둥시 및 찌따룸강 유역관리청은 댐 및 지하수 개발, 유역 간 물이동 등의 구조적인 대책뿐만 아니라 비구조적인 대책으로써 기존 및 신규 저수지 연계운영을 통한 용수이용의 효율성을 높이는 방안을 모색하고 있다. 이에 따라 본 연구에서는 해당유역의 용수공급 부족 문제를 해소할 수 있는 비구조적인 대책의 일환으로써 다양한 댐 및 보, 소수력 발전, 취수장 등 유역 내 수리 시설물의 운영 최적화를 위한 지능형 물관리 시스템 적용 방안을 제시하고자 한다. 본 연구의 지능형 물관리 시스템은 센서 및 사물 인터넷(Internet of Things, IoT), 네트워크 기술을 바탕으로 시설물 및 운영자, 유관기관 간의 양방향 통신을 통해 유기적인 상호연계 체계를 제공 할 수 있다. 또한 유역의 수문상황과 시설물의 운영현황, 용수공급 및 수요 현황을 실시간으로 확인함으로써 수요에 따른 즉각적인 용수공급량의 조절이 가능하다. 또한, 빅데이터 분석 및 기계학습(Machine Learning)을 통해 개별 물관리 시설물에 대한 최적 운영룰을 업데이트할 수 있으며, 유역의 수문상황과 용수 수요 현황을 고려하여 최적의 용수공급 우선순위를 선정할 수 있다. 지능형 물관리 시스템 개발의 목적은 찌상쿠이 유역의 수문현황을 실시간으로 모니터링하고, 하천시설물의 운영을 분석하여 최적의 용수공급 및 배분을 통해 유역의 수자원 활용 효율성을 향상시키는 데 있다. 이를 위해 수문자료의 수집체계를 구축하고 기관간 정보공유체계를 수립함으로써 분석을 위한 기반 인프라를 구성하며, 이를 기반으로 유역 유출을 비롯한 저수지 운영, 물수지 분석을 수행하고, 분석 및 예측결과, 과거 운영 자료를 토대로 새로운 물관리 시설 운영룰 및 시설물 간 연계운영 방안, 용수공급 우선순위 의사결정 등을 지원하고자 한다. 본 연구의 지능형 물관리 시스템은 통합 DB를 기반으로 수리수문 현상의 모의 분석을 통해 하천 시설물 운영의 합리적 기준을 제시함으로써 다양한 관리주체들의 시설물운영에 대한 이견 및 분쟁을 해소하고, 한정된 수자원과 다양한 수요 간의 효율적이고 합리적인 분배 및 시설물 운영문제를 해결하기 위한 의사결정도구로써 활용할 수 있을 것으로 기대된다.

  • PDF

Online 3D Space Handwriting Recognition Using Ligature Model (연결획 모델을 이용한 온라인 공간필기 인식)

  • Kim Dae-Hwan;Choi Hyun-Il;Rhee Taik-Heon;Kim Jin-Hyung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.289-291
    • /
    • 2006
  • 본 연구에서는 온라인 공간 필기를 인식 시스템을 구성하는 방법을 제안한다. 공간 필기 인식은 데이터의 부족으로 인한 한계를 지니고 있다 공간필기와 기존의 펜과 태블릿을 이용한 필기 사이의 차이가 연결획에 있다는 사실에 착안하여, 공간 필기 데이터로는 연결획만을 모델링하고. 나머지 부분은 기존의 수집된 데이터 흑은 모델을 이용함으로써, 데이터 부족 문제를 효과적으로 해결하였다.

  • PDF