• 제목/요약/키워드: 데이터부족문제

검색결과 539건 처리시간 0.038초

고차원 기계 독해를 위한 모델 훈련 및 데이터 증강 방안 (Model Training and Data Augmentation Schemes For the High-level Machine Reading Comprehension)

  • 이정우;문현석;박찬준;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-52
    • /
    • 2021
  • 최근 지문을 바탕으로 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재하고 관련 데이터 셋 또한 여러 가지가 공개되어 있다. 그러나 한국의 대학수학능력시험 국어 영역과 같은 복잡한 구조의 문제에 대한 고차원적인 문제 해결 능력을 요구하는 데이터 셋은 거의 존재하지 않는다. 이로 인해 고차원적인 독해 문제를 해결하기 위한 연구가 활발히 이루어지고 있지 않으며, 인공지능 모델의 독해 능력에 대한 성능 향상이 제한적이다. 기존의 입력 구조가 단조로운 독해 문제에 대한 모델로는 복잡한 구조의 독해 문제에 적용하기가 쉽지 않으며, 이를 해결하기 위해서는 새로운 모델 훈련 방법이 필요하다. 이에 복잡한 구조의 고차원적인 독해 문제에도 대응이 가능하도록 하는 모델 훈련 방법을 제안하고자 한다. 더불어 3가지의 데이터 증강 기법을 제안함으로써 고차원 독해 문제 데이터 셋의 부족 문제 또한 해소하고자 한다.

  • PDF

데이터 불균형 기법의 부작용 완화를 위한 어텐션 기반 앙상블 (Attention-Based Ensemble for Mitigating Side Effects of Data Imbalance Method)

  • 박요한;최용석;;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.546-551
    • /
    • 2023
  • 일반적으로 딥러닝 모델은 모든 라벨에 데이터 수가 균형을 이룰 때 가장 좋은 성능을 보인다. 그러나 현실에서는 특정라벨에 대한 데이터가 부족한 경우가 많으며 이로 인해 불균형 데이터 문제가 발생한다. 이에 대한 해결책으로 오버샘플링과 가중치 손실과 같은 데이터 불균형 기법이 연구되었지만 이러한 기법들은 데이터가 적은 라벨의 성능을 개선하는 동시에 데이터가 많은 라벨의 성능을 저하시키는 부작용을 가지고 있다. 본 논문에서는 이 문제를 완화시키고자 어텐션 기반의 앙상블 기법을 제안한다. 어텐션 기반의 앙상블은 데이터 불균형 기법을 적용한 모델과 적용하지 않은 모델의 출력 값을 가중 평균하여 최종 예측을 수행한다. 이때 가중치는 어텐션 메커니즘을 통해 동적으로 조절된다. 그로므로 어텐션 기반의 앙상블 모델은 입력 데이터 특성에 따라 가중치를 조절할 수가 있다. 실험은 에세이 자동 평가 데이터를 대상으로 수행하였다. 실험 결과로는 제안한 모델이 데이터 불균형 기법의 부작용을 완화하고 성능이 개선되었다.

  • PDF

하둡 기반 불법 주·정차 데이터 관리 및 분석 시스템 개발 (Development of Hadoop-based Illegal Parking Data Management and Analysis System)

  • 장진수;송영호;백나은;장재우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.167-170
    • /
    • 2017
  • 자동차 보급 증가로 인한 주차 공간 부족 문제는 불법 주정차 차량 발생의 원인이 되어, 교통 체증을 야기하는 심각한 사회문제가 되었다. 따라서 각 지방자치단체에서는 불법 주정차 문제 해결을 위한 법안을 마련하기 위해 노력하고 있으며, 불법 주정차문제를 해결하기 위한 연구가 진행되고 있다. 한편, 정보통신의 발달에 의해 데이터의 양이 매우 빠른 속도로 증가하고 있으며, 아울러 공공 데이터의 양도 매우 빠른 속도로 증가하고 있다. 따라서 공공 빅데이터를 효율적으로 처리하기 위한 연구가 필요하다. 그러나 현재 공공 빅데이터 관리 및 분석을 수행하기 위한 효율적인 시스템을 구축하는 데는 아직 미흡한 실정이다. 따라서 본 논문에서는 불법 주정차 데이터와 같은 공공데이터를 효율적으로 분석하고 효과적인 주 정차 단속을 위한 하둡 기반 불법 주 정차 데이터 관리 및 분석 시스템을 제안한다.

  • PDF

온라인 유통사의 자체 브랜드, 왜 문제가 되고 어떻게 접근해야 하나?

  • 김태경;김성수;이규현
    • 한국벤처창업학회:학술대회논문집
    • /
    • 한국벤처창업학회 2022년도 춘계학술대회
    • /
    • pp.215-219
    • /
    • 2022
  • 디지털 플랫폼을 기반으로 한 벤처를 성공적으로 육성하려면 빅데이터와 인공지능 알고리즘을 바탕으로 한 비즈니스 모델이 사회적으로 적합한 형태로 수용되어야 한다. 그러나 디지털 벤처가 데이터와 알고리즘 활용에 있어 공정한가에 대한 의구심과 도전이 지속되고 있으며 이와 관련된 연구 노력도 부족한 실정이다. 본 연구는 온라인 유통 플랫폼 벤처로 급격히 성장한 쿠팡이 직면한 도전을 통해 빅데이터와 알고리즘 기반의 비즈니스 수행에 따른 어려움과 이에 대한 이론적 고찰을 시도했다. 쿠팡의 도전을 알고리즘, 빅데이터, 자동 최저가 매칭 시스템, 그리고 오프라인 업체의 비교 데이터 활용에 관한 문제로 정리했다. 이들 각각에 대하여 의무 범위론의 관점에서 문제 해결의 실마리를 제시하였다. 본 연구는 쿠팡의 자체 브랜드 출시를 배경으로 디지털 플랫폼 기반의 벤처 기업이 성장하면서 제기되는 사회적 도전 과제들을 검토함으로써 지속가능성을 유지하기 위한 전략적 고민과 실천적 연구 노력이 뒤따를 필요성을 환기시킨다.

  • PDF

매핑 스키마를 이용한 DXF의 STEP 파일 변환에 관한 연구 (A Study of File Transformation form DXF to STEP using Mapping Schema)

  • 김성식;정성윤;나혜숙;김인한
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2000년도 종합학술대회발표논문집
    • /
    • pp.83-95
    • /
    • 2000
  • CAD 시스템간 데이터 구조 차이에 의한 교환 및 공유에 대한 문제, 동일 CAD 시스템의 버전 변화에 따른 데이터 호환성 결여, CAD 정보의 보관 및 재사용성 부족(중략)

  • PDF

네트웍 앙상블을 위한 관찰 학습 알고리즘 (Observational Learning Algorithm for Network Ensemble)

  • 장민;조성준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.336-338
    • /
    • 1999
  • 본 논문에서는 사회 학습의 이론의 하나인 관찰 학습 이론에 기반한 네트웍 앙상블을 위한 관찰 학습 알고리즘을 제안한다. 하나의 네트웍이 학습할 대 함께 학습되는 다른 네트웍들을 이용하여 가상 데이터를 생성하여 학습에 이용하므로써 데이터가 부족한 경우 네트웍이 과학습 되는 것을 방지고 각 네트웍의 일반화 성능을 향상시키는 동시에 앙상블의 성능도 향상시킨다. 제안된 방법을 사인 함수의 근사 문제와 중첩된 두 정규 분포의 분류 문제에 적용하고 단일 네트웍, 네트웍 위원회, Bagging 알고리즘과 비교하여 제안된 방법의 일반화 성능의 우수성을 보였다.

  • PDF

연합학습의 의료분야 적용을 위한 자기지도 메타러닝 (Self-supervised Meta-learning for the Application of Federated Learning on the Medical Domain)

  • 공희산;김광수
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.27-40
    • /
    • 2022
  • 최근 많은 발전을 이룬 의료 인공지능은 의사가 진단과 결정을 내리는 데 도움을 주는 등 중요한 역할을 수행하고 있다. 특히, 흉부 엑스레이 분야는 접근성 및 흉부질환 탐지에 유용함과 최근 COVID-19 상황이 도래함에 따라 많은 관심을 받고 있다. 그러나, 데이터의 수가 많음에도 레이블이 있는 데이터의 수가 부족하므로 효과적인 인공지능 모델을 만드는데 한계가 있다. 이러한 문제를 완화하는 방안으로 연합학습을 흉부 엑스레이 데이터에 적용한 연구가 등장했지만, 여전히 다음과 같은 문제를 내포하고 있다. 1) Non-IID 환경에서 발생할 수 있는 문제를 고려하지 않았다. 2) 연합학습 환경에서도 여전히 클라이언트의 레이블이 있는 데이터가 부족하다. 우리는 자기지도학습 모델을 연합학습의 Global 모델로 사용함으로써 위와 같은 문제를 해결하는 방법을 제안한다. 이를 위해 흉부 엑스레이 데이터를 사용한 연합학습에 알맞은 자기지도학습 방법론을 실험적으로 탐색하며, 자기지도학습 모델을 연합학습에 사용함으로써 얻을 수 있는 장점을 검증한다.

영상 콘텐츠 시청 데이터를 활용한 개인 맞춤형 도서 추천 시스템 (Personalized book recommendation system using video content viewing data)

  • 임예빈;이경민;김유진;이서영;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.544-545
    • /
    • 2024
  • 최근 성인 독서량은 지속적으로 감소하는데 비해 영상 콘텐츠 소비가 증가하고 있다. 이에 따라 새로운 사용자에 대한 선호도 및 행동 패턴에 대한 정보가 없고 새로운 도서에 대한 사용자 평가나 구매 정보가 부족해 콜드 스타트 문제와 데이터 희소성 문제가 발생하고 있다. 본 논문에서는 영상물 콘텐츠 기반 도서 하이브리드 추천 시스템을 제안하였다. 제안하는 추천 시스템은 영상물의 콘텐츠를 활용하여 콜드 스타트 문제와 데이터 희소성 문제를 해결할 수 있을 뿐만 아니라, 전통적인 도서 추천 시스템에 비해 성능이 향상되었고 장르, 줄거리, 평점 정보 기반 사용자 취향 정보까지 모두 반영된 질 높은 추천 결과까지 확인할 수 있었다.

  • PDF

인도네시아 찌상쿠이강 유역의 지능형 물관리 시스템 적용 연구 (Study for implementation of smart water management system on Cisangkuy river basin in Indonesia)

  • 김유진;고익환;김태원
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.469-469
    • /
    • 2017
  • 기후 변화 및 환경오염으로 인하여 물부족 국가가 세계적으로 증가하고 있는 추세이며, 특히 집중형 강우의 형태가 많아짐에 따라 홍수피해 및 상수공급의 문제가 사회적으로 큰 이슈가 되고 있다. 최근 20여 년간의 급속한 경제성장과 도시화 과정에서 인도네시아는 인구와 산업의 과도한 도시집중으로 지난 1960-80년대 한국이 산업화 과정에서 겪었던 것보다 훨씬 심각한 환경문제에 직면하고 있으며, 자카르타와 반둥을 포함하는 광역 수도권 지역의 물 부족과 수질 오염, 환경문제가 이미 매우 위험한 수준에 도달하고 있는 실정이다. 특히, 찌따룸강 중상류에 위치한 인도네시아 3대 도시인 반둥시는 고질적인 용수부족 문제를 겪고 있다. 2010년 현재 약 일평균 15 CMS의 용수가 부족한 상황이며, 2030년에는 지속적인 인구증가로 약 23 CMS의 용수가 추가로 더 필요한 것으로 전망된다. 이러한 용수공급 문제 해결을 위해 반둥시 및 찌따룸강 유역관리청은 댐 및 지하수 개발, 유역 간 물이동 등의 구조적인 대책뿐만 아니라 비구조적인 대책으로써 기존 및 신규 저수지 연계운영을 통한 용수이용의 효율성을 높이는 방안을 모색하고 있다. 이에 따라 본 연구에서는 해당유역의 용수공급 부족 문제를 해소할 수 있는 비구조적인 대책의 일환으로써 다양한 댐 및 보, 소수력 발전, 취수장 등 유역 내 수리 시설물의 운영 최적화를 위한 지능형 물관리 시스템 적용 방안을 제시하고자 한다. 본 연구의 지능형 물관리 시스템은 센서 및 사물 인터넷(Internet of Things, IoT), 네트워크 기술을 바탕으로 시설물 및 운영자, 유관기관 간의 양방향 통신을 통해 유기적인 상호연계 체계를 제공 할 수 있다. 또한 유역의 수문상황과 시설물의 운영현황, 용수공급 및 수요 현황을 실시간으로 확인함으로써 수요에 따른 즉각적인 용수공급량의 조절이 가능하다. 또한, 빅데이터 분석 및 기계학습(Machine Learning)을 통해 개별 물관리 시설물에 대한 최적 운영룰을 업데이트할 수 있으며, 유역의 수문상황과 용수 수요 현황을 고려하여 최적의 용수공급 우선순위를 선정할 수 있다. 지능형 물관리 시스템 개발의 목적은 찌상쿠이 유역의 수문현황을 실시간으로 모니터링하고, 하천시설물의 운영을 분석하여 최적의 용수공급 및 배분을 통해 유역의 수자원 활용 효율성을 향상시키는 데 있다. 이를 위해 수문자료의 수집체계를 구축하고 기관간 정보공유체계를 수립함으로써 분석을 위한 기반 인프라를 구성하며, 이를 기반으로 유역 유출을 비롯한 저수지 운영, 물수지 분석을 수행하고, 분석 및 예측결과, 과거 운영 자료를 토대로 새로운 물관리 시설 운영룰 및 시설물 간 연계운영 방안, 용수공급 우선순위 의사결정 등을 지원하고자 한다. 본 연구의 지능형 물관리 시스템은 통합 DB를 기반으로 수리수문 현상의 모의 분석을 통해 하천 시설물 운영의 합리적 기준을 제시함으로써 다양한 관리주체들의 시설물운영에 대한 이견 및 분쟁을 해소하고, 한정된 수자원과 다양한 수요 간의 효율적이고 합리적인 분배 및 시설물 운영문제를 해결하기 위한 의사결정도구로써 활용할 수 있을 것으로 기대된다.

  • PDF

연결획 모델을 이용한 온라인 공간필기 인식 (Online 3D Space Handwriting Recognition Using Ligature Model)

  • 김대환;최현일;이택헌;김진형
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.289-291
    • /
    • 2006
  • 본 연구에서는 온라인 공간 필기를 인식 시스템을 구성하는 방법을 제안한다. 공간 필기 인식은 데이터의 부족으로 인한 한계를 지니고 있다 공간필기와 기존의 펜과 태블릿을 이용한 필기 사이의 차이가 연결획에 있다는 사실에 착안하여, 공간 필기 데이터로는 연결획만을 모델링하고. 나머지 부분은 기존의 수집된 데이터 흑은 모델을 이용함으로써, 데이터 부족 문제를 효과적으로 해결하였다.

  • PDF