• 제목/요약/키워드: 데이터 부족 문제

검색결과 534건 처리시간 0.04초

선형 퍼셉트론의 부스팅 학습에 의한 텍스트 여과 (Text Filtering by Boosting Linear Perceptrons)

  • 오장민;장병탁
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.73-76
    • /
    • 2000
  • 문서 분류나 여과 문제에서 양의 학습 데이터의 부족은 성능 저하의 주요 원인이 된다. 이런 경우 여러 학습 알고리즘이 문제의 특성을 제대로 파악하지 못한다. 본 논문에서는 부스팅 기법을 도입하여 이 문제를 접근해 보았다. 부스팅 기법은 약한 능력을 보유한 학습 알고리즘을 부스팅 과정을 통해 궁극적으로 강력한 성능을 얻을 수 있게 해준다. 간단한 선형 퍼셉트론에 부스팅 기법을 도입하여 문서 여과에 적용하였다. 제안된 알고리즘을 Reuters-21578 문서 집합에 적용한 결과, 재현률 측면에서 다층 신경망보다 우수한 성능을 보였고 특히 양의 학습 데이터가 부족한 문제의 경우 탁월한 결과를 얻을 수 있었다.

  • PDF

주정차 단속 시스템을 위한 하둡 기반 대용량 데이터 관리 및 분석 (Hadoop-based Large Data Management and Analysis for Parking Enforcement System)

  • 백나은;송영호;신재환;장재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.429-432
    • /
    • 2017
  • 자동차 보급률 증가로 인해 교통 혼잡, 불법 주정차 등의 사회적 문제가 발생하고 있다. 특히 불법 주정차는 교통 혼잡, 주차 공간 부족 등 부가적인 문제를 발생시키고 있다. 따라서 각 지방자치단체에서는 불법 주정차 문제를 해결하기 위한 방안을 연구하고 있다. 그러나 이러한 방안은 초기 비용 발생 및 인력 부족 등의 한계가 있다. 한편, 정보통신의 발달에 따라 공공 업무에도 대량의 공공데이터를 효율적으로 처리하기 위한 연구가 진행되고 있다. 하지만 이러한 연구 또한 빅데이터 처리 플랫폼 부족 및 분석 시스템이 미흡한 한계가 존재한다. 따라서 본 논문에서는 불법 주정차 데이터와 같은 공공 데이터를 효율적으로 처리하기 위해, 주정차 단속 시스템을 위한 하둡 기반 대용량 데이터 관리 및 분석 시스템을 제안한다. 제안하는 시스템은 첫째, 주차단속을 수행할 때 주차단속 데이터를 하이브(Hive)를 통해 저장하고, 단속된 차량의 차주를 검색하여 단속임을 알리거나 과태료를 부과한다. 둘째, 웹 인터페이스를 통해 수집된 주차단속 데이터에 대한 다양한 분석을 수행하고, 분석된 데이터에 대한 R을 이용한 시각화를 제공한다.

토익 문제 풀이 모델 학습을 위한 유의어/반의어 기반 데이터 증강 기법 (Synonyms/Antonyms-Based Data Augmentation For Training TOEIC Problems Solving Model)

  • 이정우;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.333-335
    • /
    • 2023
  • 최근 글을 이해하고 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재한다. 기계 독해와 관련하여 다양한 데이터셋이 공개되어 있지만, 과거에서부터 현재까지 사람의 영어 능력 평가를 위해 많이 사용되고 있는 토익에 대해서는 공식적으로 공개된 데이터셋도 거의 존재하지 않으며, 이를 위한 연구 또한 활발히 진행되고 있지 않다. 이에 본 연구에서는 현재와 같이 데이터가 부족한 상황에서 기계 독해 모델의 성능을 향상시키기 위한 데이터 증강 기법을 제안하고자 한다. 제안하는 방법은 WordNet을 이용하여 유의어 및 반의어를 기반으로 굉장히 간단하면서도 효율적으로 실제 토익 문제와 유사하게 데이터를 증강하는 것이며, 실험을 통해 해당 방법의 유의미함을 확인하였다. 우리는 본 연구를 통해 토익에 대한 데이터 부족 문제를 해소하고, 사람 수준의 우수한 성능을 얻을 수 있도록 한다.

  • PDF

핵심어 시퀀스와 지식 그래프를 이용한 RNN 기반 자연어 문장 생성 (RNN Based Natural Language Sentence Generation from a Knowledge Graph and Keyword Sequence)

  • 권성구;노윤석;최수정;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.425-429
    • /
    • 2018
  • 지식 그래프는 많은 수의 개채와 이들 사이의 관계를 저장하고 있기 때문에 많은 연구에서 중요한 자원으로 활용된다. 최근에는 챗봇과 질의응답과 같은 연구에서 자연어 생성을 위한 연구에 활용되고 있다. 특히 자연어 생성에서 최근 발전 된 심층 신경망이 사용되고 있는데, 이러한 방식은 모델 학습을 위한 많은 양의 데이터가 필요하다. 즉, 심층신경망을 기반으로 지식 그래프에서 문장을 생성하기 위해서는 많은 트리플과 문장 쌍 데이터가 필요하지만 학습을 위해 사용하기엔 데이터가 부족하다는 문제가 있다. 따라서 본 논문에서는 데이터 부족 문제를 해결하기 위해 핵심어 시퀀스를 추출하여 학습하는 방법을 제안하고, 학습된 모델을 통해 트리플을 입력으로 하여 자연어 문장을 생성한다. 부족한 트리플과 문장 쌍 데이터를 대체하기 위해 핵심어 시퀀스를 추출하는 모듈을 사용해 핵심어 시퀀스와 문장 쌍 데이터를 생성하였고, 순환 신경망 기반의 인코더 - 디코더 모델을 사용해 자연어 문장을 생성하였다. 실험 결과, 핵심어 시퀀스와 문장 쌍 데이터를 이용해 학습된 모델을 이용해 트리플에서 자연어 문장 생성이 원활히 가능하며, 부족한 트리플과 문장 쌍 데이터를 대체하는데 효과적임을 밝혔다.

  • PDF

GAN 기반 고해상도 의료 영상 생성을 위한 연구 (GAN-based research for high-resolution medical image generation)

  • 고재영;조백환;정명진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.544-546
    • /
    • 2020
  • 의료 데이터를 이용하여 인공지능 기계학습 연구를 수행할 때 자주 마주하는 문제는 데이터 불균형, 데이터 부족 등이며 특히 정제된 충분한 데이터를 구하기 힘들다는 것이 큰 문제이다. 본 연구에서는 이를 해결하기 위해 GAN(Generative Adversarial Network) 기반 고해상도 의료 영상을 생성하는 프레임워크를 개발하고자 한다. 각 해상도 마다 Scale 의 Gradient 를 동시에 학습하여 빠르게 고해상도 이미지를 생성해낼 수 있도록 했다. 고해상도 이미지를 생성하는 Neural Network 를 고안하였으며, PGGAN, Style-GAN 과의 성능 비교를 통해 제안된 모델이 양질의 고해상도 의료영상 이미지를 더 빠르게 생성할 수 있음을 확인하였다. 이를 통해 인공지능 기계학습 연구에 있어서 의료 영상의 데이터 부족, 데이터 불균형 문제를 해결할 수 있는 Data augmentation 이나, Anomaly detection 등의 연구에 적용할 수 있다.

점진적 학습 기반 모아 콘텐츠 큐레이션 서비스 시스템 설계 (Design of Moa Contents Curation Service System Based on Incremental Learning Technology)

  • 이정원;민병원;오용선
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.401-402
    • /
    • 2018
  • 콘텐츠 큐레이션 서비스를 위해서 대용량 데이터를 학습하는 과정에서 발생하는 메모리부족 문제, 학습소요시간 문제 등을 해결하기 위한 "대용량 문서학습을 위한 동적학습 파이프라인 생성기술 중 빅데이터 마이닝을 위한 점진적 학습 모델" 기술이 필요하며, 본 논문에서 제안한 콘텐츠 큐레이션 서비스는 온라인상의 수많은 콘텐츠들 중 개인의 주관이나 관점에 따라 관련 콘텐츠들을 수집, 정리하고 편집하여 이용자와 관련이 있거나 좋아할 만한 콘텐츠를 제공하는 서비스이다. 본 논문에서 설계된 모아 큐레이션 서비스는 대용량의 문서를 학습함에 있어서 메모리 부족 문제, 학습 소요시간 문제 등을 해결하기 위해 학습데이터의 용량 제한이 없는 문서를 자유롭게 학습하고 부분적인 자질추가/변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법 등을 제시하였다.

  • PDF

Proxync : SyncML을 이용한프록시 기반모바일 데이터베이스 시스템 (Proxync : A Framework for Proxy-based Mobile Database with SyncML)

  • 박동문;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.160-162
    • /
    • 2001
  • 최근들어 모바일 환경에서 네트워크 자원을 효율적으로 이용하기 위한 에이전트 기술에 대한 연구가 활발치 진행되고 있으며 이미 많은 분야에서 모바일 에이전트 기술이 사용되고 있다. 그러나, 전자상거래와 같이 데이터 베이스 기능이 필수적인 분야에는 응용에 적합한 데이터베이스 프레임워크가 부족한 실정이다. 본 논문에서는 모바일 환경의 특성인 잦은 접속 해제, 부족한 배터리 용량, 낮은 통신 대역폭, 작은 저장공간 등과 같은 문제 기인한 데이터베이스 어플리케이션의 문제점을 알아보고, 이러한 단점으로 인해 발생되는 모바일 데이터베이스의 트랜잭션 문제의 해결책을 제안한다. Proxync는 분산 환경에서 유용한 프록시(Proxy)를 기반으로 하는 무선 데이터베이스 시스템으로 무선 데이터 동기화를 위해 SyncML이라는 언어를 사용한다. 프록시의 데이터 케쉬 기능을 이용해서 모바일 디바이스의 저장공간 문제를 해결하고 SyncML을 이용해서 접속이 끊어질 때 생길 수 있는 트랜잭션 문제를 해결 할 수 있도록 하였다.

  • PDF

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상 (Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph)

  • 이원기;김영길;이의현;권홍석;조승우;조형미;이종혁
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF

단순화된 어절을 단위로 하는 한국어 품사 태거 (A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit)

  • 이의현;김영길;신재훈;권홍석;이종혁
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상 (Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph)

  • 이원기;김영길;이의현;권홍석;조승우;조형미;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족 문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF