• 제목/요약/키워드: 데이터문제

검색결과 9,122건 처리시간 0.036초

DB강좌 - 국제적인 메타데이터 형식 기사화 될 것

  • 안계성
    • 디지털콘텐츠
    • /
    • 9호통권76호
    • /
    • pp.64-69
    • /
    • 1999
  • 최근 인터넷 자원이 폭발적으로 증가하면서 이에 효율적으로 접근하고 관리하기 위한 메타데이터가 운용되고 있다. 이와 관련하여 최근 활발하게 논의되고 있는 메타데이터간의 상호호환성에 관한 문제, 식별기호와 관련한 문제, 인쇄자원에 대한 기술 문제, 인터넷 자원 보존에 관한 문제, 메타데이터 저작도구에 관한 문제를 살펴보고 메타데이터의 향후 발전 방향을 모색해 본다.

  • PDF

협동적 여과를 위한 희소 데이터 변형 기법 (Modifying Sparse Data for Collaborative Filtering)

  • 김형일;김준태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.610-612
    • /
    • 2005
  • 협동적 여과를 이용한 추천 시스템은 데이터의 희소성 문제(sparseness problem)와 초기 추천 문제 (cold-start problem)에 대해 취약점을 가지고 있다. 협동적 여과를 이용한 추천 시스템에서 사용하는 선호도 데이터에 아이템들의 전체 수량에 비해 매우 적은 양의 아이템 선호도만 존재한다면 사용자들의 유사도 측정에 문제를 발생시켜 극단적인 경우엔 협동적 추천이 불가능할 경우가 발생한다. 이와 같은 문제는 선호도 데이터에 나타난 아이템들의 총수에 비해 사용자가 선호(구매)한 아이템이 극히 적은 수량으로 존재하기 때문이며 새로운 사용자의 경우에는 아이템 선호도 정보가 전혀 없기 때문에 유사 사용자를 추출하지 못하여 아이템을 전혀 추천할 수 없는 문제가 발생한다. 본 논문에서는 희소성이 높은 선호도 데이터를 희소하지 않은 상태로 변형하는 희소 데이터 변형 기법을 제안한다. 희소 데이터 변형 기법은 희소데이터에 나타난 사용자와 아이템의 추가 속성 정보의 확률분포를 이용하여 알려지지 않은 선호도 값을 예측함으로써 희소성이 높은 선호도 데이터를 변경하고, 변경된 선호도 데이터를 협동적 추천에 적용하여 추천 성능을 향상시킨다. 이와 같은 선호도 데이터 변경 기법을 데이터 블러링(data blurring)이라 한다. 몇가지 실험 결과를 통해 제안된 기법의 효과를 확인하였다.

  • PDF

모멘트와 바이어스 학습법에 의한 학습 성능 (Learning performance of by the momentum and the bias learning method)

  • 김은미;이배호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.431-434
    • /
    • 2005
  • 근원데이터나, 이원데이터를 이용한 문제를 해결하기 위해서는 많은 경우에 완전 해를 갖는 문제로 변형시키기 위해 정규화할 필요성이 있다. 본 논문에서는 이러한 정규화 인수를 찾는 문제를 기존의 GCV, L-Curve, 그리고 이원데이터를 RBF 신경회로망에 적용시킨 커널 학습법에 대한 각각의 성능을 비교실험을 통해 고찰한다. 이때 커널을 이용한 학습법의 성능을 향상하기 위해, 전체학습과 성능의 제한적 비례관계라는 설정아래, 각각의 학습에 따라 능동적으로 변화하는 동적모멘텀의 도입을 제안한다. 끝으로 제안된 동적모멘텀이 분류문제의 표준인 Iris 데이터, Singular 시스템의 대표적 모델인 가우시안 데이터, 그리고 마지막으로 1차원 이미지 복구문제인 Shaw데이터를 이용한 각각의 실험에서 분류문제와 회계문제 양쪽 모두에 있어 기존의 GCV, L-Curve와 동등하거나 우수한 성능이 있음을 보인다.

  • PDF

MOO(Mathematical Operation Organizer): 한국어 서술형 수학 문제 자동 풀이를 위한 데이터 증강 기법 연구 (MOO: A Study on Data Augmentation Method for Korean Math Word Problem Solving)

  • 안지수;기경서;김지원;권가진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.568-571
    • /
    • 2022
  • 본 논문에서는 서술형 수학 문제의 자동 풀이 기술 개발을 위한 데이터 증강 기법인 MOO 를 제안한다. 서술형 수학 문제는 일상에서의 상황을 수학적으로 기술한 자연어 문제로, 인공지능 모델로 이 문제를 풀이하는 기술은 활용 가능성이 높아 국내외에서 다양하게 연구되고 있으나 데이터의 부족으로 인해 성능 향상에서의 한계가 늘 존재해 왔다. 본 논문은 이를 해결하기 위해 시중의 수학 문제들을 수집하여 템플릿을 구축하고, 템플릿에 적합한 풀이계획을 생성할 수 있는 중간 언어인 MOOLang 을 통해 생성된 문제에 대응하는 Python 코드 형태의 풀이와 정답을 생성할 수 있는 데이터 증강 방법을 고안하였다. 이 기법을 통해 생성된 데이터로 기존의 최고 성능 모델인 KoEPT를 통해 학습을 시도해본 결과, 생성된 데이터셋을 통해 모델이 원활하게 데이터셋의 분포를 학습할 수 있다는 것을 확인하였다.

새로운 스트림 요청에 의한 데이터 지연 문제를 피하기 위한 선행 버퍼링에 대한 연구 (Glitch-free Pre-buffering against New Stream Request)

  • 조경선;원유집
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.41-43
    • /
    • 2000
  • 멀티미디어 시스템에서는 미디어 데이터의 연속성을 보장하는 것이 중요한 문제이다. 90년대에 제안된 구역분할 디스크에서 연속성을 보장하면서 멀티미디어를 효과적으로 저장, 전송하기 위하여 새로운 스케줄링 방식과 데이터 블록의 배치가 제안되었다. 이 방식은 구역을 순환하면서 데이터 블록을 배치시키고 SCAN 알고리즘으로 데이터를 읽어 들이는 방식이다. 이 경우 SCAN 알고리즘으로 데이터를 읽어 들이므로 이중 버퍼링(double buffering) 방법을 사용하게 된다. 이중 버퍼링의 데이터를 읽어 들이는 주기와 서비스 주기의 불일치성으로 인하여 새로운 스트림의 요청이 있을 때 기존의 서비스 스트림에 주기시간의 증가로 인한 데이터의 지연문제(jitter)가 발생한다. 본 논문에서는 구역분할 디스크를 이용하는 비디오 서버에서 새로운 요구의 도착으로 인하여 발생하는 데이터 지연 문제(jitter)를 해결하기 위하여 선행 버퍼링이란 기법을 제시한다.

  • PDF

고차원 기계 독해를 위한 모델 훈련 및 데이터 증강 방안 (Model Training and Data Augmentation Schemes For the High-level Machine Reading Comprehension)

  • 이정우;문현석;박찬준;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-52
    • /
    • 2021
  • 최근 지문을 바탕으로 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재하고 관련 데이터 셋 또한 여러 가지가 공개되어 있다. 그러나 한국의 대학수학능력시험 국어 영역과 같은 복잡한 구조의 문제에 대한 고차원적인 문제 해결 능력을 요구하는 데이터 셋은 거의 존재하지 않는다. 이로 인해 고차원적인 독해 문제를 해결하기 위한 연구가 활발히 이루어지고 있지 않으며, 인공지능 모델의 독해 능력에 대한 성능 향상이 제한적이다. 기존의 입력 구조가 단조로운 독해 문제에 대한 모델로는 복잡한 구조의 독해 문제에 적용하기가 쉽지 않으며, 이를 해결하기 위해서는 새로운 모델 훈련 방법이 필요하다. 이에 복잡한 구조의 고차원적인 독해 문제에도 대응이 가능하도록 하는 모델 훈련 방법을 제안하고자 한다. 더불어 3가지의 데이터 증강 기법을 제안함으로써 고차원 독해 문제 데이터 셋의 부족 문제 또한 해소하고자 한다.

  • PDF

분산메모리 머신에서의 병렬 윤곽선 랭킹 (Parallel Contour Ranking in a Distributed-Memory Machine)

  • 정용화;박진원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (3)
    • /
    • pp.741-743
    • /
    • 1998
  • 본 논문에서는 분산메모리 머신에서 병렬 이미지 윤곽선 랭킹 문제를 해결하는 새로운 알고리즘을 제안한다. 윤곽선 랭킹 문제는 주어진 이미지의 에지 윤곽선으로부터 에지 윤곽선의 선형적 표현 방식을 생성시키는 것으로, 에지점간의 순차적인 데이터 종속관계를 갖는 이 문제를 분산메모리 머신에서 수행하려면 입력 이미지에 의한 데이터의 불균형 분포와 불규칙적인 프로세서간 데이터 종속 문제를 해결해야 한다. 본 논문에서는 이 두 가지 문제를 동시에 해결할 수 있는 병렬 알고리즘을 제안하고, 제안된 알고리즘을 IBM SP2에 구현하였으며, 그 결과 윤곽선 랭킹 문제가 효과적으로 해결되었음을 확인하였다.

  • PDF

XML 기반 문제 은행 Framework (The Item Pool Framework based on XML)

  • 김연정;조동섭
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.389-392
    • /
    • 2002
  • 기존에 문제 은행 솔루션은 이미지 형태 또는 데이터가 응용 제품과 독립적이지 못하는 한계를 가지고 있다. 기존에 생산되었던 컨텐츠를 활용하면서도 응용제품에 독립적인 문제은행 시스템을 만들기 위해서 XML을 이용한 데이터베이스의 구축이 필요하다. 이를 위하여 데이터를 XML로 전환하고 이렇게 전환된 XML 데이터를 XSL을 통해 표현할 수 있어야 한다. 본 논문은 기존의 문제은행 방식의 문제를 해결하기 위해 XML을 기반으로 하는 문제은행을 구축하는 방법을 알아보도록 하겠다.

  • PDF

불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법 (Kernel Perceptron Boosting for Effective Learning of Imbalanced Data)

  • 오장민;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF

효율적 센서 데이터 수집 전략과 비정상 데이터 검출에 관한 연구

  • 손태식;최욱
    • 정보보호학회지
    • /
    • 제16권4호
    • /
    • pp.69-76
    • /
    • 2006
  • 센서 네트워크는 네트워크 특성상 근본적으로 기존의 네트워크와 다른 많은 제약 사항을 가지고 있다. 이러한 제약사항으로는 대량의 센서를 위한 비용 문제, 센서 자체의 물리적 취약성 문제 그리고 센서가 취합하는 데이터의 중요도에 따른 보안성 문제 등이 제기될 수 있다. 특히, 본 논문에서는 다양한 센서 네트워크의 기술 이슈 중에서 센서 네트워크의 특정 애플리케이션 지향적 정보 습득 특성에 초점을 맞추었다. 이때 센서 네트워크에서 빼놓을 수 없는 전력 소비 문제가 함께 고려된 센서 네트워크의 효율적인 데이터 수집을 위한 클러스터 기반 지연 적응적 전략과 커버리지 적응적 전략을 소개하였다. 또한 이러한 데이터 습득 과정에서 발생할 수 있는 이상 데이터에 대한 검출 문제를 제시하고 그 대응방안으로서 K-means clustering을 사용한 비교사 학습 기반 방식을 제하였다.