• 제목/요약/키워드: 데이터문제

검색결과 9,168건 처리시간 0.033초

k-최근접 이웃 정보를 활용한 베이지안 추론 분류

  • 노영균;김기응;이태훈;윤성로
    • 정보와 통신
    • /
    • 제31권11호
    • /
    • pp.27-34
    • /
    • 2014
  • 본 리뷰 논문에서는 많은 데이터 환경에서 얻어진 k-최근접 이웃들(k-nearest neighbors)의 이론적 성질로부터 어떻게 분류를 위한 알고리즘을 만들어낼 것인가에 대한 여러 가지 방법들을 설명한다. 많은 데이터 환경에서의 최근접 이웃 데이터의 정보는 다양한 기계학습 문제를 푸는데 아주 좋은 이론적인 성질을 가지고 있다. 하지만, 이런 이론적인 특성들이 데이터가 많지 않은 환경에서는 전혀 나타나지 않을 뿐 아니라 오히려 다른 다양한 알고리즘들에 비해 성능이 많이 뒤쳐지는 결과를 보여주고 있다. 본 리뷰 논문에서는 많은 데이터 환경 하에서 k-최근접 이웃들의 정보가 어떤 이론적인 특성을 가지는지 설명하고, 특별히 이런 특성들을 가지고 k-최근접 이웃을 이용한 분류 문제를 어떻게 베이지안 추론(Baysian inference) 문제로 수식화 할 수 있는지 보인다. 마지막으로 현재의 빅데이터 환경에서 실용적으로 사용할 수 있는 알고리즘들을 소개한다.

MDR을 이용한 XML DTD 이질성 해결 기법 (A Heterogeneity Resolution of XML DTD Using MDR)

  • 김진관;김중일;최오훈;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.67-69
    • /
    • 2002
  • 정보통신기술의 급속한 발달과 인터넷 환경의 급속한 확산에 따라 정보통신 시스템의 통합과 다양한 분야의 정보통신 시스템 사이의 정보공유가 필수적이다. 그러나 정보통신 시스템의 통합과 정보공유의 가장 큰 걸림돌은 시스템의 통합 메커니즘 문제뿐만 아니라, 데이터의 의미(semantic), 구조(structure), 표현(representation)의 불일치이다. MDR은 정의된 표준 요소와의 매칭을 통해 데이터의 의미와 표현에 관한 이질성 문제를 해결할 수 있도록 해주며, XML은 메타데이터 레지스트리(Metadata Registry, MDR)에서 제공하지 않는 구조화된 데이터에 대한 표현 방법을 제공한다. 본 논문에서는 분야별 종적 데이터 공유를 위한 데이터의 의미, 구조, 표현의 이질성에 따른 문제를 분류하고, MDR과 XML의 활용을 통해 그 해결 방안을 제시한다.

  • PDF

모바일 환경에서 다중 속성 검색을 위한 시그너쳐 기반의 인덱싱 기법 (Signature-based Indexing Scheme for Multi-attribute Retrieval in Mobile Environments)

  • 박성근;정성원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.52-54
    • /
    • 2004
  • 모바일 환경에서 효과적인 데이터 전송 방법인 브로드 캐스트 기법에서 중요한 문제 중의 하나가 데이터에 대한 인덱스 생성이다. 데이터에 대한 인덱스가 제공되면 클라이언트는 튜닝 타임과 엑세스 타임을 줄일 수 있고, 그와 함께 배터리 소모도 줄일 수 있다 기존에 제시된 인덱스 생성 기법온 대부분 트리 구조를 기반으로 하고 있다. 트리 기반 인덱싱 기법은 튜닝 타임을 최소화하지만, 반면 멀티-어트리뷰트(multi-attribute)에 대한 엑세스나 다양한 종류의 멀티미디어 데이터들 혹은 클러스터링 된 데이터에 대한 인덱스 생성이 어렵다. 이러한 문제를 해결하기 위해 시그너쳐 기반의 인덱싱 기법이 제시되었다. 그러나 기존의 시그너쳐 기반 인덱싱 기법에서는 엑세스 타임이 전체 브로드 캐스트 타임으로 고정되는 문제가 있었다. 본 논문비서는 앞으로 브로드 캐스팅 될 데이터들에 대한 포괄적인 정보를 가지는 시그너쳐 집합을 인덱스로 제공해서 클라이언트의 엑세스 타임을 최소화시키는 시그너쳐 스킴을 제시한다.

  • PDF

희소 클래스 분류 문제 해결을 위한 전처리 연구 (A Study on Pre-processing for the Classification of Rare Classes)

  • 류경준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

GAN 기반 고해상도 의료 영상 생성을 위한 연구 (GAN-based research for high-resolution medical image generation)

  • 고재영;조백환;정명진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.544-546
    • /
    • 2020
  • 의료 데이터를 이용하여 인공지능 기계학습 연구를 수행할 때 자주 마주하는 문제는 데이터 불균형, 데이터 부족 등이며 특히 정제된 충분한 데이터를 구하기 힘들다는 것이 큰 문제이다. 본 연구에서는 이를 해결하기 위해 GAN(Generative Adversarial Network) 기반 고해상도 의료 영상을 생성하는 프레임워크를 개발하고자 한다. 각 해상도 마다 Scale 의 Gradient 를 동시에 학습하여 빠르게 고해상도 이미지를 생성해낼 수 있도록 했다. 고해상도 이미지를 생성하는 Neural Network 를 고안하였으며, PGGAN, Style-GAN 과의 성능 비교를 통해 제안된 모델이 양질의 고해상도 의료영상 이미지를 더 빠르게 생성할 수 있음을 확인하였다. 이를 통해 인공지능 기계학습 연구에 있어서 의료 영상의 데이터 부족, 데이터 불균형 문제를 해결할 수 있는 Data augmentation 이나, Anomaly detection 등의 연구에 적용할 수 있다.

연속 변수 함수 최적화를 위한 탐색점 분포 학습 알고리즘 (Estimation of Distribution Algorithm for Continuous Function Optimization)

  • 신수용;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.51-53
    • /
    • 2000
  • 기존의 진화 연산의 한계를 극복하기 위해서 탐색점 분포 학습 알고리즘(Estimation of Distribution Algorithm)이 부각되고 있다. 탐색점 분포 학습 알고리즘은 데이터의 분포를 파악하고, 파악된 분포를 이용해서 새로운 학습 데이터를 생성하는 일련의 과정을 통하여 최적화 문제를 해결하는 방법이다. 그런데, 기존의 탐색점 분포 학습 알고리즘들은 대부분 이진 벡터값을 가지는 최적화 문제들만을 대상으로 하고 있다. 본 논문에서는 비감독 확률 신경망 모델인 헬름홀츠 머신을 이용해서 데이터의 분포를 학습하여 연속 함수 최적화 문제를 해결하는 방법을 개발하였다. 테스트 함수들에 대해서 실수 표현형을 사용한 유전자 알고리즘과 결과를 비교하여 제안하는 방법의 우수성을 검증하였다.

  • PDF

A Study on the Development of a Problem Bank in an Automated Assessment Module for Data Visualization Based on Public Data

  • HakNeung Go;Sangsu Jeong;Youngjun Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.203-211
    • /
    • 2024
  • 프로그래밍 언어를 활용한 데이터 시각화는 처리하는 데이터 양, 처리 시간, 유연성에서 효율성과 효과성을 향상시킬 수 있으나 프로그래밍에 익숙해지기 위해 연습이 필요하다. 이에 본 연구에서는 프로그래밍 자동 평가 시스템에서 데이터 시각화를 연습하기 위한 공공데이터 기반 문제은행을 개발하였다. 공공데이터는 교육과정에서 제시한 주제로 수집하였으며 학습자가 데이터 시각화하기에 적절한 형태로 가공하였다. 문제는 다양한 데이터 시각화 방법을 학습하기 위해 수학교육과정과 연계하여 개발하였다. 개발한 문제는 전문가 검토 및 파일럿 테스트를 실시하였으며 문항의 수준, 데이터 시각화를 통한 수학 교육의 가능성을 확인하였다. 하지만 학생에게 흥미가 떨어지는 주제라는 의견을 받았으며 이를 보완하기 위해 학생이 중심이 되는 데이터를 활용하여 추가로 문항을 개발하였다. 개발한 문제 은행은 초등학교 정보영재 또는 중학교 이상에서 파이썬을 학습한 경험이 있는 학생이 데이터 시각화를 배울 때 활용될 수 있을 것으로 기대된다.

돔형 쉘의 구조불안정 문제를 통하여 본 제3의 과학에의 교훈

  • 김승덕
    • 전산구조공학
    • /
    • 제9권2호
    • /
    • pp.23-27
    • /
    • 1996
  • 오늘날 기술혁신 전쟁의 최전방에 대응하는 것이 불연속 및 불안정 문제를 포함하는 비선형문제이고, 비선형문제에도 도전하고 이를 극복하기 위한 최첨예 무기는 바로 컴퓨터라 할 수 있다. 그러나 인간이 본질인 시행착오를 생각해 보면, 오늘날 범람하고 있는 컴퓨터로부터의 출력 데이터는 매우 위험한 존재가 될 수도 있다. 본 고에서는 제3의 과학시대가 열린 오늘날, 범람하는 많은 컴퓨터 출력 데이터의 위험성을 자각하기 위해 돔형 쉘의 구조불안정 문제에 얽힌 재미있는 한 예를 설명하고, 이러한 오류에 대응하기 위한 검정방안을 제시한다.

  • PDF

Watermarking technique and algorithm review of digital data for GIS

  • Kim Jung-Yeop;Hong Sung-Eon;Lee Yong-Ik;Park Soo-Hong
    • Spatial Information Research
    • /
    • 제13권4호
    • /
    • pp.393-400
    • /
    • 2005
  • 네트워크와 인터넷의 발달로 인해, 디지털 데이터의 보급과 확산이 쉽게 이루어지고 있다. 디지털 데이터는 손실없이 복제되고 보급될 수 있다는 장점이 있지만, 저작권 문제와 더불어 데이터의 무분별한 복제 문제가 발생하고 있다. 이러한 문제는 GIS에서도 발생하고 있다. GIS에서 데이터 획득을 위해 큰 비용을 지불하고 있는 반면에 데이터 소유권에 대한 보호 노력은 미흡한 실정이다. 현재 워터마킹은 데이터의 소유권을 보장해 줄 수 있는 좋은 방안으로 대두되고 있다. 이 논문에서는 워터마킹의 기본적인 정의를 설명하고 GIS에서 사용되는 raster 형식의 데이터와 vector 데이터에 대한 워터마킹 연구동향을 분석하여 보고자 한다.

  • PDF

디지털 방송용 한글 데이터의 엔트로피 부호화 (Entropy Coding of Hangul Data for Digital Broadcasting)

  • 진경식;김충일;황재정
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(3)
    • /
    • pp.73-76
    • /
    • 2000
  • 본 논문은 표준완성형코드를 표준으로 허프만 부호를 생성하기 위해 부호화 효율이 가장 높은 곳에서 예외 부호화를 통해 최적의 허프만 부호를 얻는다. 현재 우리나라의 DTV는 한글문자를 압축하지 않고 전송하는 형태이며, 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심각한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 전용 최적의 허프만 부호를 생성하여 일련의 해결책을 찾고자 하며 영문 위주인 데이터 압축기술을 한글에 맞게 적용하여 DTV 방송용 한글 전용 압축부호를 만드는데 있다.

  • PDF