• 제목/요약/키워드: 데이터 분류

검색결과 5,720건 처리시간 0.037초

방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축 (Taxonomy Induction from Wikidata using Directed Acyclic Graph's Centrality)

  • 전희선;김현호;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.582-587
    • /
    • 2021
  • 한국어 통합 지식베이스를 생성하기 위해 필수적인 분류체계(taxonomy)를 구축하는 방식을 제안한다. 위키데이터를 기반으로 분류 후보군을 추출하고, 상하위 관계를 통해 방향 비순환 그래프(Directed Acyclic Graph)를 구성한 뒤, 국부적 도달 중심성(local reaching centrality) 등의 정보를 활용하여 정제함으로써 246 개의 분류와 314 개의 상하위 관계를 갖는 분류체계를 생성한다. 워드넷(WordNet), 디비피디아(DBpedia) 등 기존 링크드 오픈 데이터의 분류체계 대비 깊이 있는 계층 구조를 나타내며, 다중 상위 분류를 지닐 수 있는 비트리(non-tree) 구조를 지닌다. 또한, 위키데이터 속성에 기반하여 위키데이터 정보가 있는 인스턴스(instance)에 자동으로 분류를 부여할 수 있으며, 해당 방식으로 실험한 결과 99.83%의 분류 할당 커버리지(coverage) 및 99.81%의 분류 예측 정확도(accuracy)를 나타냈다.

  • PDF

식품정보 메타데이터 개발을 위한 연구 (A Study on Meta Data Development of Food Information)

  • 양혜정;이정률
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2011년도 춘계 종합학술대회 논문집
    • /
    • pp.389-390
    • /
    • 2011
  • 본 논문의 목적은 효과적인 식품정보 분류 체계 구축 및 관리를 위하여 식품정보의 메타데이터를 구축하고자 하는 것이다. 메타데이터는 데이터에 대한 데이터를 의미하며, 데이터의 분류체계, 구조, 내용요약을 함축적 의미로 표현하는 데이터이다. 이러한 메타데이터를 이용하여 식품정보를 체계적으로 분류하여 식품정보 조회, 분석, 활용을 위한 체계를 구축하였고, 식품정보에 대한 접근성을 향상시켰다. 따라서 본 논문을 통하여 식품정책, 식품산업, 식품기술 개발에 효과적인 정보를 제공하여 식품정보의 활용성 증대 및 효과적인 분류를 가능케 하였다.

  • PDF

데이터 오류에서 추출한 데이터 품질 특성 (Extraction of Data Quality Characteristics from Dirty Data)

  • 김수경;최병주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.549-551
    • /
    • 2000
  • 소프트웨어 제품의 품질을 보증하는 일은 매우 중요하며, 국제표준인 ISO/IEC 9126은 소프트웨어 품질 및 특성 및 측정 메트릭 표준을 제공하고 있다. 이때 ISO/IEC 9126에서는 소프트웨어를 프로그램, 절차, 규칙 및 관련문서로 한정하고 있기 때문에 데이터의 품질에는 적용할 수 없다. 본 논문에서는 데이터 품질 평가 및 제어를 위하여 데이터 오류 형태를 분류하고, 이를 기반으로 데이트 품질 특성 및 부특성을 분류한다. 데이터 품질 특성 분류는 ISO/IEC 9126에 정의한 소프트웨어 품질 특성을 데이터 오류 형태에 대응시켜 추출한다. 본 논문에서 제시하는 데이트 품질특성 분류는 지식 공학(knowledge engineering)시스템이 최종 사용자에게 제공하는 데이터나 지식의 품질 측정 및 제어에 기준이 된다.

  • PDF

DNA 마이크로어레이 데이터의 분류를 위한 종분화 진화 기반의 최적 다중 분류기 (Multiple Optimal Classifiers based on Speciated Evolution for Classifying DNA Microarray Data)

  • 박찬호;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.724-726
    • /
    • 2004
  • DNA 마이크로어레이 기술의 발전은 암의 조기 발견 및 예후 예측을 가능하게 해주었으며, 이와 관련된 많은 연구가 진행 중이다. 마이크로어레이 데이터의 분류에서 관련 유전자들의 선택은 필수적이며, 유전자 선택방법은 분류기와 짝을 이루어 특징-분류기를 형성한다. 이제까지 여러 가지 특징-분류기를 사용하여 마이크로어레이 데이터를 분류해 왔지만, 알고리즘의 한계와 데이터의 결함 등으로 인하여 최적의 특징-분류기를 찾기 어려웠다. 따라서 앙상블 분류기를 이용하여 높은 분류성능을 얻는 방법이 시도되어왔으며. 최적의 것을 찾기 위하여 유전자 알고리즘이 사용되기도 했다. 본 논문에서는 이를 발전시켜 다양한 최적의 앙상블을 생성하기 위해 종분화 방법을 사용한다. 림프종 암 데이터에 대하여 leave-one-out cross-validation을 적용한 결과, 제안한 방법으로 다양한 최적해를 탐색하는 것을 확인할 수 있었다.

  • PDF

분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발 (A Study on Calculating Over-sampling Ratio using Classification Complexity)

  • 이도현;김경옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.591-594
    • /
    • 2020
  • 불균형 데이터는 범주에 따른 데이터의 분포가 불균형한 데이터를 의미한다. 이런 데이터를 활용해 기존 분류 알고리즘으로 분류기를 학습하면 성능이 저하되는 문제가 발생한다. 오버 샘플링은 이를 해결하기 위한 기법 중 하나로 수가 적은 범주[이하 소수 범주]에 속한 데이터 수를 임의로 증가시킨다. 기존 연구들에서는 수가 많은 범주[이하 다수 범주]에 속한 데이터 수와 동일한 크기만큼 증가시키는 경우가 많다. 이는 증가시키는 샘플의 수를 결정할 때 범주 간 데이터 수 비율만 고려한 것이다. 그런데 데이터가 동일한 수준의 불균형 정도를 갖더라도 범주별 데이터 분포에 따라서 분류 복잡도가 다르며, 경우에 따라 데이터 분포에서 존재하는 불균형 정도를 완전히 해소하지 않아도 된다. 이에 본 논문은 분류 복잡도를 활용해 데이터 셋 별 적정 오버 샘플링 비율을 산출하는 알고리즘을 제안한다.

데이터 마이닝의 분류 규칙 발견을 위한 유전자알고리즘 학습방법 (Genetics-Based Machine Learning for Generating Classification Rule in Data Mining)

  • 김대희;박상호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.429-434
    • /
    • 2001
  • 데이터(data)치 홍수와 정보의 빈곤이라는 환경에 처한 지금, 정보기술을 이용하여 데이터를 여과하고, 분석하며, 결과를 해석하는 자동화 된 데이터 분석 방안에 높은 관심을 가지게 되었으며, 데이터 마이닝(Data Mining))은 이러한 요구를 충족시키는 정보기술의 활용방법이다. 특히 데이터 마이닝(Data Mining)의 분류(Classification) 방법은 중요한 분야가 되고 있다. 분류 작업의 핵심은 어떻게 적당한 결정규칙(decision rule)을 정의하느냐에 달려 있는데 이를 위해 학습능력을 가지고 있는 알고리즘이 필요하다. 본 논문에서는 유전자 알고리즘(Genetic Algorithm)을 기반으로 하는 강건한 학습방법을 제시했으며, 이러한 학습을 통해 데이터 마이닝(Data Mining)의 분류시스템을 제안하였다.

  • PDF

학습을 위한 네거티브 데이터가 존재하지 않는 경우의 microRNA 타겟 예측 방법 (microRNA target prediction when negative data is not available for learning)

  • 이제근;김수진;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.212-216
    • /
    • 2008
  • 기존의 알려진 데이터에 기반하여 분류 알고리즘을 통해 새로운 생물학적인 사실을 예측하는 것은 생물학 연구에 매우 유용하다. 하지만 생물학 데이터 분류 문제에서 positive 데이터만 존재할 뿐, negative 데이터는 존재하지 않는 경우가 많다. 이와 같은 상황에서는 많은 경우에 임의로 negative data를 구성하여 사용하게 된다. 하지만, negative 데이터는 실제로 negative임이 보장된 것이 아니고, 임의로 생성된 데이터의 특성에 따라 분류 성능 및 모델의 특성에 많은 차이를 보일 수 있다. 따라서 본 논문에서는 단일 클래스 분류 알고리즘 중 하나인 support vector data description(SVDD) 방법을 이용하여 실제 microRNA target 예측 문제에서 positive 데이터만을 이용하여 학습하고 분류를 수행하였다. 이를 통해 일반적인 이진 분류 방법에 비해 이와 같은 방법이 실제 생물학 문제에 보다 적합하게 적용될 수 있음을 확인한다.

  • PDF

데이터 수정 접근에 의한 불완전한 수치형 데이터 분류에 관한 연구 (A Study on Classifying Numerical Incomplete Data with Data Reparation Approach)

  • 김요승;정영철;이원돈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.44-47
    • /
    • 2008
  • 분류는 기계학습에서 매우 중요한 연구주제이다. 그 중에서도 수치형 데이터의 분류를 위한 많은 알고리즘들이 있다. 그러나 불완전한 데이터의 존재는 분류 모델들의 학습(learning) 품질(quality)을 떨어뜨린다. 그 불완전한 데이터는 현실 세계에서 아주 흔하다. 학습 단계와 분류 단계 양쪽에서 불완전한 데이터를 다루는 것이 중요하고 현실세계 문제들을 풀기 위해 적용되는 것이 필요하다. 본 논문에서 Optimal Completion Strategy(OCS)로부터 나온 몇 개의 공식들이 불완전한 데이터를 예측하기 위해 사용되었다. 새로운 방법이 불완전한 데이터를 분류하기 위해서 제시되었고, 그것은 놀라운 성능을 보여준다.

지역 기반 분류기의 앙상블 학습 (Ensemble Learning of Region Based Classifiers)

  • 최성하;이병우;양지훈;김선호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.267-270
    • /
    • 2007
  • 기계학습에서 분류기들의 집합으로 구성된 앙상블 분류기는 단일 분류기에 비해 정확도가 높다는 것이 입증되었다. 본 논문에서는 새로운 앙상블 학습으로서 데이터의 지역 기반 분류기들의 앙상블 학습을 제시하여 기존의 앙상블 학습과의 비교를 통해 성능을 검증하고자 한다. 지역 기반 분류기의 앙상블 학습은 데이터의 분포가 지역에 따라 다르다는 점에 착안하여 학습 데이터를 분할하고 해당하는 지역에 기반을 둔 분류기들을 만들어 나간다. 이렇게 만들어진 분류기들로부터 지역에 따라 가중치를 둔 투표를 하여 앙상블 방법을 이끌어낸다. 본 논문에서 제시한 앙상블 분류기의 성능평가를 위해 UCI Machine Learning Repository에 있는 11개의 데이터 셋을 이용하여 단일 분류기와 기존의 앙상블 분류기인 배깅과 부스팅등의 정확도를 비교하였다. 그 결과 기본 분류기로 나이브 베이즈와 SVM을 사용했을 때 새로운 앙상블 방법이 다른 방법보다 좋은 성능을 보이는 것을 알 수 있었다.

  • PDF

Interval Type-2 FCM based RBFNN의 도움으로 실현된 사례 및 에코 분류기 설계 : LSE와 WLSE의 비교연구 (Design of Event and Echo Classifier Realized with the Aid of Interval Type-2 FCM based RBFNN : Comparative Studies of LSE and WLSE)

  • 송찬석;오성권;김현기
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2015년도 제46회 하계학술대회
    • /
    • pp.1347-1348
    • /
    • 2015
  • 본 논문에서는 기상레이더 데이터에서 섞여있는 강수에코 및 비강수에코를 분류하기 위하여 Interval Type-2 FCM based RBFNN의 도움으로 사례 및 에코 분류기의 설계를 제안한다. 학습과 테스트 데이터는 현재 기상청에서 사용하는 UF radar data를 사용하였으며, 사례 분류기와 에코패턴 분류기의 데이터를 각각 생성한다. 전처리 과정인 사례 분류를 통하여 강수사례 혹은 비강수사례를 분류하여 강수사례일 경우 에코패턴분류를 진행하며, 비강수사례일 경우 데이터에 관측된 모든 반사도 값을 제거한다. 사례 및 에코 분류기는 Interval Type-2 FCM based RBFNN을 통하여 패턴분류를 진행하며, 패턴분류 성능을 확인한다. 또한 후반부 파라미터의 동정 시, 각 규칙에 파라미터를 전역적으로 구하는 LSE와 각 규칙에 대한 파라미터를 독립적으로 구하는 WSLE의 비교연구를 수행한다. 분류기의 성능을 확인하기 위하여 사례 분류 후 에코패턴분류의 결과는 현재 기상청에서 사용하고는 품질검사(QC) 데이터와 비교하여 평가하였다.

  • PDF