• Title/Summary/Keyword: 학습 집합

Search Result 553, Processing Time 0.033 seconds

Attribute extract method based TDIDT for construction of user profile (사용자 프로파일 구축을 위한 TDIDT기반 관심단어 추출기법)

  • 이선미;박영택
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.321-327
    • /
    • 2002
  • 본 논문은 기존의 귀납적 결정 트리 방식에서의 문제점 개선을 통한 사용자 관심 프로파일 구축을 목적으로 한다. 특히 사용자 관심 프로파일의 정확도 향상을 위한 속성 선택에 대한 연구에 초점을 맞추고 있다. 사용자의 관심, 비관심 문서를 대상으로 사용자 관심 키워드를 생성하고 이를 바탕으로 초기 문서들을 재표현한다. 재표현된 문서를 입력 집합으로 하여 기계학습을 진행한다. 본 논문의 의사 결정 트리 생성 알고리즘은 입력 집합을 클래스별로 가장 잘 나누는 속성을 선택하여 노드를 구성하는 면에서는 기존의 알고리즘과 같다. 그러나 기존의 의사 결정 트리 알고리즘에서는 hill-climbing.방식을 사용함으로써 사용자의 관심을 나타내는 중요한 단어가 사용자 관심 프로파일에서 숨겨질 경우가 발생한다. 이를 최소화하기 위해 특징 추출을 통해 선택된 속성을 그대로 학습의 입력 데이터로 사용하는 것이 아니라 입력데이터를 가장 잘 나누는 속성과 그 다음 속성을 대상으로 disjunctive 연산을 통해 새로운 속성을 생성하여 이것을 속성 집합에 포함시키고 이를 학습의 입력 데이터로 이용한다. 이와 같이 disjunctive operator를 이용하여 새로운 속성을 의사 결정 트리 형성 시 이용하면 사용자의 중요한 관심을 포함하는 의미 있는(semantic) 사용자 관심 프로파일 구축이 가능해지고, 사용자 관심 프로파일을 기반으로 사용자가 관심 있는 문서를 제공할 수 있는 개인화 서비스를 제공한다.

  • PDF

Performance Improvement by a Virtual Documents Technique in Text Categorization (문서분류에서 가상문서기법을 이용한 성능 향상)

  • Lee, Kyung-Soon;An, Dong-Un
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.501-508
    • /
    • 2004
  • This paper proposes a virtual relevant document technique in the teaming phase for text categorization. The method uses a simple transformation of relevant documents, i.e. making virtual documents by combining document pairs in the training set. The virtual document produced by this method has the enriched term vector space, with greater weights for the terms that co-occur in two relevant documents. The experimental results showed a significant improvement over the baseline, which proves the usefulness of the proposed method: 71% improvement on TREC-11 filtering test collection and 11% improvement on Routers-21578 test set for the topics with less than 100 relevant documents in the micro average F1. The result analysis indicates that the addition of virtual relevant documents contributes to the steady improvement of the performance.

Text Categorization Based on the Maximum Entropy Principle (최대 엔트로피 기반 문서 분류기의 학습)

  • 장정호;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.57-59
    • /
    • 1999
  • 본 논문에서는 최대 엔트로피 원리에 기반한 문서 분류기의 학습을 제안한다. 최대 엔트로피 기법은 자연언어 처리에서 언어 모델링(Language Modeling), 품사 태깅 (Part-of-Speech Tagging) 등에 널리 사용되는 방법중의 하나이다. 최대 엔트로피 모델의 효율성을 위해서는 자질 선정이 중요한데, 본 논문에서는 자질 집합의 선택을 위한 기준으로 chi-square test, log-likelihood ratio, information gain, mutual information 등의 방법을 이용하여 실험하고, 전체 후보 자질에 대한 실험 결과와 비교해 보았다. 데이터 집합으로는 Reuters-21578을 사용하였으며, 각 클래스에 대한 이진 분류 실험을 수행하였다.

  • PDF

Text Categorization Using Co-Trained Support Vector Machines (Co-Trained Support Vector Machines을 이용한 문서분류)

  • 박성배;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.259-261
    • /
    • 2002
  • 대부분의 자동문서분류 시스템은 문서에 사용된 단어의 분포만 고려하고, 또 하나의 중요한 정보인 통사 정보는 무시한다. 본 논문에서는 통사정보와 어휘정보를 모두 사용함으로써 대규모의 비구조 문서를 분류하는 방법을 제시한다. 이를 위해, 학습 데이터에 대해 독립된 두 개의 관점을 요구하는 일종의 부분 감독 학습 알고리즘인 co-training 알고리즘을 사용한다. 어휘정보와 통사정보가 각각 문서의 독립된 관점이 될 수 있으므로, 이 두 정보와 레이블이 없는 문서를 사용하여 문서 분류의 성능을 높일 수 있다. Reelers-21578 문서집합과 TREC-7 filtering 문서집합에 대한 실험 결과는 제시된 방법의 유효성을 보인다.

  • PDF

Integrating Multiple Classifiers in a GA-based Inductive Learning Environment (유전 알고리즘 기반 귀납적 학습 환경에서 분류기의 통합)

  • Kim, Yeong-Joon
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.10 no.3
    • /
    • pp.614-621
    • /
    • 2006
  • We have implemented a multiclassifier learning approach in a GA-based inductive learning environment that learns classification rules that are similar to rules used in PROSPECTOR. In the multiclassifier learning approach, a classification system is constructed with several classifiers that are obtained by running a GA-based learning system several times to improve the overall performance of a classification system. To implement the multiclassifier learning approach, we need a decision-making scheme that can draw a decision using multiple classifiers. In this paper, we introduce two decision-making schemes: one is based on combining posterior odds given by classifiers to each class and the other one is a voting scheme based on ranking assigned to each class by classifiers. We also present empirical results that evaluate the effect of the multiclassifier learning approach on the GA-based inductive teaming environment.

Regeneration of a defective Railroad Surface for defect detection with Deep Convolution Neural Networks (Deep Convolution Neural Networks 이용하여 결함 검출을 위한 결함이 있는 철도선로표면 디지털영상 재 생성)

  • Kim, Hyeonho;Han, Seokmin
    • Journal of Internet Computing and Services
    • /
    • v.21 no.6
    • /
    • pp.23-31
    • /
    • 2020
  • This study was carried out to generate various images of railroad surfaces with random defects as training data to be better at the detection of defects. Defects on the surface of railroads are caused by various factors such as friction between track binding devices and adjacent tracks and can cause accidents such as broken rails, so railroad maintenance for defects is necessary. Therefore, various researches on defect detection and inspection using image processing or machine learning on railway surface images have been conducted to automate railroad inspection and to reduce railroad maintenance costs. In general, the performance of the image processing analysis method and machine learning technology is affected by the quantity and quality of data. For this reason, some researches require specific devices or vehicles to acquire images of the track surface at regular intervals to obtain a database of various railway surface images. On the contrary, in this study, in order to reduce and improve the operating cost of image acquisition, we constructed the 'Defective Railroad Surface Regeneration Model' by applying the methods presented in the related studies of the Generative Adversarial Network (GAN). Thus, we aimed to detect defects on railroad surface even without a dedicated database. This constructed model is designed to learn to generate the railroad surface combining the different railroad surface textures and the original surface, considering the ground truth of the railroad defects. The generated images of the railroad surface were used as training data in defect detection network, which is based on Fully Convolutional Network (FCN). To validate its performance, we clustered and divided the railroad data into three subsets, one subset as original railroad texture images and the remaining two subsets as another railroad surface texture images. In the first experiment, we used only original texture images for training sets in the defect detection model. And in the second experiment, we trained the generated images that were generated by combining the original images with a few railroad textures of the other images. Each defect detection model was evaluated in terms of 'intersection of union(IoU)' and F1-score measures with ground truths. As a result, the scores increased by about 10~15% when the generated images were used, compared to the case that only the original images were used. This proves that it is possible to detect defects by using the existing data and a few different texture images, even for the railroad surface images in which dedicated training database is not constructed.

Fine Grained Classification of Named Entities Using Machine Learning and Dictionary (기계학습과 사전을 이용한 개체명 세분화)

  • 이기중;이도길;임해창;임수종
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.519-521
    • /
    • 2003
  • 개체명 인식은 효과적인 정보추출 시스템을 구축하기 위해 반드시 선행되어야 하는 작업이다. 지금까지의 개체명 인식에 관한 연구는 인명이나 조직, 장소와 같은 일반적인 개체명 인식 작업이 대부분이었다. 그러나, 효과적인 정보추출을 위해서는 이런 일반적인 개체명들을 더욱 세분화할 필요가 있다. 본 논문에서는 SVM기반 기계학습법과 기구축된 사전과의 편집거리 비교법을 이용하여 개체명을 세분화하는 방법을 제시한다. 실험은 개체명과 세분화된 범주가 부착된 공연 관련 문서 100개 중 80개는 학습집합, 20개는 실험집합으로 사용하였고 성능 평가 척도는 정확도(accuracy)를 이용해 개별적으로 평가하였다. 실험 결과 기계학습법과 사전을 이용한 방법을 결합한 모델이 가장 좋은 성능(정확도 72.91%)을 보였다.

  • PDF

Extreme Learning Machine based Fuzzy Pattern Classifier for Face Recognition (얼굴인식을 위한 ELM 기반 퍼지 패턴분류기)

  • Oh, Sung-Kwun;Roh, Seok-Beom
    • Proceedings of the KIEE Conference
    • /
    • 2015.07a
    • /
    • pp.1369-1370
    • /
    • 2015
  • 본 논문에서는 얼굴 인식을 위하여 인공 신경망의 일종인 Extreme Learning Machine의 학습 알고리즘을 기반으로 하여 지능형 알고리즘인 퍼지 집합 이론을 이용하여 주변 노이즈에 매우 강한 특성을 보이며 학습 속도가 매우 빠른 새로운 패턴 분류기를 제안한다. 제안된 퍼지 패턴 분류기는 기존 신경회로망의 학습 속도에 비해 매우 빠른 학습 속도를 보이며, 패턴 분류기의 일반화 성능이 우수하다고 알려진 Extreme Learning Machine의 특성을 퍼지 집합 이론과 결합하여 퍼지 패턴 분류기의 일반화 성능을 개선하였다. 제안된 퍼지 패턴 분류기는 얼굴 인식 데이터를 이용하여 성능을 평가 하였다.

  • PDF

Improving a CNN-based Image Annotation System Using Multi-Labeled Images (다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선)

  • Kim, Taeksoo;Kim, Sangbum
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.99-103
    • /
    • 2015
  • 최근 딥러닝 기술의 발전에 힘입어 이미지로부터 자동으로 관련된 단어 혹은 문장을 생성하는 연구들이 진행되고 있는데, 많은 연구들은 이미지와 단어가 1:1로 대응된 잘 정련된 학습 집합을 필요로 한다. 한편 스마트폰 보급의 확산으로 인스타그램, 폴라 등의 이미지 기반 SNS가 급속하게 성장함에 따라 인터넷에는 한 이미지의 복수개의 단어(태그)가 부착되어있는 데이터들이 폭증하고 있는 것이 현실이다. 본 논문에서는 소규모의 잘 정련된 학습 집합뿐 아니라 이러한 대규모의 다중 레이블 데이터를 같이 활용하여 이미지로부터 태그를 생성하는 개선된 CNN구조 및 학습알고리즘을 제안한다. 기존의 분류 기반 모델에 은닉층을 추가하고 새로운 학습 방법을 도입한 결과, 어노테이션 성능이 기존 모델보다 11% 이상 향상되었다.

  • PDF