• Title/Summary/Keyword: 학습 집합

Search Result 553, Processing Time 0.036 seconds

Automatic Text Classification by Learning from Unlabeled Data (레이블이 없는 데이터로부터의 학습에 의한 자동 문서 분류)

  • 박성배;김유환;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.265-267
    • /
    • 2001
  • 본 논문에서는 레이블이 없는 데이터를 이용하는 새로운 자동 문서 분류 방법을 제시한다. 제시된 방법은 적은 수의 레이블이 있는 데이터로부터 학습된 후 많은 수의 레이블이 없는 데이터로 보강되는 일련의 분류기(classifier)에 기반한다. 레이블이 없는 데이터를 활용하기 때문에, 필요한 레이블이 있는 데이터의 수가 줄어들고, 분류 정확도가 향상된다. 두 개의 표준 데이터 집합에 대한 실험 결과, 레이블이 없는 데이터를 사용함으로써 분류 정확도가 증가함을 보였다. 분류 정확도는 전체 데이터의 2/3만 사용하고도 NIPS 2000 워크숍 데이터 집합에 대해서는 약 7.9% 정도, WebKB 데이터 집합에 대해서는 9.2% 증가하였다.

  • PDF

Design of Interval Type-2 Fuzzy Set-based Fuzzy Neural Network and Its Optimization (Interval Type-2 퍼지 집합 기반 퍼지뉴럴네트워크 설계 및 최적화)

  • Park, Keon-Jun;Oh, Sung-Kwun;Kim, Hyun-Ki
    • Proceedings of the KIEE Conference
    • /
    • 2009.07a
    • /
    • pp.1901_1902
    • /
    • 2009
  • 본 논문에서는 Interval Type-2 퍼지 집합을 이용한 퍼지집합 기반 퍼지뉴럴네트워크를 설계하고 최적화한다. Interval Type-2 퍼지뉴럴네트워크는 각 입력 변수에 따른 서로 분리된 입력 공간을 분할함으로서 네트워크 및 규칙을 구성한다. 규칙의 전반부는 퍼지 입력 공간을 개별적으로 분할하여 표현하고, 각 공간은 Interval Type-2 퍼지 집합으로 구성된다. 규칙의 후반부는 Interval 집합을 이용하여 다항식으로서 표현되며, 오류역전파 알고리즘을 이용하여 연결가중치인 후반부 다항식을 학습한다. 또한, 각 입력에 대한 전반부 멤버쉽함수의 정점과 불확실성 계수 그리고 학습률 및 모멘텀 계수를 유전자 알고리즘을 이용하여 최적 동조한다. 제안된 네트워크는 표준 모델로서 널리 사용되는 수치적인 예를 통하여 평가한다.

  • PDF

A Study on Analysis of Dynamic Generation of Initial Weights in EBP Learning (EBP 신경망 학습에서의 동적 초기 가중치 선택에 관한 연구)

  • Kim, Tea-Hun;Lee, Yill-Byung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.35-38
    • /
    • 2006
  • 다층 퍼셉트론(MLP) 학습 이론인 오류 역전파 알고리즘은 델타룰과 최급 하강법을 사용하기 때문에 학습시 많은 시간이 소요된다는 단점을 가지고 있다. 때문에 신경망에서의 잘못된 초기 가중치 선택은 오류 역전파 알고리즘을 사용하는 신경망에서의 현격한 학습 성능저하를 발생시키게 된다. 본 논문에서는 학습시 오류 역전파 알고리즘의 수렴시간을 개선하기 위한 신경망의 동적 초기 가중치 선택 알고리즘을 제안한다. 이 알고리즘은 학습전 기존의 선택 가중치와 모든 가중치가 1.0 또는 -1.0 값을 가지는 가중치 집합에서 가중치 변동률을 선측정하여 이들 중 가장 변동률이 큰 경우를 초기 가중치 집합으로 선정하게 된다. 즉, 초기의 가중치 변동률을 차후 성능을 판단하는 지표로 사용하여 잘못된 가중치 선택으로 인한 최악의 학습효율의 가능성을 배제시키고 다층 신경망의 학습특성상 평균 이상의 학습효율을 보장하는 초기 가중치 선택방법이다.

  • PDF

An Adaptive Tutoring System based on Fuzzy sets for Learning by Level (수준별 학습을 위한 퍼지 집합 기반 적응형 교수 시스템)

  • Choi, Sook-Young;So, Ji-Sook;Lee, Sun-Jung
    • The Journal of Korean Association of Computer Education
    • /
    • v.6 no.2
    • /
    • pp.121-135
    • /
    • 2003
  • This paper proposes a web-based adaptive tutoring system based on fuzzy set that provides learning materials and questions dynamically according to students' knowledge state, and gives advices for the learning after an evaluation. For this, we design a courseware knowledge structure systematically and then construct a fuzzy level set on the basis of it considering importance of learning targets, difficulty of learning materials and relation degree between learning targets and learning materials. Using the fuzzy level set, our system offers learning materials and questions to adapt to individual students. Moreover, a result of the test is evaluated with fuzzy linguistic variable. Appling the fuzzy concept to the tutoring system could naturally consider and deal with various and uncertain items of learning environment thus could offer more flexible and effective instruction-learning methods.

  • PDF

A Comparative Study on the Event-Retrieval Performances of Event Tracking and Information Filtering (사건트래킹과 정보필터링 기법의 사건검색 성능 비교연구)

  • Chung, Young-Mee;Chang, Ji-Eun
    • Journal of the Korean Society for information Management
    • /
    • v.20 no.3
    • /
    • pp.111-127
    • /
    • 2003
  • The purpose of this study is to ascertain whether event tracking is more effective in event retrieval than information filtering. This study examined the two techniques for event retrieval to suggest the more effective one. The event-retrieval performances of the event tracking technique based on a kNN classifier and the query-based information filtering technique were compared. Two event tracking experiments, one with the static training set and the other with the dynamic training set , were carried out. Two information filtering experiments, one with initial queries and the other with refined queries, were also carried out to evaluate the event-retrieval effectiveness. We found that the event tracking technique with the static training set performed better than on with the dynamic training set. It was also found that the information fitering technique using intial queries performed better than one using the refined queries. In conclusion, the comparison of the best cases of event tracking and information filtering revealed that the information filtering technique outperformed the event tracking technique in event retrieval.

Learning Algorithm of Neural Networks Using Rough Set (러프집합을 이용한 신경망 학습알고리즘)

  • 손현숙;피수영;정환묵
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1997.10a
    • /
    • pp.327-330
    • /
    • 1997
  • 패턴인식중에서 가장 기본적인 문제인 판별문제를 대상으로 러프집합을 이용한 판별분석을 행하는 신경망의 학습알고리즘을 제안한다. 어떤군에 속할 것인가의 경계영역을 명확히 하는 것을 목적으로 한다. 2군 판별의 문제를 각 데이터가 각 군에 속한 정도를 표현하는 소속함수(membership function)을 이용하며, 경계영역에 대한 문제는 소속함수를 구간치 함수로 확장하여 가능성과 필연성을 동시에 표현할 수 있는 학습 알고리즘을 제안한다.

  • PDF

A Study on the Semiautomatic Construction of Domain-Specific Relation Extraction Datasets from Biomedical Abstracts - Mainly Focusing on a Genic Interaction Dataset in Alzheimer's Disease Domain - (바이오 분야 학술 문헌에서의 분야별 관계 추출 데이터셋 반자동 구축에 관한 연구 - 알츠하이머병 유관 유전자 간 상호 작용 중심으로 -)

  • Choi, Sung-Pil;Yoo, Suk-Jong;Cho, Hyun-Yang
    • Journal of Korean Library and Information Science Society
    • /
    • v.47 no.4
    • /
    • pp.289-307
    • /
    • 2016
  • This paper introduces a software system and process model for constructing domain-specific relation extraction datasets semi-automatically. The system uses a set of terms such as genes, proteins diseases and so forth as inputs and then by exploiting massive biological interaction database, generates a set of term pairs which are utilized as queries for retrieving sentences containing the pairs from scientific databases. To assess the usefulness of the proposed system, this paper applies it into constructing a genic interaction dataset related to Alzheimer's disease domain, which extracts 3,510 interaction-related sentences by using 140 gene names in the area. In conclusion, the resulting outputs of the case study performed in this paper indicate the fact that the system and process could highly boost the efficiency of the dataset construction in various subfields of biomedical research.

The Effect of the Quality of Pre-Assigned Subject Categories on the Text Categorization Performance (학습문헌집합에 기 부여된 범주의 정확성과 문헌 범주화 성능)

  • Shim, Kyung;Chung, Young-Mee
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.2
    • /
    • pp.265-285
    • /
    • 2006
  • In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in $F_1$ value. On the other hand, the Recat-1 set scores $F_1$ value of 61%, which is 3.6 times higher than that of the Initial set.

Estimation of Document Similarity using Semantic Kernel Derived from Helmholtz Machines (헬름홀츠머신 학습 기반의 의미 커널을 이용한 문서 유사도 측정)

  • 장정호;김유섭;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.440-442
    • /
    • 2003
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어수준 이상의 개념 수준에서의 운서 비교를 가능하게 한다. 본 논문에서는 은닉변수모델을 이용하여 문서 집합으로부터 단어들 간의 의미관계를 자동적으로 추출하고 이를 통해 문서간 유사도 측정을 효과적으로 하기 위한 방안을 제시한다. 은닉변수 모델로는 다중요인모델의 학습이 용이한 헬름홀츠 머신을 활용하묘 이의 학습 결과에 기반하여, 문서간 비교를 한 의미 커널(semantic kernel)을 구축한다. 2개의 문서 집합 HEDLINE과 CACM 데이터에 대한 검색 실험에서, 제안된 기법을 적응함으로써 기본 VSM(Vector Space Model) 에 비해 20% 이상의 평균 정확도 향상을 이를 수 있었다.

  • PDF

Analysis of Korean Language Parsing System and Speed Improvement of Machine Learning using Feature Module (한국어 의존 관계 분석과 자질 집합 분할을 이용한 기계학습의 성능 개선)

  • Kim, Seong-Jin;Ock, Cheol-Young
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.51 no.8
    • /
    • pp.66-74
    • /
    • 2014
  • Recently a variety of study of Korean parsing system is carried out by many software engineers and linguists. The parsing system mainly uses the method of machine learning or symbol processing paradigm. But the parsing system using machine learning has long training time because the data of Korean sentence is very big. And the system shows the limited recognition rate because the data has self error. In this thesis we design system using feature module which can reduce training time and analyze the recognized rate each the number of training sentences and repetition times. The designed system uses the separated modules and sorted table for binary search. We use the refined 36,090 sentences which is extracted by Sejong Corpus. The training time is decreased about three hours and the comparison of recognized rate is the highest as 84.54% when 10,000 sentences is trained 50 times. When all training sentence(32,481) is trained 10 times, the recognition rate is 82.99%. As a result it is more efficient that the system is used the refined data and is repeated the training until it became the steady state.