• Title/Summary/Keyword: 학습 집합

Search Result 553, Processing Time 0.054 seconds

Automatic Text Classification Using Hybrid Multiple Model Schemes (하이브리드 다중 모델 학습 기법을 이용한 자동 문서 분류)

  • 명순희;조형근;김인철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.253-255
    • /
    • 2002
  • 본 논문에서는 다중 모델 기계학습 기법을 이용하여 문서 자동 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험 결과를 기술하였다. 기존의 다중 모텔 기계 학습법들이 훈련 데이터 또는 학습 알고리즘의 편향에 의한 오류를 극복하고 한 것들인데 비해 본 논문에서 제안한 메타 학습을 이용한 하이브리드 다중 모델 방식은 이 두 가지의 오류 원인을 동시에 해소하고자 하였다. 다양한 문서 집합에 대한 실험 결과, 본 연구에서 제안한 하이브리드 다중 모델 학습법이 전반적으로 기존의 일반 다중모델 학습법들에 비해 높은 성능을 보였으며, 다중 모델의 결합 방식으로서 메타 학습이 투표 방식에 비해 효율적인 것으로 나타났다.

  • PDF

A distance metric of nominal attribute based on conditional probability (조건부 확률에 기반한 범주형 자료의 거리 측정)

  • 이재호;우종하;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.09b
    • /
    • pp.53-56
    • /
    • 2003
  • 유사도 혹은 자료간의 거리 개념은 많은 기계학습 알고리즘에서 사용되고 있는 중요한 측정개념이다 하지만 입력되는 자료의 속성들중 순서가 정의되지 않은 범주형 속성이 포함되어 있는 경우, 자료간의 유사도나 거리 측정에 어려움이 따른다. 비거리 기반의 알고리즘들의 경우-C4.5, CART-거리의 측정없이 작동할 수 있지만, 거리기반의 알고리즘들의 경우 범주형 속성의 거리 정보 결여로 효과적으로 적용될 수 없는 문제점을 갖고 있다. 본 논문에서는 이러한 범주형 자료들간 거리 측정을 자료 집합의 특성을 충분히 고려한 방법을 제안한다. 이를 위해 자료 집합의 선험적인 정보를 필요로 한다. 이런 선험적 정보인 조건부 확률을 기반으로한 거리 측정방법을 제시하고 오류 피드백을 통해서 속성 간 거리 측정을 최적화 하려고 노력한다. 주어진 자료 집합에 대해 서로 다른 두 범주형 값이 목적 속성에 대해서 유사한 분포를 보인다면 이들 값들은 비교적 가까운 거리로 결정한다 이렇게 결정된 거리를 기반으로 학습 단계를 진행하며 이때 발생한 오류들에 대해 피드백 작업을 진행한다. UCI Machine Learning Repository의 자료들을 이용한 실험 결과를 통해 제안한 거리 측정 방법의 우수한 성능을 확인하였다.

  • PDF

Automatic Back-Transliteration from Foreign Word to English Word (음차표기된 외래어의 발음특성을 이용한 자동 영어단어 복원)

  • 이상율;강인수;나승훈;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.525-527
    • /
    • 2003
  • 음차 표기된 외래어의 원어 복원 문제에 있어서 확률모델을 이용한 방법들이 기존에 많이 사용되었다. 이는‘발음단위’개념 (이재성 1998)을 이용하여 서로 대응될 수 있는 한글발음단위와 영어발음단위의 쌍들을 대역어 집합으로부터 추출하고 이를 확률모델에 적용하는 방법이다. 하지만 영어 철자를 영어 발음단위로 변환하는 과정에서 그 단어의 어원에 따라 서로 다른 발음상의 특징을 보이게 되는데. 이것이 기존의 연구에서 성능을 떨어뜨리는 원인이 되었다. 따라서 본 논문에서는 학습 데이터(대역어 집합)들을 발음 특성에 따라 분류하고. 분류된 각 데이터 집합을 학습과정에서 따로 적용함으로써 서로 다른 특성을 가지는 여러 개의 복원 모델을 얻을 수 있고, 이를 이용하여 원어 복원에 대한 성능을 높일 수 있음을 보여준다.

  • PDF

Korean Continuous Speech Recognition using Phone Models for Function words (기능어용 음소 모델을 적용한 한국어 연속음성 인식)

  • 명주현;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.354-356
    • /
    • 2000
  • 의사형태소를 디코딩 단위로 한국어 연속 음성 인식에서의 조사, 어미, 접사 및 짧은 용언의 어간등의 단어가 상당수의 인식 오류를 발생시킨다. 이러한 단어들은 발화 지속시간이 매우 짧고 생략이 빈번하며 결합되는 다른 형태소의 형태에 따라서 매우 심한 발음상의 변이를 보인다. 본 논문에서는 이러한 단어들은 한국어 기능어라 정의하고 실제 의사형태소 단위의 인식 실험을 통하여 기능어 집합 1, 2를 규정하였다. 그리고 한국어 기능어에 기능어용 음소를 독립적으로 적용하는 방법을 제안했다. 또한 기능어용 음소가 분리되어 생기는 음향학적 변이들을 처리하기 위해 Gaussian Mixture 수를 증가시켜 보다 견고한 학습을 수행했고, 기능어들의 음향 모델 스코어가 높아짐에 따른 인식에서의 삽입 오류 증가를 낮추기 위해 언어 모델에 fixed penalty를 부여하였다. 기능어 집합1에 대한 음소 모델을 적용한 경우 전체 문장 인식률은 0.8% 향상되었고 기능어 집합2에 대한 기능어 음소 모델을 적용하였을 때 전체 문장 인식률은 1.4% 증가하였다. 위의 실험 결과를 통하여 한국어 기능어에 대해 새로운 음소를 적용하여 독립적으로 학습하여 인식을 수행하는 것이 효과적임을 확인하였다.

  • PDF

Optimal Design of Fuzzy Set-based Fuzzy Neural Network with Multi-Output and Its application to Partial Discharge Pattern Recognition (다중 출력을 가진 퍼지 집합 기반 퍼지뉴럴네트워크 최적 설계 및 부분방전 패턴인식으로의 적용)

  • Park, Geon-Jun;O, Seong-Gwon;Kim, Hyeon-Gi
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.411-414
    • /
    • 2008
  • 본 논문에서는 다중 출력을 가지는 퍼지 집합 기반 퍼지뉴럴네크워크(Fuzzy-Nueral Network; FNN)를 설계한다. 퍼지 집한 기반 퍼지뉴럴네트워크는 각 입력 변수에 따른 개별적인 입력 공간을 공간 분할함으로서 네트워크를 구성한다. 규칙의 전반부는 앞서 언급한 개별적인 입력 공간을 분할하여 표현하고, 규칙의 후반부는 다항식으로서 표현되며 오류역전파 알고리즘을 이용하여 연결가중치인 후반부 다항식의 계수를 학습한다. 또한, 각 입력에 대한 전반부 멤버쉽 함수의 정점과 학습률 및 모멤텀 계수를 유전자 알고리즘을 이용하여 최적 동조한다. 따라서 유전자 알고리즘을 이용하여 퍼지뉴럴네트워크를 최적 설계한다. 제안된 네트워크는 초고압 XLPE 케이블 절연접속함의 모의결함에 대해 부분방전 신호를 패턴인식한다. 부분방전 신호는 PRPDA 방법을 통해 200개의 입력 벡터와 4개의 출력 벡터를 가지며, 보이드 방전, 코로나 방전, 표면 방전, 노이즈의 4개 클래스를 분류한다.

  • PDF

Efficient Non-Profiled Deep Learning-based Side-Channel Analysis with Independent Dataset (독립된 데이터셋을 활용한 효율적인 딥러닝 기반 비프로파일링 부채널 분석 방안)

  • Kim, Ju-Hwan;Mun, Hye-Won;Kim, Yeon-Jae;Park, A-In;Ha, Dong-Guk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.169-172
    • /
    • 2020
  • 비프로파일링 부채널 분석은 프로파일링 장비가 없는 환경에서 부채널 정보를 이용해 비밀정보를 분석하는 방법이다. 기존에 알려진 Timon의 비프로파일링 분석은 학습 데이터 집합만을 이용해 공격하므로 전력 파형의 수가 제한된다면 과적합이 발생하여 키 분석 성능이 떨어질 수 있다. 본 논문에서는 비프로파일링 환경에서의 딥러닝 기반 부채널 분석 성능을 향상시키기 위해 학습 데이터 집합과 독립적인 검증 데이터 집합을 활용해야 하는 실증적 근거를 제시한다. 이에 대한 실험으로 기존 기법과 제시한 기법의 성능을 비교해 봤을 때, 검증 데이터를 활용하면 더 적은 데이터로 비밀키 추출이 가능함을 보인다.

Optimal Design of Interval Type-2 Fuzzy Set-based Multi-Output Fuzzy Neural Networks (다중 출력을 가지는 Interval Type-2 퍼지 집합 기반 퍼지 뉴럴 네트워크 최적 설계)

  • Park, Keon-Jun;Kim, Yong-Kab;Oh, Sung-Kwun;Kim, Hyun-Ki
    • Proceedings of the KIEE Conference
    • /
    • 2011.07a
    • /
    • pp.1968-1969
    • /
    • 2011
  • 본 논문에서는 패턴 인식을 위한 다중 출력을 가지는 Interval Type-2 퍼지 집합을 이용한 퍼지 집합 기반 퍼지 뉴럴 네트워크를 소개한다. Interval Type-2 퍼지 집합 기반 퍼지 뉴럴 네트워크는 각 입력 변수에 따른 서로 분리된 입력 공간을 분할함으로서 네트워크 및 규칙을 구성한다. 규칙의 전반부는 퍼지 입력 공간을 개별적으로 분할하여 표현하고, 각 공간은 Interval Type-2 퍼지 집합으로 구성된다. 규칙의 후반부는 패턴 인식을 위한 다중 출력을 가지며 Interval 집합을 이용하여 다항식으로서 표현된다. 다항식의 계수인 연결가중치는 오류역 전파 알고리즘을 이용하여 학습한다. 또한 실수 코딩 유전자 알고리즘을 이용하여 제안된 네트워크를 최적화한다. 제안된 네트워크는 표준 모델로서 널리 사용되는 수치적인 예를 통하여 평가한다.

  • PDF

A Feature Set Selection Approach Based on Pearson Correlation Coefficient for Real Time Attack Detection (실시간 공격 탐지를 위한 Pearson 상관계수 기반 특징 집합 선택 방법)

  • Kang, Seung-Ho;Jeong, In-Seon;Lim, Hyeong-Seok
    • Convergence Security Journal
    • /
    • v.18 no.5_1
    • /
    • pp.59-66
    • /
    • 2018
  • The performance of a network intrusion detection system using the machine learning method depends heavily on the composition and the size of the feature set. The detection accuracy, such as the detection rate or the false positive rate, of the system relies on the feature composition. And the time it takes to train and detect depends on the size of the feature set. Therefore, in order to enable the system to detect intrusions in real-time, the feature set to beused should have a small size as well as an appropriate composition. In this paper, we show that the size of the feature set can be further reduced without decreasing the detection rate through using Pearson correlation coefficient between features along with the multi-objective genetic algorithm which was used to shorten the size of the feature set in previous work. For the evaluation of the proposed method, the experiments to classify 10 kinds of attacks and benign traffic are performed against NSL_KDD data set.

  • PDF

Multi-reserved Words Supporting System for Object-Oriented Educational Programming Language "Dolittle" (객체지향형 교육용프로그래밍언어 두리틀의 다중 예약어 지원 체계)

  • Choe, Hae-Sim;Kwon, Dae-Yong;Kim, Hyung-Shin;Yeum, Yong-Cheul;Yoo, Seoung-Wook;Lee, Won-Gyu
    • The Journal of Korean Association of Computer Education
    • /
    • v.8 no.2
    • /
    • pp.23-32
    • /
    • 2005
  • Educational Programming Language (EPL) should be learner-friendly and easy to use. Dolittle, an object-oriented educational programming language (EPL), offers programming environment which can be programmed in Korean(Hangul). However, since some Dolittle commands are not appropriate to elementary and middle school students, it shows limitations for learners to express programming process. In this paper, we developed a set of 1:n multi-reserved words which are able to program with Korean linguistic characteristics as well as considering learners' differences, preferences, and applicable areas. The conclusion in the paper showed that programming with this 1:n multi-reserved words helped learners concentrate on problem solving regardless of the reserved words.

  • PDF

e-러닝 성공전략 - 디지털 시대의 기업교육 패러다임 `e-러닝`

  • 김영순
    • Korea Information Communication Reporters Association
    • /
    • s.6
    • /
    • pp.20-21
    • /
    • 2001
  • 집합식 교육의 대안으로서 최근 기업 환경에서 인식되고 있는 인재육성 방법이 바로 e-러닝이다. 이는 비즈니스와 정보기술 분야에서 나타나던 디지털 혁명의 영향력이 교육에서도 그 반향을 일으킨 것으로써, 교육의 틀 자체를 급속한 변화에 대처할 수 있도록 바꾸어 놓은 것이다. 과거처럼 획일적인 교육방법과 지식을 제공하는 대신에, e-러닝은 학습자가 다양한 학습환경 및 자원에 자유롭게 접근할 수 있게 함으로써 새로운 학습 경험을 할 수 있는 기회를 제공한다.

  • PDF