• Title/Summary/Keyword: 학습 집합

Search Result 554, Processing Time 0.034 seconds

Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences (음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기)

  • Lee, Hyun-Young;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF

Improving Classification Accuracy for Numerical and Nominal Data using Virtual Examples (가상예제를 이용한 수치 및 범주 속성 데이터의 분류 성능 향상)

  • Lee, Yu-Jung;Kang, Jae-Ho;Kang, Byoung-Ho;Ryu, Kwang-Ryel
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.183-188
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주속성 및 수치속성 데이터에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이터를 대상으로 한 반면 본 연구에서는 범주속성 데이터에 대해서도 가상예제를 적용하여 효과를 확인하였다. 그리고 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 한 기존 연구들과는 달리 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이터와 수치 속성을 포함한 데이터를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

  • PDF

Effective Feature Selection for Patent Classification (특허 분류를 위한 효과적인 자질 선택)

  • Jung Ha-Yong;Huang Jin-Xia;Shin Sa-Im;Choi Key-Sun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.670-672
    • /
    • 2005
  • 자질 선택은 문서 분류와 같이 않은 자질을 사용하는 지도식 기계학습에 관한 연구에서 날로 중요성이 커지고 있다. 특히 특허문서 분류와 같은 작업은 기존의 문서 분류보다도 훨씬 많은 자질과 분류 범주를 가지기 때문에 전체 문서의 특징을 드러내는 적절한 부분집합을 선택해 학습하는 것이 절실하다. 전통적인 자질선택 방법은 필터라는 방법으로서 빠르지만 임계값을 정하기가 어렵다는 문제가 있다. 한편 최근에 많이 연구되는 래퍼는 일반적으로 필터보다. 좋은 성능을 보이지만 자질의 개수가 많을수록 시간이 오래 걸린다는 단점이 있다. 본 연구에서는 필터와 래퍼를 상호 보완적으로 결합하여 최적의 필터를 자동적으로 찾는 래퍼를 제안한다. 실험 결과, 제안한 방법이 효과적으로 자질 집합을 선택하는 것을 확인할 수 있었다.

  • PDF

Analysis of Weight Factor and Hyperbox Overlapping Effects in FMM Neural Networks (FMM 신경망에서 가중치 요소와 하이퍼박스 중첩효과 분석)

  • Park, Hyun-Jung;Kim, Ho-Joon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.691-693
    • /
    • 2005
  • 본 연구에서는 FMM 신경망의 학습 알고리즘에서 하이퍼박스 확장과정에 수반되는 중첩현상을 분석하고, 이에 대한 축소 과정의 특성과 이를 보완하기 위한 새로운 활성화 함수에 관하여 고찰한다. 하이퍼박스 중첩 영역에 속하는 패턴 데이터는 그 분류 결과가 왜곡될 수 있다. 왜냐하면 학습과정에서 하이퍼박스상의 특징범위는 특징값의 빈도요소를 고려하지 않음으로 인하여 극소수의 비정상적 데이터에 관해서도 동일 수준으로 민감하게 확장되기 때문이다. 본 논문에서는 특징집합에서 가중치와 빈도요소를 반영하는 모델로서 이러한 중첩현상의 영향을 개선하는 방법론을 소개한다. 제안된 이론은 단순화된 패턴집합에 대하여 그 유용성을 이론적으로 고찰하며, 실제 패턴분류 문제에 적용하여 실험적으로 평가한다.

  • PDF

Parameter Tuning in Support Vector Regression for Large Scale Problems (대용량 자료에 대한 서포트 벡터 회귀에서 모수조절)

  • Ryu, Jee-Youl;Kwak, Minjung;Yoon, Min
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.25 no.1
    • /
    • pp.15-21
    • /
    • 2015
  • In support vector machine, the values of parameters included in kernels affect strongly generalization ability. It is often difficult to determine appropriate values of those parameters in advance. It has been observed through our studies that the burden for deciding the values of those parameters in support vector regression can be reduced by utilizing ensemble learning. However, the straightforward application of the method to large scale problems is too time consuming. In this paper, we propose a method in which the original data set is decomposed into a certain number of sub data set in order to reduce the burden for parameter tuning in support vector regression with large scale data sets and imbalanced data set, particularly.

An Improvement of Accuracy for NaiveBayes by Using Large Word Sets (빈발단어집합을 이용한 NaiveBayes의 정확도 개선)

  • Lee Jae-Moon
    • Journal of Internet Computing and Services
    • /
    • v.7 no.3
    • /
    • pp.169-178
    • /
    • 2006
  • In this paper, we define the large word sets which are noble variations the large item sets in mining association rules, and improve the accuracy for NaiveBayes based on the defined large word sets. In order to use them, a document is divided into the several paragraphs, and then each paragraph can be transformed as the transaction by extracting words in it. The proposed method was implemented by using Al:Categorizer framework and its accuracies were measured by the experiments for reuter-21578 data set. The results of the experiments show that the proposed method improves the accuracy of the conventional NaiveBayes.

  • PDF

Image-based Artificial Intelligence Deep Learning to Protect the Big Data from Malware (악성코드로부터 빅데이터를 보호하기 위한 이미지 기반의 인공지능 딥러닝 기법)

  • Kim, Hae Jung;Yoon, Eun Jun
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.54 no.2
    • /
    • pp.76-82
    • /
    • 2017
  • Malware, including ransomware to quickly detect, in this study, to provide an analysis method of malicious code through the image analysis that has been learned in the deep learning of artificial intelligence. First, to analyze the 2,400 malware data, and learning in artificial neural network Convolutional neural network and to image data. Extracts subgraphs to convert the graph of abstracted image, summarizes the set represent malware. The experimentally analyzed the malware is not how similar. Using deep learning of artificial intelligence by classifying malware and It shows the possibility of accurate malware detection.

A MapReduce-Based Distributed Data Mining Approach to Next Place Prediction for Mobile Users (이동 사용자의 다음 장소 예측을 위한 맵리듀스 기반의 분산 데이터 마이닝)

  • Kim, Jong-Hwan;Lee, Seok-Jun;Kim, In-Cheol
    • Annual Conference of KIPS
    • /
    • 2014.04a
    • /
    • pp.777-780
    • /
    • 2014
  • 본 논문에서는 휴대용 기기 사용자들의 이동 궤적을 기록한 대용량의 GPS 위치 데이터 집합으로부터 각 사용자의 이동 패턴 모델을 학습해내고, 이 모델을 적용하여 각 사용자의 다음 방문 장소를 효율적으로 예측할 수 있는 맵리듀스 기반의 분산 데이터 마이닝 시스템을 소개한다. 본 시스템은 크게 사용자별 이동 패턴 모델을 학습하는 후단부와 실시간으로 다음 방문 장소를 예측하는 전단부로 구성된다. 이 중에서 후단부는 주요 장소 추출, 이동 궤적 변환, 이동 패턴 모델 학습 등 총 3개의 맵리듀스 작업 모듈들로 구성된다. 이에 반해, 본 시스템의 전단부는 이동 경로 후보군 생성, 다음 장소 예측 등 총 2개의 맵리듀스 작업 모듈들로 구성된다. 그리고 본 시스템을 구성하는 각각의 작어마다 분산처리를 극대화할 수 있도록 맵과 리듀스 함수를 설계하였다. 끝으로, 대용량의 GeoLife 벤치마크 데이터 집합을 이용하여 본 논문에서 소개한 시스템의 예측 성능을 분석하기 위한 실험을 수행하였고, 이를 통해 본 시스템의 높은 성능을 확인할 수 있었다.

Machine Learning Based State of Health Prediction Algorithm for Batteries Using Entropy Index (엔트로피 지수를 이용한 기계학습 기반의 배터리의 건강 상태 예측 알고리즘)

  • Sangjin, Kim;Hyun-Keun, Lim;Byunghoon, Chang;Sung-Min, Woo
    • Journal of IKEEE
    • /
    • v.26 no.4
    • /
    • pp.531-536
    • /
    • 2022
  • In order to efficeintly manage a battery, it is important to accurately estimate and manage the SOH(State of Health) and RUL(Remaining Useful Life) of the batteries. Even if the batteries are of the same type, the characteristics such as facility capacity and voltage are different, and when the battery for the training model and the battery for prediction through the model are different, there is a limit to measuring the accuracy. In this paper, We proposed the entropy index using voltage distribution and discharge time is generalized, and four batteries are defined as a training set and a test set alternately one by one to predict the health status of batteries through linear regression analysis of machine learning. The proposed method showed a high accuracy of more than 95% using the MAPE(Mean Absolute Percentage Error).

Developing the Deep Text-to-Ontology Generator based on Neuro-Symbolic Architecture (뉴로-심볼릭 구조 기반 온톨로지 생성기 제안)

  • Hyeoung-Cheol Park;Eun-Su Yun;Min-Jeong Kim;Hui-Jae Bae;Yu-Jin Shin;Jee-Hang Lee
    • Annual Conference of KIPS
    • /
    • 2023.11a
    • /
    • pp.672-674
    • /
    • 2023
  • 본 논문은 뉴로-심볼릭 구조를 바탕으로 일반 텍스트로부터 온톨로지 생성이 가능한 심층 신경망 기반 온톨로지 추출기를 제안한다. 온톨로지 추출 단계를 (i) 온톨로지 학습 및 (ii) 온톨로지 생성의 2 단계로 상정, (i) 일반 텍스트로부터 문장 구조 및 논리적 관계를 학습하는 트랜스포머 기반 심층 생성 신경망 출력을 이용하여 (ii) 계층적으로 결합한 심볼릭 추론기로 온톨로지를 생성하는 뉴로-심볼릭 구조 온톨로지 추출기를 구현하였다. 1800 개 훈련 집합으로 학습 후 200 개 테스트 집합으로 평가한 결과, 정확도 91.9%, Precision 100%, Recall 99.1%로 비교 모델 OpenIE 의 성능에 비해서 각각 83.8%, 1.8%, 3.5% 개선된 것을 확인하였다. 정성적 품질에 있어서, 복잡한 문장 (예: 관계대명사, 접속사, 중첩 구조)에서도 비교 모델에 비해 더 정밀한 온톨로지 생성 결과를 보였다.