• 제목/요약/키워드: Pattern Categorization

검색결과 54건 처리시간 0.021초

Modified Version of SVM for Text Categorization

  • Jo, Tae-Ho
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권1호
    • /
    • pp.52-60
    • /
    • 2008
  • This research proposes a new strategy where documents are encoded into string vectors for text categorization and modified versions of SVM to be adaptable to string vectors. Traditionally, when the traditional version of SVM is used for pattern classification, raw data should be encoded into numerical vectors. This encoding may be difficult, depending on a given application area of pattern classification. For example, in text categorization, encoding full texts given as raw data into numerical vectors leads to two main problems: huge dimensionality and sparse distribution. In this research, we encode full texts into string vectors, and apply the modified version of SVM adaptable to string vectors for text categorization.

Inverted Index based Modified Version of KNN for Text Categorization

  • Jo, Tae-Ho
    • Journal of Information Processing Systems
    • /
    • 제4권1호
    • /
    • pp.17-26
    • /
    • 2008
  • This research proposes a new strategy where documents are encoded into string vectors and modified version of KNN to be adaptable to string vectors for text categorization. Traditionally, when KNN are used for pattern classification, raw data should be encoded into numerical vectors. This encoding may be difficult, depending on a given application area of pattern classification. For example, in text categorization, encoding full texts given as raw data into numerical vectors leads to two main problems: huge dimensionality and sparse distribution. In this research, we encode full texts into string vectors, and modify the supervised learning algorithms adaptable to string vectors for text categorization.

구문 패턴과 키워드 집합을 이용한 통계적 자동 문서 분류의 성능 향상 (Improving the Performance of Statistical Automatic Text Categorization by using Phrasal Patterns and Keyword Sets)

  • 한정기;박민규;조광제;김준태
    • 한국정보처리학회논문지
    • /
    • 제7권4호
    • /
    • pp.1150-1159
    • /
    • 2000
  • This paper presents an automatic text categorization model that improves the accuracy by combining statistical and knowledge-based categorization methods. In our model we apply knowledge-based method first, and then apply statistical method on the text which are not categorized by knowledge-based method. By using this combined method, we can improve the accuracy of categorization while categorize all the texts without failure. For statistical categorization, the vector model with Inverted Category Frequency (ICF) weighting is used. For knowledge-based categorization, Phrasal Patterns and Keyword Sets are introduced to represent sentence patterns, and then pattern matching is performed. Experimental results on new articles show that the accuracy of categorization can be improved by combining the tow different categorization methods.

  • PDF

범주화 훈련과 전문성이 인지 문제 해결에 미치는 영향 (Effects of categorization training and expertise on cognitive problem solving)

  • 이희승;손영우
    • 인지과학
    • /
    • 제16권1호
    • /
    • pp.53-67
    • /
    • 2005
  • 본 연구는 전문성에 따른 범주화 양상의 차이를 확인하고, 범주화 훈련이 전문성에 따라 인지 문제 해결에 어떠한 영향을 주는지 살펴보았다. 실험 떼서는 수학 연립방정식 문제를 사용하여 전문성 수준에 따른 집단별 문제 범주화 양상의 차이를 확인하였다. 전문가는 주로 문제 해결방법과 관련된 문제의 구조적 특징을 범주화의 기준으로 사용하였지만, 초보자는 문제의 표면적 정보를 기준으로 하여 범주화하였다. 그러나 문제의 구조를 명시적으로 표현한 조건 범주화 상황에서 초보자의 범주화 양상이 전문가와 같은 형태로 변화하는 것을 확인할 수 있었다. 초보자와 전문가의 범주화 양상이 다른 것은 초보자들이 문제의 깊은 구조를 파악하는데 어려움이 있기 때문인 것으로 보인다. 실험 2에서는 문제의 구조가 명시적으로 표현된 조건 범주화 훈련이 문제해결 능력의 향상을 가져올 수 있는지 알아보기 위하여 문제 해결 훈련을 한 집단과의 비교를 통해 전이 검사수행을 살펴보았다. 실험 결과, 전문가 집단은 문제해결 훈련이 효과적이었던데 반해, 초보자 집단은 문제 분류훈련이 더 효과적인 것으로 나타났다. 이는 초보자의 경우 문제의 깊은 구조를 파악하기 어렵기 때문에 이를 명시적으로 보여주어 훈련시킴으로써 문제 해결에 도움을 주기 때문인 것으로 보인다. 따라서 전문성의 수준에 따라 서로 다른 형태의 교육방법이 사용되어야 할 것이다.

  • PDF

강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법 (A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews)

  • 신준수;김학수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권12호
    • /
    • pp.946-950
    • /
    • 2010
  • 기계 학습 기반의 많은 감정 분류 시스템들은 문장으로부터 언어적 자질을 추출하기 위하여 형태소 분석기를 사용한다. 그러나 온라인 상품평에는 많은 띄어쓰기 오류 및 철자 오류가 포함되어 있어서 일반적으로 형태소 분석기가 좋은 성능을 내기 어려우며, 기반 시스템의 낮은 성능은 감정 분류 시스템의 성능하락을 초래한다. 이러한 문제를 해결하기 위하여 본 논문에서는 어절 패턴과 음운 패턴의 최장 일치 매칭(matching)에 기반한 자질 추출 방법을 제안한다. 두 종류의 패턴은 대용량의 품사 부착 말뭉치로부터 자동으로 구축된다. 어절 패턴은 영사, 동사와 같은 내용어를 포함하는 어절들로 구성되며, 음운 패턴은 동사나 형용사와 같은 용언의 초성과 중성의 쌍으로 구성된다. 음운 패턴에 초성과 중성만을 사용한 이유는 철자 오류에 영향을 덜 받기 때문이다. 제안 방법을 평가하기 위하여 SVM(Support Vector Machine)을 기계 학습기로 사용하는 감정 분류 시스템을 구현하였다. 한국어 상품평에 대한 실험에서 제안 방법을 자질 추출 모듈로 사용하는 감정 분류 시스템이 형태소 분석기를 사용하는 것보다 우수한 성능을 보였다.

RAM 기반 신경망을 이용한 필기체 숫자 분류 연구 (A Study on Handwritten Digit Categorization of RAM-based Neural Network)

  • 박상무;강만모;엄성훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.201-207
    • /
    • 2012
  • RAM 기반 신경망은 2진 신경망(Binary Neural Network, BNN)에 복수개의 정보 저장 비트를 두어 교육의 반복 횟수를 누적하도록 구성된 가중치를 가지지 않는(weightless) 신경회로망으로서 한 번의 교육만으로 학습이 이루어지는 효율성이 뛰어난 신경회로망이다. 지도 학습에 기반을 둔 RAM 기반 신경망은 패턴 인식 분야에는 우수한 성능을 보이는 반면, 비지도 학습에 의해 패턴을 구분해야 하는 범주화 연구에는 적합하지 않은 모델로 분류된다. 본 논문에서는 비지도 학습 알고리즘을 제안하여 RAM 기반 신경망으로 패턴 범주화를 수행한다. 제안된 비지도 학습 알고리즘에 의해 RAM 기반 신경망은 입력 패턴에 따라 자율 학습하여 스스로 범주를 생성할 수 있으며, 이를 통해 RAM 기반 신경망이 지도 학습과 비지도 학습이 모두 가능한 복합 모델임을 증명한다. 실험에 사용한 학습 패턴으로는 0에서 9까지의 오프라인 필기체 숫자로 구성된 MNIST 데이터베이스를 사용하였다.

소프트웨어 패턴의 개념적 체계화를 위한 SPO 설계 (A Design of SPO for the Conceptual Systematization of Software Patterns)

  • 홍현술;한성국
    • 대한전자공학회논문지TE
    • /
    • 제39권3호
    • /
    • pp.71-82
    • /
    • 2002
  • 소프트웨어 패턴은 전문가의 검증된 해법과 경험을 토대로 한 문제 해결의 지식표현이다. 그러나, 소프트웨어 개발 문제의 다양성으로 인하여, 현재 발표되어져 있는 수많은 소프트웨어 패턴들 중에서 최적의 패턴을 선택하여 활용하는 것이 용이하지 않다. 이러한 상황은 소프트웨어 패턴의 개념 범주화를 요구하고 있다. 본 논문은 소프트웨어 패턴과 온토로지의 개념 구조를 비교 분석하여, 소프트웨어 패턴이 표출하는 개념 특성을 체계적으로 조직화할 수 있는 소프트웨어 패턴 온토로지(SPO)를 제시하였다. 본 논문에서 제시한 SPO로 소프트웨어 패턴을 개념 수준에서 관리할 수는 기반을 구축할 수 있다. 또한, 본 논문에서는 소프트웨어 패턴과 온토로지 개념을 결합하여 응용할 수 있는 방법을 예시하였다.

GPU를 이용한 DNA 컴퓨팅 기반 패턴 분류기의 효율적 구현 (Efficient Implementing of DNA Computing-inspired Pattern Classifier Using GPU)

  • 최선욱;이종호
    • 전기학회논문지
    • /
    • 제58권7호
    • /
    • pp.1424-1434
    • /
    • 2009
  • DNA computing-inspired pattern classification based on the hypernetwork model is a novel approach to pattern classification problems. The hypernetwork model has been shown to be a powerful tool for multi-class data analysis. However, the ordinary hypernetwork model has limitations, such as operating sequentially only. In this paper, we propose a efficient implementing method of DNA computing-inspired pattern classifier using GPU. We show simulation results of multi-class pattern classification from hand-written digit data, DNA microarray data and 8 category scene data for performance evaluation. and we also compare of operation time of the proposed DNA computing-inspired pattern classifier on each operating environments such as CPU and GPU. Experiment results show competitive diagnosis results over other conventional machine learning algorithms. We could confirm the proposed DNA computing-inspired pattern classifier, designed on GPU using CUDA platform, which is suitable for multi-class data classification. And its operating speed is fast enough to comply point-of-care diagnostic purpose and real-time scene categorization and hand-written digit data classification.

LSTM 인공신경망을 이용한 자동차 A/S센터 수리 부품 수요 예측 모델 연구 (A Study on the Demand Prediction Model for Repair Parts of Automotive After-sales Service Center Using LSTM Artificial Neural Network)

  • 정동균;박영식
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권3호
    • /
    • pp.197-220
    • /
    • 2022
  • Purpose The purpose of this study is to identifies the demand pattern categorization of repair parts of Automotive After-sales Service(A/S) and proposes a demand prediction model for Auto repair parts using Long Short-Term Memory (LSTM) of artificial neural networks (ANN). The optimal parts inventory quantity prediction model is implemented by applying daily, weekly, and monthly the parts demand data to the LSTM model for the Lumpy demand which is irregularly in a specific period among repair parts of the Automotive A/S service. Design/methodology/approach This study classified the four demand pattern categorization with 2 years demand time-series data of repair parts according to the Average demand interval(ADI) and coefficient of variation (CV2) of demand size. Of the 16,295 parts in the A/S service shop studied, 96.5% had a Lumpy demand pattern that large quantities occurred at a specific period. lumpy demand pattern's repair parts in the last three years is predicted by applying them to the LSTM for daily, weekly, and monthly time-series data. as the model prediction performance evaluation index, MAPE, RMSE, and RMSLE that can measure the error between the predicted value and the actual value were used. Findings As a result of this study, Daily time-series data were excellently predicted as indicators with the lowest MAPE, RMSE, and RMSLE values, followed by Weekly and Monthly time-series data. This is due to the decrease in training data for Weekly and Monthly. even if the demand period is extended to get the training data, the prediction performance is still low due to the discontinuation of current vehicle models and the use of alternative parts that they are contributed to no more demand. Therefore, sufficient training data is important, but the selection of the prediction demand period is also a critical factor.

복합 특징의 분리 처리를 위한 모듈화된 Coupled-ART 신경회로망 (A Coupled-ART Neural Network Capable of Modularized Categorization of Patterns)

  • 우용태;이남일;안광선
    • 한국통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.2028-2042
    • /
    • 1994
  • ART(Adaptive Resonance Theory) 신경회로망과 같은 자기조직망에서 신호와 잡음을 적절히 정의한다는 것은 어려운 문제이다. 즉, 한 입력 패턴의 일부분이 어떤 패턴에서는 입력 패턴의 신호로 다루어지나 다른 패턴에서는 잡음으로 취급되어야 할 대도 있다. ART 신경회로망 모델은 신호와 잡음의 정의를 문맥과 학습에 따라 적절하게 규정하기 위하여 계산 단위를 자동적으로 자기척도(Self-Scaling 할 수 있는 기능을 가지고 있다. ART 모델에서의 이러한 자기 척도 기능은 입력 패턴들이 유사한 성질을 가진 경우에는 유효하게 잘 동작한다. 그러나 ART 모델은 기본적으로 하나의 경계 인수에 의해 패턴을 분류하기 때문에 여러가지 성질이 복합된 입력 패턴을 효율적으로 분류하기가 어렵다. 예를 들어 패턴들을 자세하게 분류하기 위하여 경계 인수의 값을 크게 하면 잡음으로 취급되어야 할 부분이 신호로 취급되어 불필요한 인식 부류가 발생한다. 또한 경계 인수를 작게 하면 패턴을 구별하기 위한 중요한 정보가 잡음으로 취급되는 경우가 발생하여 비효율적인 분류를 한다. 본 논문에서는 ART 모델의 이러한 문제점을 해결하기 위하여 복합 특징을 분리 처리할 수 잇는 모듈화된 Coupled-ART 신경회로망 모델을 제안하였다. Coupled-ART 신경회로망 모델은 신경회로망의 구조를 기능별로 모듈화하고 이러한 모듈들을 서로 밀착된 구조로 결합하여 확장된 기능을 수행하는 형태로 구성하였다. 이러한 모듈화된 신경회로망을 통해 패턴 인식 과정에서 다양한 크기나 성질을 가진 특징들에 대한 분류를 비슷한 크기나 성질을 가진 특징들끼리 분리하여 분류를 하였다. 그리고 본 논문에서 제안한 상위층에서 각 모듈의 처리 결과를 종합하여 최종적인 분류를 함으로써 기존의 ART 모델보다 더 효율적으로 패턴을 분류할 수 있다.28.8%$)에서 높고 60 및 40%수분구(水分區)($23.6{\sim}24.1%$)에서 낮은 편이었다. 그러나 옥수수의 조섬유함량(粗纖維含量)에 따라 큰 차이(差異)가 없었다. 건엽(乾葉)의 조단백질함량(粗蛋白質含量)에 따라 큰 차이(差異)가 없었다. 건엽(乾葉)의 조단백질함량(粗蛋白質含量)은 60%수분구(水分區)($14.2{\sim}21.6%$) 및 40%수분구(水分區)($13.8{\sim}16.0%$)가 다른 고토양수분구(高土壤水分區)($7.3{\sim}13.9%$)보다 높은 편이었다. 5. 건경중(乾莖中)의 조섬유함량(粗纖維含量)은 $24.6{\sim}36.7%$로서 건엽중(乾葉中)의 함량(含量)보다 월등히 높았고 조단백질함량(粗蛋白質含量)은 $2.0{\sim}5.3%$로서 건엽중(乾葉中)의 함량(含量)보다 현저히 낮았다. 특(特)히 P.931의 건경중(乾莖中)의 조섬유함량(粗纖維含量)은 다른 작물(作物)에 비해 현저(顯著)히 높은 편이었다.적차이(量的差異)를 나타냈다.間)에는 부(負)(-)의 상관(相關)이 있다.($P{\leq}0.01%$). 5. NEL 및 starch value 환경온도(環境溫度)가 상승(上昇)됨에 따라 감소(減少)된다. 4 엽기(葉期) sorghum식물(植物)의 환경온도(環境溫度)를 달리 하였을 때 NEL가치(價値)는 각각(各各) 4.87MJ($30/25^{\circ}C$), 5.46MJ($25/20^{\circ}C$) 및 5.81MJ/kg($18/8^{\circ}C$)로 변(變)하여 고온(高溫)에서 net energy lactation 축적(蓄積)이 크게 감소(減少)되었다.다.

  • PDF