• 제목/요약/키워드: Bayesian networks

검색결과 229건 처리시간 0.023초

슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법 (A Sliding Window-based Multivariate Stream Data Classification)

  • 서성보;강재우;남광우;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.163-174
    • /
    • 2006
  • 분산 센서 네트워크에서 대용량 스트림 데이타를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이타를 전송하고 분석하는 것은 어렵고 바람직하지 않다. 그러므로 연속적으로 입력되는 데이타를 사전에 분류하여 특성에 따라 선택적으로 데이타를 처리하는 데이타 분류 기법이 요구된다. 이 논문에서는 다차원 센서에서 주기적으로 수집되는 스트림 데이타를 슬라이딩 윈도우 단위로 데이타를 분류하는 기법을 제안한다. 제안된 기법은 전처리 단계와 분류단계로 구성된다. 전처리 단계는 다변량 스트림 데이타를 포함한 각 슬라이딩 윈도우 입력에 대해 데이타의 변화 특성에 따라 문자 기호를 이용하여 다양한 이산적 문자열 데이타 집합으로 변환한다. 분류단계는 각 윈도우마다 생성된 이산적 문자열 데이타를 분류하기 위해 표준 문서 분류 알고리즘을 이용하였다. 실험을 위해 우리는 Supervised 학습(베이지안 분류기, SVM)과 Unsupervised 학습(Jaccard, TFIDF, Jaro, Jaro Winkler) 알고리즘을 비교하고 평가하였다. 실험결과 SVM과 TFIDF 기법이 우수한 결과를 보였으며, 특히 속성간의 상관 정도와 인접한 각 문자 기호를 연결한 n-gram방식을 함께 고려하였을 때 높은 정확도를 보였다.

Modelling of starch industry wastewater microfiltration parameters by neural network

  • Jokic, Aleksandar I.;Seres, Laslo L.;Milovic, Nemanja R.;Seres, Zita I.;Maravic, Nikola R.;Saranovic, Zana;Dokic, Ljubica P.
    • Membrane and Water Treatment
    • /
    • 제9권2호
    • /
    • pp.115-121
    • /
    • 2018
  • Artificial neural network (ANN) simulation is used to predict the dynamic change of permeate flux during wheat starch industry wastewater microfiltration with and without static turbulence promoter. The experimental program spans range of a sedimentation times from 2 to 4 h, for feed flow rates 50 to 150 L/h, at transmembrane pressures covering the range of $1{\times}10^5$ to $3{\times}10^5Pa$. ANN predictions of the wastewater microfiltration are compared with experimental results obtained using two different set of microfiltration experiments, with and without static turbulence promoter. The effects of the training algorithm, neural network architectures on the ANN performance are discussed. For the most of the cases considered, the ANN proved to be an adequate interpolation tool, where an excellent prediction was obtained using automated Bayesian regularization as training algorithm. The optimal ANN architecture was determined as 4-10-1 with hyperbolic tangent sigmoid transfer function transfer function for hidden and output layers. The error distributions of data revealed that experimental results are in very good agreement with computed ones with only 2% data points had absolute relative error greater than 20% for the microfiltration without static turbulence promoter whereas for the microfiltration with static turbulence promoter it was 1%. The contribution of filtration time variable to flux values provided by ANNs was determined in an important level at the range of 52-66% due to increased membrane fouling by the time. In the case of microfiltration with static turbulence promoter, relative importance of transmembrane pressure and feed flow rate increased for about 30%.

Support Vector Machine 기법을 이용한 고객의 구매의도 예측 (Forecasting of Customer's Purchasing Intention Using Support Vector Machine)

  • 김진화;남기찬;이상종
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.137-158
    • /
    • 2008
  • 기업 경쟁력 강화의 중요한 이슈인 대량 개별화(mass-customization)의 실행을 위하여 통합 고객관계 관리 프로세스로서의 CRM(customer relationship management)에 대한 관심과 활용에 대한 필요성은 점점 더 높아지고 있다. 특히, 기존 고객들의 구매 정보를 기반으로 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘날 실질적인 판매 전략을 수립하는 마케팅 분야에서 상당히 큰 비중을 차지하고 있다. 고객의 구매의도 예측에는 대량의 데이터로부터 과거에 인지하지 못했던 의미 있고, 근거 있는 정보를 추출하는 데이터마이닝(datamining)이 주로 사용되고 있다. 기존의 구매의도 예측에 사용된 데이터마이닝 기법들은 주로 신경망(neural networks)과 로지스틱 회귀분석(logistic regression analysis)이었는데, 예측 정확성 및 모형 구축의 어려움으로 인한 다양한 문제점들이 제기되고 있는 실정이다. 따라서, 본 논문에서는 기존의 기법들이 가지고 있는 단점들을 개선하기 위하여 신경망과 로지스틱 회귀분석 외에 연관규칙(association rule), 연관성 매트릭스(association matrix), 의사결정 나무(decision tree), 베이지안 망(bayesian network), SVM(support vector machine) 기법들을 추가로 제안하였다. 본 연구의 목적은 고객의 특정 상품에 대한 구매의도 예측을 위하여 새로운 알고리즘을 제시하기보다는 기존의 다양한 데이터마이닝 기법들을 적용시켜 봄으로써, 가장 우수한 예측성과를 나타내는 기법을 발견하는 것이다. 연구에 사용된 자료는 기존의 연구에서는 적용되지 않았던 편의점의 영수증 데이터이다. 예측 목표상품은 카테고리화 된 '우유'와 '냉동식품'이며, 제안된 기법들의 신뢰성을 위하여 전체 데이터를 10개의 training과 test 셋으로 중복되지 않게 구분함과 동시에 10번의 교차 검증(cross validation)을 실시하였다. 실험 결과 SVM이 영수증 데이터를 이용한 고객의 특정 상품에 대한 구매의도 예측에서 가장 우수한 성과를 나타내는 것을 확인하였다.

신경망 모형을 이용한 태풍시기의 남해안 기압예측 연구 (Study on the Sea Level Pressure Prediction of Typhoon Period in South Coast of the Korean Peninsula Using the Neural Networks)

  • 박종길;김병수;정우식;서장원;손용희;이대근;김은별
    • 대기
    • /
    • 제16권1호
    • /
    • pp.19-31
    • /
    • 2006
  • The purpose of this study is to develop the statistical model to predict sea level pressure of typhoon period in south coast of the Korean Peninsula. Seven typhoons, which struck south coast of the Korean Peninsula, are selected for this study, and the data for analysis include the central pressure and location of typhoon, and sea level pressure and location of 19 observing site. Models employed in this study are the first order regression, the second order regression and the neural network. The dependent variable of each model is a 3-hr interval sea level pressure at each station. The cause variables are the central pressure of typhoon, distance between typhoon center and observing site, and sea level pressure of 3 hrs before, whereas the indicative variable reveals whether it is before or after typhoon passing. The data are classified into two groups - one is the full data obtained during typhoon period and the other is the data that sea level pressure is less than 1000 hPa. The stepwise selection method is used in the regression model while the node number is selected in the neural network by the Schwarz's Bayesian Criterion. The performance of each model is compared in terms of the root-mean square error. It turns out that the neural network shows better performance than other models, and the case using the full data produces similar or better results than the case using the other data.

FISH 세포영상에서의 군집세포 분할 기법 (Segmentation Method of Overlapped nuclei in FISH Image)

  • 정미라;고병철;남재열
    • 정보처리학회논문지B
    • /
    • 제16B권2호
    • /
    • pp.131-140
    • /
    • 2009
  • 본 논문에서는 입력된 FISH 세포영상을 군집세포영역과 독립세포영역으로 분류하고, 군집세포영역에 대해서는 하나의 세포를 분리하는 알고리즘을 제안한다. 먼저 입력된 영상에 대해서 가우시안혼합모델과 세포의 명암도 값에 대한 최대 우도 함수를 사용하여 세포영역과 배경영역을 분할해줄 임계값을 정의하게 된다. 이렇게 얻어진 전경세포영역에 대해서 보다 정확한 세포 분석을 위해서 군집세포와 독립세포를 분류하게 된다. 세포 영역의 분류과정을 위해서는 베이지안 네트워크와 확률밀도함수를 사용한다. 학습데이터로부터 밀집도(compactness), 평활도(smoothness), 후-모멘트(Hu-moment)에 대한 형태학적 특징값을 추출하여 확률밀도함수를 구성하고, 이를 기반으로 베이지안 네트워크를 사용하여 두 영역을 분류하게 된다. 군집세포로 분류된 영역에 대해서는 그 군집세포를 구성하고 있는 독립세포로 각각 분리한다. 먼저, 명암도 기울기 변환(intensity gradient transform) 영상과 워터쉐드 알고리즘을 이용하여 군집세포 영역을 작은 영역으로 분할하게 된다. 작게 분할된 영역을 하나의 세포영역으로 병합시키기 위해서, 군집세포에 존재하는 독립세포의 수만큼의 마커를 결정 침식 연산을 사용하여 추출하고, 추출된 마커를 중심으로 단계적 병합 알고리즘을 제안한다. 본 논문에서 제안한 방법은 166개의 FISH 세포를 사용하여 테스트한 결과 99.29%의 정확한 분리결과를 보여줬으며 기존의 다른 알고리즘보다도 뛰어난 성능과 빠른 실행시간을 보여주었다.

순환 아키텍쳐 및 하이퍼파라미터 최적화를 이용한 데이터 기반 군사 동작 판별 알고리즘 (A Data-driven Classifier for Motion Detection of Soldiers on the Battlefield using Recurrent Architectures and Hyperparameter Optimization)

  • 김준호;채건주;박재민;박경원
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.107-119
    • /
    • 2023
  • 군인의 동작 및 운동 상태를 인식하는 기술은 웨어러블 테크놀로지와 인공지능의 결합으로 최근 대두되어 병력 관리의 패러다임을 바꿀 기술로 주목받고 있다. 이때 훈련 상황에서의 평가 및 솔루션 제공, 전투 상황에서의 효율적 모니터링 기능을 의도한대로 제공하기 위해서는 상태 판별의 정확도가 매우 높은 수준으로 유지되어야만 한다. 하지만 입력 데이터가 시계열 또는 시퀀스로 주어지는 경우, 기존의 피드포워드 신경망으로는 분류 성능을 극대화하는데 한계가 발생한다. 전장에서의 군사 동작 인식을 위해 다뤄지는 인간의 행동양식 데이터(3축 가속도 및 3축 각속도)는 시의존적 특성의 분석이 요구되기 때문에, 본 논문은 순환 신경망인 LSTM(Long-short Term Memory) 네트워크를 활용하여 취득 데이터의 이동 양상 및 순서 의존성을 파악하고 여덟 가지의 대표적 군사 동작(Sitting, Standing, Walking, Running, Ascending, Descending, Low Crawl, High Crawl)을 분류하는 고성능 인공지능 모델을 제안한다. 이때, 학습 조건 및 모델 변수는 그 정확도에 결정적인 영향을 끼치지만 인간의 수동적 조정이 필요해 비용 비효율적이고 최적의 값을 보장하지 못한다. 본 논문은 기계 스스로 일반화 성능이 극대화된 조건들을 취득할 수 있도록 베이지안 최적화를 활용해 하이퍼파라미터를 최적화한다. 그 결과, 최종 아키텍쳐는 학습 가능한 파라미터의 개수가 유사한 기존의 인공 신경망과 비교해서 오차율이 62.56% 감소할 수 있었으며, 최종적으로 98.39%의 정확도로 군사 동작 인식 기능을 구현할 수 있었다.

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 (A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis)

  • 감미아;송민
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.53-77
    • /
    • 2012
  • 본 연구는 경향신문, 한겨레, 동아일보 세 개의 신문기사가 가지고 있는 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시하고자 시행되었다. 본 연구는 텍스트 마이닝 기법을 활용하여 신문기사의 키워드 단순빈도 분석과 Clustering, Classification 결과를 분석하여 제시하였으며, 경제, 문화 국제, 사회, 정치 및 사설 분야에서의 신문사 간 차이점을 분석하고자 하였다. 신문기사의 문단을 분석단위로 하여 각 신문사의 특성을 파악하였고, 키워드 네트워크로 키워드들 간의 관계를 시각화하여 신문사별 특성을 객관적으로 볼 수 있도록 제시하였다. 신문기사의 수집은 신문기사 데이터베이스 시스템인 KINDS에서 2008년부터 2012년까지 해당 주제로 주제어 검색을 하여 총 3,026개의 수집을 하였다. 수집된 신문기사들은 불용어 제거와 형태소 분석을 위해 Java로 구현된 Lucene Korean 모듈을 이용하여 자연어 처리를 하였다. 신문기사의 내용 및 논조를 파악하기 위해 경향신문, 한겨레, 동아일보가 정해진 기간 내에 일어난 특정 사건에 대해 언급하는 단어의 빈도 상위 10위를 제시하여 분석하였고, 키워드들 간 코사인 유사도를 분석하여 네트워크 지도를 만들었으며 단어들의 네트워크를 통해 Clustering 결과를 분석하였다. 신문사들마다의 논조를 확인하기 위해 Supervised Learning 기법을 활용하여 각각의 논조에 대해 분류하였으며, 마지막으로는 분류 성능 평가를 위해 정확률과 재현률, F-value를 측정하여 제시하였다. 본 연구를 통해 문화 전반, 경제 전반, 정치분야의 통합진보당 이슈에 대한 신문기사들에 전반적인 내용과 논조에 차이를 보이고 있음을 알 수 있었고, 사회분야의 4대강 사업에 대한 긍정-부정 논조에 차이가 있음을 발견할 수 있었다. 본 연구는 지금까지 연구되어왔던 한글 신문기사의 코딩 및 담화분석 방법에서 벗어나, 텍스트 마이닝 기법을 활용하여 다량의 데이터를 분석하였음에 의미가 있다. 향후 지속적인 연구를 통해 분류 성능을 보다 높인다면, 사람들이 뉴스를 접할 때 그 뉴스의 특정 논조 성향에 대해 우선적으로 파악하여 객관성을 유지한 채 정보에 접근할 수 있도록 도와주는 신뢰성 있는 툴을 만들 수 있을 것이라 기대한다.

기상조건에 따른 도시고속도로 교통류변화 분석 (The Effect of Rain on Traffic Flows in Urban Freeway Basic Segments)

  • 최정순;손봉수;최재성
    • 대한교통학회지
    • /
    • 제17권1호
    • /
    • pp.29-39
    • /
    • 1999
  • 본 연구는 우리나라의 고속도로 기본구간에서 기상조건에 따른 도시고속도로 교통류의 특성을 분석한 것이다. 본 연구의 주요 결과를 요약하면 다음과 같다. 첫째, 비가 올 경우 속도-교통류율간의 관계는 길어깨쪽 차로를 제외하고 차로별로 큰 차이가 없이 유사한 패턴을 보이는 것으로 나타났다. 둘째 교통류율-점유율간의 관계식은 비가 올 경우 그 관계성은 더 분명해지지만, 서비스교통류율이 약 200대/시/차로 정도 감소하는 것으로 나타났다. 셋째, 비가 올 경우 도로의 관측된 서비스교통류율은 맑은 날에 비해 약 10-20% 정도 감소하는 것으로 나타났으며, 이러한 결과는 1998 HCM에서 제시한 결과 및 교통류율-점유율 관계식의 기울기 감소 패턴과 일치한다. 넷째, 비가 올 경우 전체 차로의 소통능력은 맑은 날에 비해 감소하고 전반적으로 중앙분리대쪽 차로의 소통 능력이 길어깨쪽 차로에 비해 높은 것으로 나타났으나, 기상변화에 따른 차로별 임계속도와 임계점유율은 큰 변화가 없는 것으로 나타났다. 본 연구는 도시고속도로 기본구간의 1개 지점에서 나타난 특성으로서 공간적 분포 특성을 고려하기 위해서는 향후 연구에서 다양한 조건을 갖는 도로지점에 대해 분석해야 할 것이다. 또한 비 뿐만 아니라 안개나 눈에 의 한 영향을 고려한 상세한 분석이 필요하다. 본 연구의 결과는 그간 일반적으로 알려졌던 내용과 큰 차이는 없지만 실제로 고속도로를 설계하거나 운영하는데 근거자료로 활용할 수 있는 자료를 제공하는 측면에서 의미가 있다고 판단되며, 도로용량편람을 개정 및 수정하는 과정에서 명확히 명시해야할 기초자료를 제공하고 있다.Bayesian pooling technique for estimating the dynamic link travel time of networks. The proposed algorithm has been validated using the field experiment data out of GPS probes and detectors over the roadways and the estimated link travel time from the algorithm is proved to be more useful than the mere arithmetic mean from each traffic source. the whole sentence(preceeding sentence and the accompanying sentence). The conjunctive endings are '-고₂, -으며₂, -다가₂, -어서, -고서, 을수록, -은데₂, -으면₂, -어야₂, -어도₂, -으니까₂, -거든₁,'etc. Type C can be interpreted as the neutralized tense of the preceeding sentence and the absolute tense of the accompanying sentence. The conjunctive endings are '-으러, -으려고, -고자, -도록, -게,'etc. Type D can be described as the relative tense of the part of the preceeding sentence and the

  • PDF

다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론 (Label Embedding for Improving Classification Accuracy UsingAutoEncoderwithSkip-Connections)

  • 김무성;김남규
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.175-197
    • /
    • 2021
  • 최근 딥 러닝 기술의 발전으로 뉴스, 블로그 등 다양한 문서에 포함된 텍스트 분석에 딥 러닝 기술을 활용하는 연구가 활발하게 수행되고 있다. 다양한 텍스트 분석 응용 가운데, 텍스트 분류는 학계와 업계에서 가장 많이 활용되는 대표적인 기술이다. 텍스트 분류의 활용 예로는 정답 레이블이 하나만 존재하는 이진 클래스 분류와 다중 클래스 분류, 그리고 정답 레이블이 여러 개 존재하는 다중 레이블 분류 등이 있다. 특히, 다중 레이블 분류는 여러 개의 정답 레이블이 존재한다는 특성 때문에 일반적인 분류와는 상이한 학습 방법이 요구된다. 또한, 다중 레이블 분류 문제는 레이블과 클래스의 개수가 증가할수록 예측의 난이도가 상승한다는 측면에서 데이터 과학 분야의 난제로 여겨지고 있다. 따라서 이를 해결하기 위해 다수의 레이블을 압축한 후 압축된 레이블을 예측하고, 예측된 압축 레이블을 원래 레이블로 복원하는 레이블 임베딩이 많이 활용되고 있다. 대표적으로 딥 러닝 모델인 오토인코더 기반 레이블 임베딩이 이러한 목적으로 사용되고 있지만, 이러한 기법은 클래스의 수가 무수히 많은 고차원 레이블 공간을 저차원 잠재 레이블 공간으로 압축할 때 많은 정보 손실을 야기한다는 한계가 있다. 이에 본 연구에서는 오토인코더의 인코더와 디코더 각각에 스킵 연결을 추가하여, 고차원 레이블 공간의 압축 과정에서 정보 손실을 최소화할 수 있는 레이블 임베딩 방법을 제안한다. 또한 학술연구정보서비스인 'RISS'에서 수집한 학술논문 4,675건에 대해 각 논문의 초록으로부터 해당 논문의 다중 키워드를 예측하는 실험을 수행한 결과, 제안 방법론이 기존의 일반 오토인코더 기반 레이블 임베딩 기법에 비해 정확도, 정밀도, 재현율, 그리고 F1 점수 등 모든 측면에서 우수한 성능을 나타냄을 확인하였다.