• 제목/요약/키워드: bayesian decision

검색결과 204건 처리시간 0.022초

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

Exploring the Feature Selection Method for Effective Opinion Mining: Emphasis on Particle Swarm Optimization Algorithms

  • Eo, Kyun Sun;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.41-50
    • /
    • 2020
  • 감성분석 연구에서는 문장에 내포된 감성을 결정짓는 단어를 찾는 것으로부터 시작된다. 경영자는 소비자가 주로 사용하는 단어를 분석함으로써 시장의 반응을 이해할 수 있다. 본 연구에서는 감성분류의 성능에 영향을 미치는 단어를 찾기 위하여 입자군집최적화 탐색방법과 다목적진화 알고리즘이 적용된 속성선택 방법을 제안한다. 속성선택 방법은 기존 머신러닝 분류기를 벤치마킹함으로써 성능이 비교된다. 벤치마킹된 분류기는 의사결정나무, 나이브 베이지안 네트워크, 서포터 벡터 머신, 랜덤포레스트, 배깅, 랜덤 서브스페이스, 로테이션 포레스트이다. 연구결과에 따르면, 입자군집 최적화 알고리즘이 적용된 속성선택방법으로 선택된 속성을 사용한 경우에 속성의 수를 상당히 줄일 수 있었고, 분류기의 성능을 유지시킬 수 있었다. 특히, 정확도 결과에서는 입자군집 최적화 탐색방법으로 선택된 속성을 사용한 경우의 서포터 벡터 머신의 성능이 가장 높게 나타났다. AUC 결과에서는 랜덤 서브스페이스가 가장 높게 나타났다. 본 연구의 결과는 해당 탐색방법과 분류기를 적용함으로써 오피니언 마이닝 모델의 성능을 효율적으로 유지 및 개선시키도록 도움을 준다.

데이터마이닝 모형을 활용한 호흡기질환의 주요인 선별 (Identification of major risk factors association with respiratory diseases by data mining)

  • 이제영;김현지
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.373-384
    • /
    • 2014
  • 데이터 마이닝이란 대량의 데이터나 복잡한 구조의 데이터들을 정교한 통계분석과 모델링 테크닉을 이용하여 정확히 식별되지 않는 패턴이나 자료간의 상관관계를 밝혀내어 여러 가지 결과를 예측해 내는 통계적 기법이다. 이러한 데이터 마이닝 기법은 금융, 통신, 유통, 의학 등 다양한 분야에 활용되는데, 본 연구에서는 의학 분야에 적용하여 호흡기질환에 영향을 끼치는 요인을 선별하였다. 분석은 2012년도 경상북도 지역사회건강조사에 참여한 사람 중 의사에게서 폐결핵, 천식, 알레르기성 비염을 진단받은 경험이 있는 호흡기질환군과 건강군으로 정리한 자료를 대상으로 하였다. 호흡기질환이 영향을 끼치는 주요인을 선별하기 위해 인공신경망, 로지스틱 회귀모형, 베이지안 네트워크, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터와 검증용 데이터로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용하여 정확도를 비교하였다. 그 결과 CART가 최적 모형으로 선정되었으며 CART의 의사결정나무를 통하여 우울감 인지 여부, 현재 흡연여부, 스트레스 인지 여부 순으로 호흡기질환에 영향을 주는 것으로 나타났다. 그리고 호흡기질환의 주요인들에 대한 오즈비를 구하여 개별적인 영향력에 대해서도 밝혔다.

Fast Depth Video Coding with Intra Prediction on VVC

  • Wei, Hongan;Zhou, Binqian;Fang, Ying;Xu, Yiwen;Zhao, Tiesong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권7호
    • /
    • pp.3018-3038
    • /
    • 2020
  • In the stereoscopic or multiview display, the depth video illustrates visual distances between objects and camera. To promote the computational efficiency of depth video encoder, we exploit the intra prediction of depth videos under Versatile Video Coding (VVC) and observe a diverse distribution of intra prediction modes with different coding unit sizes. We propose a hybrid scheme to further boost fast depth video coding. In the first stage, we adaptively predict the HADamard (HAD) costs of intra prediction modes and initialize a candidate list according to the HAD costs. Then, the candidate list is further improved by considering the probability distribution of candidate modes with different CU sizes. Finally, early termination of CU splitting is performed at each CU depth level based on the Bayesian theorem. Our proposed method is incorporated into VVC intra prediction for fast coding of depth videos. Experiments with 7 standard sequences and 4 Quantization parameters (Qps) validate the efficiency of our method.

데이터 마이닝 기법을 이용한 소규모 악성코드 탐지에 관한 연구 (A Study on Detection of Small Size Malicious Code using Data Mining Method)

  • 이택현;국광호
    • 융합보안논문지
    • /
    • 제19권1호
    • /
    • pp.11-17
    • /
    • 2019
  • 최근 인터넷 기술을 악용하는 행위로 인하여 경제적, 정신적 피해가 증가하고 있다. 특히, 신규로 제작되거나 변형된 악성코드는 기존의 정보보호 체계를 우회하여 사이버 보안 위협의 기본 수단으로 활용되고 있다. 이를 억제하기 위한 다양한 연구가 진행되었지만, 실제 악성코드의 많은 비중을 차지하는 소규모 실행 파일에 대한 연구는 미진한 편이다. 본 연구에서는 기존에 알려진 소규모 실행 파일의 특징을 데이터마이닝 기법으로 분석하여 알려지지 않은 악성코드 탐지에 활용할 수 있는 모델을 제안한다. 데이터 마이닝 분석 기법에는 나이브베이지안, SVM, 의사결정나무, 랜덤포레스트, 인공신경망 등 다양하게 수행하였으며, 바이러스토탈의 악성코드 검출 수준에 따라서 개별적으로 정확도를 비교하였다. 결과적으로 분석 파일 34,646개에 대하여 80% 이상의 분류 정확도를 검증하였다.

자료기반 물환경 모델의 현황 및 발전 방향 (Data-Driven Modeling of Freshwater Aquatic Systems: Status and Prospects)

  • 차윤경;신지훈;김영우
    • 한국물환경학회지
    • /
    • 제36권6호
    • /
    • pp.611-620
    • /
    • 2020
  • Although process-based models have been a preferred approach for modeling freshwater aquatic systems over extended time intervals, the increasing utility of data-driven models in a big data environment has made the data-driven models increasingly popular in recent decades. In this study, international peer-reviewed journals for the relevant fields were searched in the Web of Science Core Collection, and an extensive literature review, which included total 2,984 articles published during the last two decades (2000-2020), was performed. The review results indicated that the rate of increase in the number of published studies using data-driven models exceeded those using process-based models since 2010. The increase in the use of data-driven models was partly attributable to the increasing availability of data from new data sources, e.g., remotely sensed hyperspectral or multispectral data. Consistently throughout the past two decades, South Korea has been one of the top ten countries in which the greatest number of studies using the data-driven models were published. Among the major data-driven approaches, i.e., artificial neural network, decision tree, and Bayesian model, were illustrated with case studies. Based on the review, this study aimed to inform the current state of knowledge regarding the biogeochemical water quality and ecological models using data-driven approaches, and provide the remaining challenges and future prospects.

재생에너지 사업 참여에 대한 국민 선호와 수용성 분석 - 태양광 발전을 중심으로 (Assessing the public preference and acceptance for renewable energy participation initiatives - focusing on photovoltaic power)

  • 함애정;강승진
    • 에너지공학
    • /
    • 제27권4호
    • /
    • pp.36-49
    • /
    • 2018
  • 본 연구에서는 일반인을 대상으로 일반 설문과 선택형 컨조인트 분석(Choice Based Conjoint Analysis: CBC Analysis)을 통해 태양광 발전을 중심으로 신재생에너지와 신재생에너지 사업 전반에 대한 인식을 파악하고, 계층적 베이지안 모형(Hierarchical Bayesian Model)을 이용하여 신재생에너지 사업에 대한 일반 국민의 선호를 정량적으로 분석하였다. 그 결과, 응답자들은 신재생에너지 사업에 참여하게 될 경우 누가 사업을 주도 하는가, 즉 사업을 주도하는 주체에 대해 가장 중요하게 생각하며, 그 뒤를 이어 발전소의 위치와 국민들의 참여 방식과 이익배분에 대해서 중요하게 생각하였고, 상대적으로 사업에 대한 국민들의 의사결정 참여는 중요하지 않은 것으로 나타났다. 또한 응답자들은 신재생에너지 사업에 참여할 경우, 정보 공유나 의사 개진, 협조, 조율과 같은 사업에 대한 지원 활동(volunteering) 보다는 대출이나 지분 소유를 통한 투자 참여를 선호하였고, 따라서 의사 결정 참여와 같은 사업의 절차적(procedural justice) 측면 보다는 이익의 배분과 같은 분배적(distributional justice) 측면에 관심이 더 높았다. 각 사업의 속성 수준별 부분 효용의 크기에 따른 분석에서는, 지방자치단체 주도 하에 국민들이 신재생에너지 사업에 대해 주식을 소유하고 사업의 수익률에 연동하여 배당을 받는 방식으로 참여하고 산지나 해변보다는 지붕에 발전 시설을 설치하는 것을 선호하였고, 반대로 전문 개발회사와 투자회사 주도로 정보공유, 협의, 조율과 모니터링에 참여하고 이익의 일부를 마을 복지나 발전 기금으로 받으며, 발전소를 산지나 임야에 짓는 경우를 선호하지 않았다. 본 연구는 직접적인 설문과 면담 등의 질적 연구만으로는 밝혀내기 어려웠던 국민 참여를 전제한 신재생에너지 사업 속성의 영향력을 계량화된 모형을 통해 입증하였다는 점에서 의의를 가지며, 따라서 본 연구에서 나타난 신재생에너지 사업에 대한 일반인의 인식과 선호 분석의 결과는 향후 국민 참여형 신재생에너지 사업의 방향 수립 시 주민 수용성을 높이는 기초 자료로 활용될 수 있을 것이다.

하중유형 분석을 통한 좌굴에 강한 복합재료 사각관 설계에 관한 연구 (Enhancement of Buckling Characteristics for Composite Square Tube by Load Type Analysis)

  • 함석우;지승민;전성식
    • Composites Research
    • /
    • 제36권1호
    • /
    • pp.53-58
    • /
    • 2023
  • PIC 설계 방법은 선행 유한요소해석을 통해 하중 유형을 나누어, 각 구간마다 하중 유형에 강한 복합재료의 적층 각도 순서를 배치하는 방법이다. 기존 연구에서는 효율적으로 구간을 나누기 위하여 PIC 설계 방법에 머신 러닝이 적용되었으며, 학습 데이터는 선행 유한요소해석 결과 값을 통해 전체 요소의 일부인 참조 요소에서의 인장, 압축 그리고 전단과 같은 하중 유형으로 나누어 라벨링 되었다. 하지만 좌굴에 대해 고려되지 않아서 좌굴 발생 시, 적절한 하중 유형으로 나눌 수 없기 때문에 이를 해결하기 위한 방법이 필요하다. 본 연구에서는 좌굴이 고려되기 위한 새로운 하중 유형 분석 방법을 기존의 PIC 설계에 적용하는 기법(PIC-NTL)이 제안되었다. 좌굴의 하중 분석은 각 플라이(Ply)별 응력 3축 특성을 통해 진행되었으며, 요소의 두께 방향으로 동일한 크기의 두 영역으로 나누어진 판단 영역 내에서 결정된 하중 유형을 통해 대표 하중 유형이 지정되었다. 학습 데이터의 특성 값은 참조 요소의 좌표, 라벨(Label)은 각 판단 영역의 대표 하중 유형으로 구성되었으며, 이 데이터를 통해 머신 러닝 모델이 학습되었다. 머신 러닝 모델의 성능에 영향을 미치는 하이퍼파라미터는 베이지안 알고리즘을 통하여 최적 값으로 튜닝되었다. 튜닝 된 머신 러닝 모델의 중 SVM 모델이 가장 높은 예측률과 ROC-AUC로 나타났으며, 해당 모델을 통해 예측된 데이터가 유한요소 모델에 매핑되었다. 기존에 제안된 PIC 설계 방법과 비교하기 위하여 사각관 형태의 모델을 압축시키는 유한요소해석이 진행되었으며, 본 연구에서 제안된 설계 방법이 강도와 에너지 흡수율에서 더 우수함이 검증되었다.

점진적 기계학습 기반의 레이더 위협체 역추정 모델 생성 및 갱신 (Managing the Reverse Extrapolation Model of Radar Threats Based Upon an Incremental Machine Learning Technique)

  • 김철표;노상욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권4호
    • /
    • pp.29-39
    • /
    • 2017
  • 다양한 전자전 상황에서 단위 위협체에 대하여 전자전 모델링과 시뮬레이션을 수행할 수 있는 통합 전자전 시뮬레이터의 개발 필요성이 대두되고 있다. 본 논문에서는 전자전 상황에서 전자정보 수집신호의 변수를 기반으로 전자파 신호를 발산하는 레이더 위협을 역추정하기 위한 시뮬레이션 시스템의 구성요소를 분석하고, 역추정 모델을 점진적으로 유지할 수 있는 방법을 제안한다. 또한, 실험을 통하여 점진적 역추정 모델 갱신 기법의 유효성 및 개별 역추정 결과의 통합 기법을 평가한다. 개별 역추정 모델의 생성을 위하여 의사결정트리, 베이지안 분류기, 인공신경망 및 유클리디안 거리 측정방식과 코사인 유사도 측정방식을 활용하는 군집화 알고리즘을 이용하였다. 첫 번째 실험에서 레이더 위협체에 대한 역추정 모델을 구축하기 위한 위협 예제의 크기를 점진적으로 증가시키면 역추정 모델의 정확도는 향상되었으며, 이러한 과정이 반복되면 역추정 모델에 대한 정확도는 일정한 값으로 수렴하였다. 두 번째 실험에서는 개별 역추정 모델의 결과를 통합하기 위하여 투표, 가중투표 및 뎀스터-쉐이퍼 알고리즘을 이용하였으며, 역추정 모델의 통합 결과는 뎀스터-쉐이퍼 알고리즘에 의한 역추정 정확도가 가장 좋은 성능을 보였다.

Support Vector Machine 기법을 이용한 고객의 구매의도 예측 (Forecasting of Customer's Purchasing Intention Using Support Vector Machine)

  • 김진화;남기찬;이상종
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.137-158
    • /
    • 2008
  • 기업 경쟁력 강화의 중요한 이슈인 대량 개별화(mass-customization)의 실행을 위하여 통합 고객관계 관리 프로세스로서의 CRM(customer relationship management)에 대한 관심과 활용에 대한 필요성은 점점 더 높아지고 있다. 특히, 기존 고객들의 구매 정보를 기반으로 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘날 실질적인 판매 전략을 수립하는 마케팅 분야에서 상당히 큰 비중을 차지하고 있다. 고객의 구매의도 예측에는 대량의 데이터로부터 과거에 인지하지 못했던 의미 있고, 근거 있는 정보를 추출하는 데이터마이닝(datamining)이 주로 사용되고 있다. 기존의 구매의도 예측에 사용된 데이터마이닝 기법들은 주로 신경망(neural networks)과 로지스틱 회귀분석(logistic regression analysis)이었는데, 예측 정확성 및 모형 구축의 어려움으로 인한 다양한 문제점들이 제기되고 있는 실정이다. 따라서, 본 논문에서는 기존의 기법들이 가지고 있는 단점들을 개선하기 위하여 신경망과 로지스틱 회귀분석 외에 연관규칙(association rule), 연관성 매트릭스(association matrix), 의사결정 나무(decision tree), 베이지안 망(bayesian network), SVM(support vector machine) 기법들을 추가로 제안하였다. 본 연구의 목적은 고객의 특정 상품에 대한 구매의도 예측을 위하여 새로운 알고리즘을 제시하기보다는 기존의 다양한 데이터마이닝 기법들을 적용시켜 봄으로써, 가장 우수한 예측성과를 나타내는 기법을 발견하는 것이다. 연구에 사용된 자료는 기존의 연구에서는 적용되지 않았던 편의점의 영수증 데이터이다. 예측 목표상품은 카테고리화 된 '우유'와 '냉동식품'이며, 제안된 기법들의 신뢰성을 위하여 전체 데이터를 10개의 training과 test 셋으로 중복되지 않게 구분함과 동시에 10번의 교차 검증(cross validation)을 실시하였다. 실험 결과 SVM이 영수증 데이터를 이용한 고객의 특정 상품에 대한 구매의도 예측에서 가장 우수한 성과를 나타내는 것을 확인하였다.