• 제목/요약/키워드: Unsupervised Learning Technologies

검색결과 20건 처리시간 0.024초

기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰 (A review of gene selection methods based on machine learning approaches)

  • 이하정;김재직
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.667-684
    • /
    • 2022
  • 유전자 발현 데이터는 각 유전자에 대해 mRNA 양의 정도를 나타내고, 그러한 유전자 발현량에 대한 분석은 질병 발생에 대한 메커니즘을 이해하고 새로운 치료제와 치료 방법을 개발하는데 중요한 아이디어를 제공해오고 있다. 오늘날 DNA 마이크로어레이와 RNA-시퀀싱과 같은 고출력 기술은 수천 개의 유전자 발현량을 동시에 측정하는 것을 가능하게 하여 고차원성이라는 유전자 발현 데이터의 특징을 발생시켰다. 이러한 고차원성으로 인해 유전자 발현 데이터를 분석하기 위한 학습 모형들은 과적합 문제에 부딪히기 쉽고, 이를 해결하기 위해 차원 축소 또는 변수 선택 기술들이 사전 분석 단계로써 보통 사용된다. 특히, 사전 분석 단계에서 우리는 유전자 선택법을 이용하여 부적절하거나 중복된 유전자를 제거할 수 있고 중요한 유전자를 찾아낼 수도 있다. 현재까지 다양한 유전자 선택 방법들이 기계학습의 맥락에서 개발되어왔다. 본 논문에서는 기계학습 접근법을 사용하는 최근의 유전자 선택 방법들을 집중적으로 살펴보고자 한다. 또한, 현재까지 개발된 유전자 선택 방법들의 근본적인 문제점과 앞으로의 연구 방향에 대해 논의하고자 한다.

기계 학습을 활용한 보안 이상징후 식별 알고리즘 개발 (Development of Security Anomaly Detection Algorithms using Machine Learning)

  • 황보현우;김재경
    • 한국전자거래학회지
    • /
    • 제27권1호
    • /
    • pp.1-13
    • /
    • 2022
  • 인터넷, 모바일 등 네트워크 기술이 발전함에 따라 내외부 침입 및 위협으로부터 조직의 자원을 보호하기 위한 보안의 중요성이 커지고 있다. 따라서 최근에는 다양한 보안 로그 이벤트에 대하여 보안 위협 여부를 사전에 파악하고, 예방하는 이상징후 식별 알고리즘의 개발이 강조되고 있다. 과거 규칙 기반 또는 통계 학습에 기반하여 개발되어 온 보안 이상징후 식별 알고리즘은 점차 기계 학습과 딥러닝에 기반한 모델링으로 진화하고 있다. 본 연구에서는 다양한 기계 학습 분석 방법론을 활용하여 악의적 내부자 위협을 사전에 식별하는 최적 알고리즘으로 LSTM-autoencoder를 변형한 Deep-autoencoder 모형을 제안한다. 본 연구는 비지도 학습에 기반한 이상탐지 알고리즘 개발을 통해 적응형 보안의 가능성을 향상시키고, 지도 학습에 기반한 정탐 레이블링을 통해 기존 알고리즘 대비 오탐율을 감소시켰다는 점에서 학문적 의의를 갖는다.

ICS 사이버 공격 탐지를 위한 딥러닝 전처리 방법 연구 (A Study on Preprocessing Method in Deep Learning for ICS Cyber Attack Detection)

  • 박성환;김민석;백은서;박정훈
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.36-47
    • /
    • 2023
  • 주요 산업현장에서 설비를 제어하는 산업제어시스템(ICS, Industrial Control System)이 네트워크로 다른 시스템과 연결되는 사례가 증가하고 있다. 또한, 이러한 통합과 함께 한 번의 외부 침입이 전체 시스템 마비로 이루어질 수 있는 지능화된 공격의 발달로, 산업제어시스템에 대한 보안에 대한 위험성과 파급력이 증가하고 있어, 사이버 공격에 대한 보호 및 탐지 방안의 연구가 활발하게 진행되고 있으며, 비지도학습 형태의 딥러닝 모델이 많은 성과를 보여 딥러닝을 기반으로 한 이상(Anomaly) 탐지 기술이 많이 도입되고 있다. 어어, 본 연구에서는 딥러닝 모델에 전처리 방법론을 적용하여 시계열 데이터의 이상 탐지성능을 향상시키는 것에 중점을 두어, 그 결과 웨이블릿 변환(WT, Wavelet Transform) 기반 노이즈 제거 방법론이 딥러닝 기반 이상 탐지의 전처리 방법론으로 효과적임을 알 수 있었으며, 특히 센서에 대한 군집화(Clustering)를 통해 센서의 특성을 반영하여 Dual-Tree Complex 웨이블릿 변환을 차등적으로 적용하였을 때 사이버 공격의 탐지성능을 높이는 것에 가장 효과적임을 확인하였다.

Application and Potential of Artificial Intelligence in Heart Failure: Past, Present, and Future

  • Minjae Yoon;Jin Joo Park;Taeho Hur;Cam-Hao Hua;Musarrat Hussain;Sungyoung Lee;Dong-Ju Choi
    • International Journal of Heart Failure
    • /
    • 제6권1호
    • /
    • pp.11-19
    • /
    • 2024
  • The prevalence of heart failure (HF) is increasing, necessitating accurate diagnosis and tailored treatment. The accumulation of clinical information from patients with HF generates big data, which poses challenges for traditional analytical methods. To address this, big data approaches and artificial intelligence (AI) have been developed that can effectively predict future observations and outcomes, enabling precise diagnoses and personalized treatments of patients with HF. Machine learning (ML) is a subfield of AI that allows computers to analyze data, find patterns, and make predictions without explicit instructions. ML can be supervised, unsupervised, or semi-supervised. Deep learning is a branch of ML that uses artificial neural networks with multiple layers to find complex patterns. These AI technologies have shown significant potential in various aspects of HF research, including diagnosis, outcome prediction, classification of HF phenotypes, and optimization of treatment strategies. In addition, integrating multiple data sources, such as electrocardiography, electronic health records, and imaging data, can enhance the diagnostic accuracy of AI algorithms. Currently, wearable devices and remote monitoring aided by AI enable the earlier detection of HF and improved patient care. This review focuses on the rationale behind utilizing AI in HF and explores its various applications.

야외 RGB+D 데이터베이스 구축을 위한 깊이 영상 신뢰도 측정 기법 (Confidence Measure of Depth Map for Outdoor RGB+D Database)

  • 박재광;김선옥;손광훈;민동보
    • 한국멀티미디어학회논문지
    • /
    • 제19권9호
    • /
    • pp.1647-1658
    • /
    • 2016
  • RGB+D database has been widely used in object recognition, object tracking, robot control, to name a few. While rapid advance of active depth sensing technologies allows for the widespread of indoor RGB+D databases, there are only few outdoor RGB+D databases largely due to an inherent limitation of active depth cameras. In this paper, we propose a novel method used to build outdoor RGB+D databases. Instead of using active depth cameras such as Kinect or LIDAR, we acquire a pair of stereo image using high-resolution stereo camera and then obtain a depth map by applying stereo matching algorithm. To deal with estimation errors that inevitably exist in the depth map obtained from stereo matching methods, we develop an approach that estimates confidence of depth maps based on unsupervised learning. Unlike existing confidence estimation approaches, we explicitly consider a spatial correlation that may exist in the confidence map. Specifically, we focus on refining confidence feature with the assumption that the confidence feature and resultant confidence map are smoothly-varying in spatial domain and are highly correlated to each other. Experimental result shows that the proposed method outperforms existing confidence measure based approaches in various benchmark dataset.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

국가재난관리 시스템과 민간 방재IT기술의 지능정보기술 적용 사례고찰을 통한 상호 연계에 관한 연구 (A Study on the Interconnection between National Disaster Management System and Private Disaster Prevention IT Technology through Application)

  • 김재표;김승천
    • 한국융합학회논문지
    • /
    • 제11권8호
    • /
    • pp.15-22
    • /
    • 2020
  • 재난예방단계와 사회재난분야의 관리강화를 위해 지능정보기술(ICBMA, IoT, Cloud, Big Data, Mobile, AI) 활용하여 상호 연계한 To-Be 재난관리시스템 제안을 고찰하고자 한다. 민간Moble, IoT등에서 생성되는 재난발생 전후시기에 재난징후의 Big Data와 분석 결과로 초지능 인프라를 구축함으로써 현재 재난관리 시스템을 고도화할 수가 있다. 재난징후의 Big Data를 AI의 지도, 비지도 강화훈련 학습으로 사용자에게 적시에 맞춤식 제공이 가능하고 장기적으로 재난대처 능력이 향상될 뿐 만 아니라 예방단계 중심의 관리 능력이 높아질 것으로 예상된다.

오토인코더 기반 IoT 디바이스 트래픽 이상징후 탐지 방법 연구 (Autoencoder-Based Anomaly Detection Method for IoT Device Traffics)

  • 박승아;장예진;김다슬;한미란
    • 정보보호학회논문지
    • /
    • 제34권2호
    • /
    • pp.281-288
    • /
    • 2024
  • 6세대(6G) 이동통신 기술은 초고속과 초대역, 그리고 초연결성을 중심으로 발전하고 있다. 통신 기술의 발전으로 사물 인터넷(IoT) 기술에서 만물 인터넷(IoE) 기술로 확장되며 초연결 사회의 형성이 급속화되고 있다. 하지만 그와 동시에 IoT 디바이스를 대상으로 하는 보안 위협이 광범위해지고 무단 액세스나 정보 유출 등 침해사고에 대한 우려가 커지며 보안 강화 솔루션의 필요성이 증가하고 있다. 이에 따라, 본 논문에서는 IoT 보안 위협에 대응하기 위해 실시간으로 수집한 네트워크 트래픽을 활용하여 오토인코더 기반의 이상징후 탐지 모델을 구현한다. 실제 IoT 환경에서 각종 공격에 대한 IoT 디바이스 트래픽 데이터를 수집하기 어려운 점을 고려하여 비지도 학습 기반의 오토인코더 신경망을 사용하며, 학습 데이터의 노이즈 적용과 잠재 공간의 차원에 따라 서로 다른 6가지 오토인코더 모델을 구현한다. 실험을 통해 모델 성능을 비교하여 비정상적인 네트워크 트래픽을 탐지하는 이상징후 탐지 모델에 대한 성능 평가를 제공한다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.