• 제목/요약/키워드: 기계학습알고리즘

검색결과 781건 처리시간 0.024초

온라인 뉴스에 대한 한국 대중의 감정 예측 (Inference of Korean Public Sentiment from Online News)

  • ;최순영;임희석
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.25-31
    • /
    • 2018
  • 온라인 뉴스는 기존의 신문을 대체하였고, 우리가 정보에 접근하고 공유하는 방법에 큰 변화를 가져왔다. 뉴스 웹사이트들은 사용자가 댓글을 남길 수 있는 기능을 오랜 시간동안 제공하였고, 그 중 몇몇 뉴스 웹사이트에서는 뉴스 기사들에 대한 사용자의 반응들을 크라우드소싱(crowdsource)하기 시작했다. 감정분석 분야에서는 텍스트에 반영된 감정과 반응들을 컴퓨팅적으로 모델링하기 위한 시도를 하고 있다. 본 연구에서는 뉴스 기사에 대한 반응들이 뉴스 본문과 수학적인 상관관계를 갖는지 밝히기 위해, 사용자로부터 생성된 다섯 가지의 감정 라벨(label)을 사용하여 10가지 카테고리(category)에 해당하는 100,000개 이상의 뉴스 기사들을 분석한다. 본 연구에서는 전처리과정이 최소한으로 필요하고 기계학습이 적용하지 않아도 되는 간단한 감정 분석 알고리즘(algorithm)을 제안한다. 우리는 이 모델이 한국어와 같은 형태론적으로 복잡한 언어에도 효과적이라는 것을 증명한다.

단어패턴 빈도를 이용한 단문 오피니언 문서 분류기법의 실험적 평가 (An Experimental Evaluation of Short Opinion Document Classification Using A Word Pattern Frequency)

  • 장재영;김일민
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권5호
    • /
    • pp.243-253
    • /
    • 2012
  • 데이터 마이닝의 문서분류 기술에서 발전된 오피니언 마이닝은 이제 국외뿐만 아니라 국내 산업에서 중요한 관심분야로 자리잡아가고 있다. 오피니언 마이닝의 핵심은 문서에서 감정 단어를 추출하여 긍정/부정 여부를 얼마나 정확하게 판별하느냐를 평가하는 것이다. 국내에서도 이에 관련된 많은 연구가 이루어 졌으나 아직 실용적으로 적용할 만큼의 분류 정확도를 보이지 않고 있다. 한국어의 경우 비문법적 표현, 감정단어의 다양성 등으로 인해 문서의 극성을 판별하기가 쉽지 않기 때문이다. 본 논문에서는 문법적 요소를 최대한 배제하고 단어패턴의 빈도만을 고려한 새로운 오피니언 문서 분류기법을 제안한다. 제안된 방법에서는 문서를 단어들의 리스트로 추상화한 후, 패턴들의 빈도를 이용하여 기계학습 알고리즘을 적용한다. 이후에 적절한 스코어 함수를 적용하여 문서의 극성을 판별한다. 또한 제안된 기법의 정확도를 평가하기 위해서 실험결과를 제시한다.

사물인터넷 기반의 집중도 및 명상도 검출을 통한 ASMR 콘텐츠 제어 기법 (A Control Method of ASMR Contents through Attention and Meditation Detection Based on Internet of Things)

  • 김민창;서정욱
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권9호
    • /
    • pp.1819-1824
    • /
    • 2018
  • 본 논문에서는 사용자의 스트레스 해소와 주의력 향상에 도움이 될 수 있는 ASMR(autonomous sensory meridian response) 콘텐츠 제어 기법을 제안한다. 제안된 기법은 뇌파 측정 디바이스로부터 EEG(electroencephalography), 집중도, 명상도, 눈 깜빡임 데이터를 측정하고 안드로이드 IoT(internet of things) 앱을 통해 oneM2M 표준을 준용한 IoT 서버 플랫폼으로 전송한다. 서버 플랫폼에 수집된 EEG, 집중도 및 명상도 데이터를 사용하여 사용자의 정신건강상태를 분류하기 위한 SVM(support vector machine) 모델을 생성하고, 이 모델을 통해 분류된 사용자의 정신건강상태와 눈 깜빡임 데이터에 따라 ASMR 콘텐츠를 제어한다. 데이터 사용형태에 따라 SVM 모델을 비교한 결과, 집중도와 명상도 데이터를 사용하는 SVM 모델이 85.7%의 정확도를 나타내었고 이 SVM 모델이 분류한 정신건강상태와 눈 깜빡임 데이터의 변화에 따라 ASMR 콘텐츠 제어 알고리즘이 정상적으로 동작하는 것을 확인하였다.

착용형 양안 시선추적기와 기계학습을 이용한 시선 초점 거리 추정방법 평가 (Evaluation of Gaze Depth Estimation using a Wearable Binocular Eye tracker and Machine Learning)

  • 신춘성;이건;김영민;홍지수;홍성희;강훈종;이영호
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제24권1호
    • /
    • pp.19-26
    • /
    • 2018
  • 본 논문은 가상현실 및 증강현실을 위해 양안식 눈추적기 기반의 시선 깊이 추정 기법을 제안한다. 제안한 방법은 먼저 양안식 눈추적기로부터 안구 및 시선과 관련된 다양한 정보를 획득한다. 이후 획득된 정보를 바탕으로 다층퍼셉트론 알고리즘 기반의 시선 추적과 인식 모델을 통해 눈 시선 깊이를 추정한다. 제안한 방법을 검증하기 위해 13명의 참여자를 모집하고 개인별 시선 추적과 범용 시선 추적에 대한 성능을 분석하였다. 실험결과 개인별 모델에서는 90.1%, 그리고 전체 사용자를 대상으로 한 범용 모델에서는 89.7%의 정확도를 보였다.

지능형 IoT 미러 시스템을 활용한 인터랙티브 콘텐츠 서비스 구현 (Development of Interactive Content Services through an Intelligent IoT Mirror System)

  • 정원석;서정욱
    • 한국항행학회논문지
    • /
    • 제22권5호
    • /
    • pp.472-477
    • /
    • 2018
  • 본 논문에서는 지능형 IoT (internet of things) 미러 시스템을 통해 사용자의 우울증 예방을 위한 인터랙티브 콘텐츠 서비스를 구현한다. 인터랙티브 콘텐츠 서비스를 위해 IoT 미러 장치는 뇌파 헤드셋 디바이스로부터 집중도 및 명상도 데이터를 측정하고, 웹캠을 통해 다층 퍼셉트론 알고리즘으로 분류된 "슬픔", "분노", "혐오감", "중립", "행복" 및 "놀람"과 같은 표정 데이터를 측정한 후, oneM2M 표준을 준용한 IoT 서버로 전송한다. IoT 서버에 수집된 데이터는 제안한 병합 레이블링 과정을 거쳐 세 가지의 우울 단계(RED, YELLOW, GREEN)를 분류하는 기계학습 모델을 생성한다. 실험을 통해 k-최근접 이웃 모델로 우울 단계를 분류한 결과 약 93%의 정확도를 얻을 수 있었고, 분류된 우울 단계에 따라 가족, 친구 및 사회복지사에게 소셜 네트워크 서비스 에이전트를 통해 알림 메시지를 전송하여 사용자와 보호자 간의 인터랙티브 콘텐츠 서비스를 구현하였다.

감정점수의 전파를 통한 한국어 감정사전 생성 (Generating a Korean Sentiment Lexicon Through Sentiment Score Propagation)

  • 박호민;김창현;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권2호
    • /
    • pp.53-60
    • /
    • 2020
  • 감정분석은 문서 또는 대화상에서 주어진 주제에 대한 태도와 의견을 이해하는 과정이다. 감정분석에는 다양한 접근법이 있다. 그 중 하나는 감정사전을 이용하는 사전 기반 접근법이다. 본 논문에서는 널리 알려진 영어 감정사전인 VADER를 활용하여 한국어 감정사전을 자동으로 생성하는 방법을 제안한다. 제안된 방법은 세 단계로 구성된다. 첫 번째 단계는 한영 병렬 말뭉치를 사용하여 한영 이중언어 사전을 제작한다. 제작된 이중언어 사전은 VADER 감정어와 한국어 형태소 쌍들의 집합이다. 두 번째 단계는 그 이중언어 사전을 사용하여 한영 단어 그래프를 생성한다. 세 번째 단계는 생성된 단어 그래프 상에서 레이블 전파 알고리즘을 실행하여 새로운 감정사전을 구축한다. 이와 같은 과정으로 생성된 한국어 감정사전을 유용성을 보이려고 몇 가지 실험을 수행하였다. 본 논문에서 생성된 감정사전을 이용한 감정 분류기가 기존의 기계학습 기반 감정분류기보다 좋은 성능을 보였다. 앞으로 본 논문에서 제안된 방법을 적용하여 여러 언어의 감정사전을 생성하려고 한다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

기계학습 알고리즘 기반의 인공지능 장기 게임 개발 (Development of Artificial Intelligence Janggi Game based on Machine Learning Algorithm)

  • 장명규;김영호;민동엽;박기현;이승수;우종우
    • 한국IT서비스학회지
    • /
    • 제16권4호
    • /
    • pp.137-148
    • /
    • 2017
  • Researches on the Artificial Intelligence has been explosively activated in various fields since the advent of AlphaGo. Particularly, researchers on the application of multi-layer neural network such as deep learning, and various machine learning algorithms are being focused actively. In this paper, we described a development of an artificial intelligence Janggi game based on reinforcement learning algorithm and MCTS (Monte Carlo Tree Search) algorithm with accumulated game data. The previous artificial intelligence games are mostly developed based on mini-max algorithm, which depends only on the results of the tree search algorithms. They cannot use of the real data from the games experts, nor cannot enhance the performance by learning. In this paper, we suggest our approach to overcome those limitations as follows. First, we collects Janggi expert's game data, which can reflect abundant real game results. Second, we create a graph structure by using the game data, which can remove redundant movement. And third, we apply the reinforcement learning algorithm and MCTS algorithm to select the best next move. In addition, the learned graph is stored by object serialization method to provide continuity of the game. The experiment of this study is done with two different types as follows. First, our system is confronted with other AI based system that is currently being served on the internet. Second, our system confronted with some Janggi experts who have winning records of more than 50%. Experimental results show that the rate of our system is significantly higher.

인자점수와 자기조직화지도를 이용한 희소한 문서데이터의 군집화 (Sparse Document Data Clustering Using Factor Score and Self Organizing Maps)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.205-211
    • /
    • 2012
  • 통계학과 기계학습의 다양한 기법을 이용하여 문서집합을 군집화하기 위해서는 우선 군집화분석에 적합한 데이터구조로 대상 문서집합을 변환해야 한다. 문서군집화를 위한 대표적인 구조가 문서-단어행렬이다. 각 문서에서 발생한 특정단어의 빈도값을 갖는 문서-단어행렬은 상당부분의 빈도값이 0인 희소성문제를 갖는다. 이 문제는 문서군집화의 성능에 직접적인 영향을 주어 군집화결과의 성능감소를 초래한다. 본 논문에서는 문서-단어행렬의 희소성문제를 해결하기 위하여 인자분석을 통한 인자점수를 이용하였다. 즉, 문서-단어행렬을 문서-인자점수행렬로 바꾸어 문서군집화의 입력데이터로 사용하였다. 대표적인 문서군집화 알고리즘인 자기조직화지도에 적용하여 문서-단어행렬과 문서-인자점수행렬에 대한 문서군집화의 결과들을 비교하였다.

중요한 이벤트만을 검색함으로써 분류기의 최적 성능을 찾는 방법 (A method of searching the optimum performance of a classifier by testing only the significant events)

  • 김동희;이원돈
    • 한국정보통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1275-1282
    • /
    • 2014
  • 유비쿼터스 환경에서는 수많은 정보들이 존재한다. 하지만 이 정보들은 너무 광범위하기 때문에 이로부터 필요에 따라 적절하게 사용 할 수 있는 정보를 얻기란 쉽지가 않다. 이로 인해 의사 결정 트리 알고리즘은 데이터 마이닝 분야 또는 기계 학습 시스템 분야에서 매우 유용하게 사용된다. 왜냐하면 빠르고 정확하게 정보를 분류하여 좋은 결과를 도출하기 때문이다. 하지만 때때로 의사 결정 트리가 매우 작은 데이터나 노이즈 데이터로 구성된 리프 노드들로 인해 좋은 정보를 제공하지 못하는 경우가 있다. 이 논문은 이러한 분류 문제를 해결하기 위해 분류기, UChoo를 사용할 것이고 노이즈 또는 노이즈 형태로 보이는 리프들을 제외하고 오직 중요한 리프들만을 검사하는 효과적인 방법을 제안한다. 그리고 실험을 통하여 의사 결정시 오직 중요한 리프들만을 의사 결정 트리에서 선택함으로써 효과적으로 에러가 줄어드는 것을 보일 것이다.