• 제목/요약/키워드: classification learning

검색결과 3,347건 처리시간 0.043초

머신러닝을 활용한 수도권 약수터 수질 예측 모델 개발 (Development of a water quality prediction model for mineral springs in the metropolitan area using machine learning)

  • 임영우;엄지연;곽기영
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.307-325
    • /
    • 2023
  • 코로나19 팬데믹의 장기화로 인해 실내 생활에 지쳐가는 사람들이 우울감, 무기력증 등을 해소하기 위해 근거리의 산과 국립공원을 찾는 빈도가 폭발적으로 증가하였다. 자연으로 나온 수많은 사람들이 오가는 걸음을 멈추고 숨을 돌리며 쉬어가는 장소가 있는데 바로 약수터이다. 산이나 국립공원이 아니더라도 근린공원 또는 산책로에서도 간간이 찾아볼 수 있는 약수터는 수도권에만 약 6백여개가 위치해 있다. 하지만 불규칙적이고 수작업으로 수행되는 수질검사로 인해 사람들은 실시간으로 검사 결과를 알 수 없는 상태에서 약수를 음용하게 된다. 따라서 본 연구에서는 약수터 수질에 영향을 미치는 요인을 탐색하고 다양한 곳에 흩어져 있는 데이터를 수집하여 실시간으로 약수터 수질을 예측할 수 있는 모델을 개발하고자 한다. 데이터 수집의 한계로 인해 서울과 경기로 지역을 한정한 후 데이터 관리가 잘 이루어지고 있는 18개 시의 약 300여개 약수터를 대상으로 2015~2020년의 수질 검사 데이터를 확보하였다. 약수터 수질 적합 여부에 영향을 미칠 것으로 여겨지는 다양한 요인들 중 두 차례의 검토를 거쳐 총 10개의 요인을 최종 선별하였다. 최근 주목받고 있는 자동화 머신러닝 기술인 AutoML 기법을 활용하여 20여가지의 머신러닝 기법들 중 예측 성능 기준 상위 5개의 모델을 도출하였으며 그 중 catboost 모델이 75.26%의 예측 분류 정확도로 가장 높은 성능을 가지고 있음을 확인하였다. 추가로 SHAP 기법을 통해 분석에 사용한 변인들이 예측에 미치는 절대적인 영향력을 살펴본 결과 직전 수질 검사에서 부적합 판정을 받았는지 여부가 가장 중요한 요인이었으며 그 외 평균 기온, 과거 연속 2번 수질 부적합 판정 기록 유무, 수질 검사 당일 기온, 약수터 고도 등이 수질 부적합 여부에 영향을 미치고 있음을 확인하였다.

CNN 보조 손실을 이용한 차원 기반 감성 분석 (Target-Aspect-Sentiment Joint Detection with CNN Auxiliary Loss for Aspect-Based Sentiment Analysis)

  • 전민진;황지원;김종우
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.1-22
    • /
    • 2021
  • 텍스트를 바탕으로 한 차원 기반 감성 분석(Aspect-Based Sentiment Analysis)은 다양한 산업에서 유용성을 주목을 받고 있다. 기존의 차원 기반 감성 분석에서는 타깃(Target) 혹은 차원(Aspect)만을 고려하여 감성을 분석하는 연구가 대다수였다. 그러나 동일한 타깃 혹은 차원이더라도 감성이 나뉘는 경우, 또는 타깃이 없지만 감성은 존재하는 경우 분석 결과가 정확하지 않다는 한계가 존재한다. 이러한 문제를 해결하기 위한 방법으로 차원과 타깃을 모두 고려한 감성 분석(Target-Aspect-Sentiment Detection, 이하 TASD) 모델이 제안되었다. 그럼에도 불구하고, TASD 기존 모델의 경우 구(Phrase) 간의 관계인 지역적인 문맥을 잘 포착하지 못하고 초기 학습 속도가 느리다는 문제가 있었다. 본 연구는 TASD 분야 내 기존 모델의 한계를 보완하여 분석 성능을 높이고자 하였다. 이러한 연구 목적을 달성하기 위해 기존 모델에 합성곱(Convolution Neural Network) 계층을 더하여 차원-감성 분류 시 보조 손실(Auxiliary loss)을 추가로 사용하였다. 즉, 학습 시에는 합성곱 계층을 통해 지역적인 문맥을 좀 더 잘 포착하도록 하였으며, 학습 후에는 기존 방식대로 차원-감성 분석을 하도록 모델을 설계하였다. 본 모델의 성능을 평가하기 위해 공개 데이터 집합인 SemEval-2015, SemEval-2016을 사용하였으며, 기존 모델 대비 F1 점수가 최대 55% 증가했다. 특히 기존 모델보다 배치(Batch), 에폭(Epoch)이 적을 때 효과적으로 학습한다는 것을 확인할 수 있었다. 본 연구에서 제시된 모델로 더욱 더 세밀한 차원 기반 감성 분석이 가능하다는 점에서, 기업에서 상품 개발 및 마케팅 전략 수립 등에 다양하게 활용할 수 있으며 소비자의 효율적인 구매 의사결정을 도와줄 수 있을 것으로 보인다.

AdaBoost를 이용한 윈도우 영상의 하위 영상 검출 (Subimage Detection of Window Image Using AdaBoost)

  • 길종인;김만배
    • 방송공학회논문지
    • /
    • 제19권5호
    • /
    • pp.578-589
    • /
    • 2014
  • 윈도우 영상은 흔히 컴퓨터에서 응용프로그램을 실행하였을 때, 모니터를 통해 출력되는 화면을 의미하여, 웹페이지, 동영상 플레이어 및 여러 가지 응용프로그램을 모두 포함한다. 웹페이지는 다른 어플리케이션에 비해 다양한 종류의 정보를 다양한 형태로 전달한다. 이러한 웹페이지와 같은 윈도우 영상은 카메라로부터 획득할 수 있는 자연영상과 달리 텍스트, 로고, 아이콘 및 하위 영상과 같은 여러 가지 요소들을 포함하고 있고, 각 요소들은 서로 다른 형식의 정보를 사용자에게 전달한다. 그러나 텍스트와 영상은 정보가 다른 형태로 제공되기 때문에, 엄연히 다른 특성을 가지고 있는 요소들을 지역적으로 분리할 필요성이 있다. 본 논문에서는 윈도우 영상을 지역적인 특성에 따라 다수의 블록으로 분할한 후, 분할된 각 영역을 배경, 텍스트, 하위영상으로 분류하였다. 이러한 분류기법을 통해 분류된 하위 영상은 3D입체영상 변환, 영상 검색, 영상 브라우징등과 같은 응용을 가질 수 있다. 영상을 분류하는 방법에는 여러 가지가 존재할 수 있으나, 본 논문에서는 기계학습 기반의 알고리즘이 하위 영상 검출에도 좋은 접근법이 될 수 있음을 증명하기 위해 AdaBoost를 이용하였고, 실험결과로부터 93.4%의 검출률, 13%의 거짓 긍정률을 보임으로서, 이를 입증하였다.

스마트 기기의 멀티 모달 로그 데이터를 이용한 사용자 성별 예측 기법 연구 (A Study on Method for User Gender Prediction Using Multi-Modal Smart Device Log Data)

  • 김윤정;최예림;김소이;박규연;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.147-163
    • /
    • 2016
  • 스마트 기기 사용자의 성별 정보는 성공적인 개인화 서비스를 위해 중요하며, 스마트 기기로부터 수집된 멀티 모달 로그 데이터는 사용자의 성별 예측에 중요한 근거가 된다. 하지만 각 멀티 모달 데이터의 특성에 따라 다른 방식으로 성별 예측을 수행해야 한다. 따라서 본 연구에서는 스마트 기기로부터 발생한 로그 데이터 중 텍스트, 어플리케이션, 가속도 데이터에 기반한 각기 다른 분류기의 예측 결과를 다수결 방식으로 앙상블하여 최종 성별을 예측하는 기법을 제안한다. 텍스트 데이터를 이용한 분류기는 데이터 유출에 의한 사생활 침해 문제를 최소화하기 위해 웹 문서로부터 각 성별의 특징적 단어 집합을 도출하고 이를 기기로 전송하여 사용자의 기기 내에서 성별 분류를 수행한다. 어플리케이션 데이터에 기반한 분류기는 사용자가 실행한 어플리케이션들에 성별을 부여하고 높은 비율을 차지하는 성별로 사용자의 성별을 예측한다. 가속도 기반 분류기는 성별에 따른 사용자의 가속도 데이터 인스턴스를 학습한 SVM 모델을 사용하여 주어진 성별을 분류한다. 자체 제작한 안드로이드 어플리케이션을 통해 수집된 실제 스마트 기기 로그 데이터를 사용하여 제안하는 기법을 평가하였으며 그 결과 높은 예측 성능을 보였다.

CNN 기반 위장관 랜드마크 분류기를 이용한 위장관 교차점 추정 (Estimating Gastrointestinal Transition Location Using CNN-based Gastrointestinal Landmark Classifier)

  • 장현웅;임창남;박예슬;이광재;이정원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권3호
    • /
    • pp.101-108
    • /
    • 2020
  • 최근의 영상 처리 분야는 딥러닝 기법들의 성능이 입증됨에 따라 다양한 분야에서 이와 같은 기법들을 활용해 영상에 대한 분류, 분석, 검출 등을 수행하려는 시도가 활발하다. 그중에서도 의료 진단 보조 역할을 할 수 있는 의료 영상 분석 소프트웨어에 대한 기대가 증가하고 있는데, 본 연구에서는 데이터 셋이 방대하고 판단에 시간이 오래 걸리는 캡슐내시경 영상에 주목하였다. 본 논문의 목적은 캡슐내시경 영상의 판독에서 모든 환자에 대해 공통으로 수행되고, 판독하는 데 많은 시간을 차지하는 위장관 랜드마크를 구별하고 위장관 교차점을 추정하는 것이다. 이를 위해, 위장관 랜드마크를 식별할 수 있는 CNN 학습 모델을 설계하였으며, 이를 이용하여 결괏값을 필터링해 위장관 교차점을 추정하였다. 무작위로 환자 데이터를 샘플링한 모델을 이용해서 나온 결과를 필터링 후에 위장관 교차점을 추정하였을 때, 88% 환자는 위장에서 소장으로 변화하는 위장관 교차점(유문판) 의심 구역 안에 들어왔으며, 소장에서 대장으로 변화하는 위장관 교차점(회맹판)의 경우 100% 환자가 위장관 교차점 의심 구역 안에 들어온 것을 확인할 수 있었다. 100프레임 범위로 위장관 교차점 의심 구역을 찾을 수 있었으며, 판독자가 초당 10프레임의 속도로 판독을 진행한다면 10초안에 위장관 교차점을 찾아낼 수 있다.

Random Forest 기법을 이용한 도심지 MT 시계열 자료의 차량 잡음 분류 (Classification of Transport Vehicle Noise Events in Magnetotelluric Time Series Data in an Urban area Using Random Forest Techniques)

  • 권형석;류경호;심익현;이춘기;오석훈
    • 지구물리와물리탐사
    • /
    • 제23권4호
    • /
    • pp.230-242
    • /
    • 2020
  • 201 6년 9월에 발생한 경주지진원 구역에 대한 정밀 지질구조 규명을 위해 MT 탐사를 적용하였다. 경주지역의 MT 측정자료는 조사지역 인근의 지하철, 전력선, 공장, 주택, 농경지에서 발생된 전기적 잡음과 철도, 도로에서의 차량잡음 등으로 인해 측정자료 왜곡이 심하게 발생되었다. 이 연구에서는 고속철도 및 고속도로와 인접한 4개소의 MT 탐사자료에 기계학습 기법을 적용하여 차량잡음이 포함된 시계열을 분류하였다. 고속열차 잡음이 포함된 시계열에 대해서는 확률적 경사 하강법, 서포트 벡터 머신과 랜덤 포레스트 3가지의 분류모델을 적용하여 그 결과를 비교하였다. 대형트럭 잡음이 포함된 시계열 자료에 대해서는 Hx 성분, Hy 성분과 Hx & Hy 합성성분 크기에 대한 3가지의 샘플 자료를 준비하였으며 랜덤 포레스트 분류모델을 구성하여 그 성능을 평가하였다. 마지막으로 차량잡음 제거 효과 분석을 위하여 차량잡음 제거 전후의 시계열, 진폭 스펙트럼과 겉보기비저항 곡선을 비교하였으며, 이를 통해 차량잡음이 영향을 미치는 주파수 대역과 차량잡음 제거 시 발생될 수 있는 문제점에 대해 고찰하였다.

놀이속성 분류에 따른 적정 어린이 놀이시설물 연구 (Children's Play Facilities according to the Classification of Amusement Features)

  • 정길택;신민지;신지훈
    • 한국조경학회지
    • /
    • 제46권1호
    • /
    • pp.29-37
    • /
    • 2018
  • 본 연구는 놀이의 본질을 설명하는 놀이속성어를 추출하고, 이러한 속성이 현재 사용되는 어린이놀이시설물과의연관성을 지니는지를 확인하는 연구이다. 놀이시설물에 반영된 놀이속성을 조사하여 부족한 점을 보완함으로써 어린이에게 균형 잡힌 놀이 환경을 제공할 수 있다고 생각하기 때문이다. 이에 본 연구에서는 문헌조사 및 분석을 통해 속성어를 추출하고, 추출된 속성어에 대하여 전문가 설문을 실시하였다. 놀이를 설명하는 키워드는 참고문헌과 신문기사 등에서 추출하고 압축하여 놀이속성어로 규정하였고, 6개의 대분류와 26개의 중분류로 분류하였다. 이 내용을 바탕으로 실시한 전문가 인식조사에서 주요 놀이속성어의 중요도는 소통(0.268%) > 상상력(0.201%) > 정서(0.190%) > 발달(0.167%) > 학습(0.108%) > 지능(0.067%)의 순서로 나타났다. 전문가들은 '소통'과 '상상력' 등을 놀이에서 가장 중요한 요소로 인지하고 있었다. 도출된 내용을 바탕으로 놀이시설물과 연관되는 각각의 놀이속성어를 구분하고, 서울시 114개소 어린이 공원에 설치된 놀이시설물 현황을 파악하였다. 서울시 어린이공원에 설치된 놀이시설물에는 놀이속성어 중 '발달'을 위주로 한 신체발달 놀이시설물이 높은 빈도로 모든 어린이공원에 반영되었으며, 전문가들이 중요한 요소로 나타난 '소통'과 '상상력' 등 인지관련 놀이시설물은 실제 충분히 반영되어 있지 않아 적극적으로 도입할 필요성이 있는 것으로 판단되었다. 본 연구를 통해 현재 이용되고 있는 어린이 공원의 부족한 놀이시설물을 파악하고, 놀이의 기능에 대한 의문을 제기함으로써 향후 개선방향을 제안하고자 하였다.

차세대 무선 네트워크 환경에서 메시지 보호를 위한 통신 시스템 설계 (A Design Communication System for Message Protection in Next Generation Wireless Network Environment)

  • 민소연;진병욱
    • 한국산학기술학회논문지
    • /
    • 제16권7호
    • /
    • pp.4884-4890
    • /
    • 2015
  • 전 세계의 인구가 1인 평균 2대의 모바일 디바이스를 소지하는 시대가 다가오고 있으며 무선 네트워크 시장이 점차 확장되고 있다. 모바일 기기의 활용도가 높아짐에 따라서 와이파이(Wi-fi, Wireless Fidelity=Wireless LAN)가 선호하는 네트워크로 떠오르고 있다. 와이파이를 기반으로 공공기관, 의료, 교육러닝 및 콘텐츠, 제조, 리테일 등 다양한 영역에서 새로운 가치를 창출해가고 있으며, 글로벌 네트워크가 구축되어 복합적인 서비스를 제공하고 있다. 하지만 차세대 무선 네트워크 환경에서 무선 디바이스 식별자 취약, MAC 위조를 통한 네트워크 자원의 불법 이용, 무선 인증키 크래킹, 미허가 AP/디바이스에 대한 공격과 같은 취약점이 존재하고 있다. 또한 인증 고도화 및 안전한 고속 보안 접속과 같은 보안기술연구가 거의 진행되고 있지 않다. 그러므로 본 논문에서는 차세대 무선 네트워크 환경의 메시지 보호를 위한 디바이스 식별과 콘텐츠 분류 및 저장 프로토콜을 설계하여 안전한 통신 시스템을 설계한다. 제안한 프로토콜은 기존의 무선 네트워크 환경에서 발생하는 보안취약점에 관하여 안전성을 분석하였고 기존의 무선 네트워크 환경의 암호기법을 비교분석하여 보안성을 분석하였다. 기존의 암호시스템 WPA2-PSK보다는 대략 0.72배 느리지만, 보안성에서는 안전성을 강화되었다.

정보보안 전문인력 양성을 위한 교육과정 개발 (A Development of Curriculum for Information Security Professional Manpower Training)

  • 이문구
    • 전자공학회논문지
    • /
    • 제54권1호
    • /
    • pp.46-52
    • /
    • 2017
  • 정보보안 분야에 대한 사회적 이슈가 고취되고, 인력수요전망이 매우 높아지고 있다. 이에 본 연구는 컴퓨터 및 네트워크 시스템 등 정보보안 분야에서 관련 직무에 종사하고 있는 실무자들로부터 정보보안에 필요한 지식을 설문조사하였다. 설문자료와 NICE에서 제시한 정보보호 직무체계 그리고 NCS 그리고 KISA에서 분류한 IT기술과 보안영역분류체계와의 연관성을 분석하였다. 분석한 자료를 기반으로 정보보안 분야에서 직무를 수행할 수 있는 전문 인력 양성을 위한 교육과정을 제안한다. 제안하는 교육과정은 2년제, 3년제 그리고 4년제 학제에 각각 적용할 수 있도록 하였다. 제안하는 교육과정은 정보보안 직무체계에서 종사하기를 원하는 많은 인력들이 주어진 학년기간 동안에 반드시 익혀야 될 과정들을 제안하였다. 제안한 각 교육단계는 관련분야와 밀접한 연계성을 갖고 반드시 필요한 교육이 실천될 수 있도록 각 교과목에 세부 지침을 명시하였다. 제안한 교육과정은 반드시 필요하고 기본이 되는 이론교육은 물론 이론과 함께 실시되어야 하는 실무교육을 함께 병행하도록 하여 자칫 이론중심의 교육이거나 단순한 명령어만을 익히는 실습에서 벗어나서 실무와 연계될 수 있는 다양한 시나리오기반의 해킹과 보안 방어 대응책에 대한 교육이 함께 이루어지도록 설계하였다. 이는 스펙이 아닌 직무능력을 갖추어 관련 자격증을 취득하는데 도움이 될 수 있을 뿐만 아니라 차세대 융합형 정보보안 전문인력 양성에 도움이 될 수 있기를 기대한다.

CRM의 기능 분류를 위한 통계적 학습에 관한 연구 (A Study of Statistical Learning as a CRM s Classifier Functions)

  • 장근;이정배;이병수
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.71-76
    • /
    • 2004
  • 현재 ERP와 CRM은 대부분 전통적인 기능적 수행에만 초점이 맞추어져 있다. 그러나 최근의 경영환경은 인터넷(Internet)과 이를 기반으로 하는 전자상거래의 비약적 발전에 기인하여 시장의 변화를 가져왔으며, 이는 대부분 e-비즈니스화 되어 가고 있으며, 이를 추진하면서 제휴기관과의 관계증진, 고객관계의 혁신적 개선은 물론 조직내부의 업무프로세스의 획기적 개선을 통한 경쟁력 강화를 적극적으로 전개하고 있다. CRM(Customer Relationship Management)은 기업이 획득한 고객을 지속적으로 유지하고, 기업에 대한 고객의 가치를 증진시키기 위해 기업과 고객간의 상호 이익적 관계를 형성 유지 강화하려는 기업의 일련의 마케팅과정으로 다양하고도 수많은 고객들의 정보를 기반으로 수행되기 때문에 고객 정보를 파악할 수 있는 시스템 기반을 필요로 하며, 생산과 상품의 전달경로, 마케팅, 그리고 의사결정 등의 경영 카테고리와 연관되어 있다. 한편 ERP는 SCM과 CRM 및 SEM(Strategic Enterprise Management)등으로 기능을 확대해감에 따라 21세기의 ERP는 e-비즈니스의 전략적 도구로 발전해 갈 것이다. 본 논문에서는 이를 위한 중재 도구를 제시함으로써 고객에게 더욱 더 효율적이고 고 부가가치 있는 의미 있는 데이터들의 통계적 기계 학습법을 통해 CRM의 기능들을 효율적으로 분류할 수 있도록 한다. 또한 시스템 특징으로는 기존에 수작업으로 이루어지던 파일의 분류 작업을 기계 학습법을 통한 에이전트가 자동으로 수행함으로써 사용자가 좀 더 효율적으로 작업을 수행 할 수 있도록 한 것이다.