• 제목/요약/키워드: machine learning classification

검색결과 1,462건 처리시간 0.033초

수목 동정을 위한 수피 분류 데이터셋 구축과 합성곱 신경망 기반 53개 수종의 동정 모델 개발 (Construction of a Bark Dataset for Automatic Tree Identification and Developing a Convolutional Neural Network-based Tree Species Identification Model)

  • 김태경;백규헌;김현석
    • 한국산림과학회지
    • /
    • 제110권2호
    • /
    • pp.155-164
    • /
    • 2021
  • 자연환경에 대한 국민들의 관심 증가로 스마트폰과 같은 휴대용 기기를 이용한 수목 동정의 자동화에 대한 요구가 증가하고 있다. 최근 딥러닝 기술의 발전에 힘입어, 외국에서는 수목 인식 분야에의 적용이 활발하게 이루어지고 있다. 수목의 분류를 위해 꽃, 잎 등 다양한 형질들을 대상으로 연구가 진행되고 있지만, 접근성을 비롯한 여러 장점을 가진 수피의 경우 복잡도가 높고 자료가 부족하여 연구가 제한적이었다. 본 연구에서는 국내에서 흔히 관찰 가능한 수목 54종의 사진자료를 약 7,000 여장 수집 및 공개하였고, 이를 해외의 20 수종에 대한 BarkNet 1.0의 자료와 결합하여 학습에 충분한 수의 사진 수를 가지는 53종을 선정하고, 사진들을 7:3의 비율로 나누어 훈련과 평가에 활용하였다. 분류 모델의 경우, 딥러닝 기법의 일종인 합성곱 신경망을 활용하였는데, 가장 널리 쓰이는 VGGNet (Visual Geometry Group Network) 16층, 19층 모델 두 가지를 학습시키고 성능을 비교하였다. 또한 본 모형의 활용성 및 한계점을 확인하기 위하여 학습에 사용하지 않은 수종과 덩굴식물과 같은 방해 요소가 있는 사진들에 대한 모델의 정확도를 확인하였다. 학습 결과 VGG16과 VGG19는 각각 90.41%와 92.62%의 높은 정확도를 보였으며, 더 복잡도가 높은 모델인 VGG19가 조금 더 나은 성능을 보임을 확인하였다. 학습에 활용되지 않은 수목을 동정한 결과 80% 이상의 경우에서 같은 속 또는 같은 과에 속한 수종으로 예측하는 것으로 드러났다. 반면, 이끼, 만경식물, 옹이 등의 방해 요소가 존재할 경우 방해요소가 자치하는 비중에 따라 정확도가 떨어지는 것이 확인되어 실제 현장에서 이를 보완하기 위한 방법들을 제안하였다.

H.264 압축과 SVDD를 이용한 영상 감시 시스템에서의 비정상 집단행동 탐지 (Abnormal Crowd Behavior Detection via H.264 Compression and SVDD in Video Surveillance System)

  • 오승근;이종욱;정용화;박대희
    • 정보보호학회논문지
    • /
    • 제21권6호
    • /
    • pp.183-190
    • /
    • 2011
  • 감시카메라 환경에서 군중의 비정상 집단행동 탐지란 감시카메라로부터 유입되는 영상에서 다중 객체가 위험에 처한 상황을 신속하고 정확하게 탐지하는 분야를 말한다. 본 논문에서는 CCTV 등과 같은 감시카메라 환경에서 움직임 벡터와 SVDD를 이용하여 집단내의 비정상 상황을 탐지하는 프로토타입 시스템을 제안한다. 제안된 시스템은 H.264 압축과정에서의 움직임 벡터 정보를 이용하여 영상내의 움직임 정보를 추출 표현하였으며, 비정상 집단행동의 판별 문제를 실용적 차원의 단일 클래스 분류 문제로 재해석하여 단일 클래스 SVM의 대표적 모델인 SVDD를 탐지기로 설계하였다. 제안된 시스템은 H.264 압축 과정에서 얻어지는 움직임 벡터를 이용함으로써, 실시간성을 보장하며 SVDD의 점증적 갱신 학습 능력으로 인하여 비정상 집단행동 데이터베이스의 변화에도 능동적으로 적응할 수 있다. 공개적으로 사용 가능한 벤치마크 데이터 셋인 PETS 2009와 UMN을 이용하여 본 논문에서 제안한 비정상 집단행동 탐지 시스템의 성능을 실험적으로 검증한다.

부도예측모형에서 도메인 지식을 통합한 반사실적 예시 기반 설명력 증진 방법 (Domain Knowledge Incorporated Counterfactual Example-Based Explanation for Bankruptcy Prediction Model)

  • 조수현;신경식
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.307-332
    • /
    • 2022
  • 부도예측모형은 여러 금융기관의 신용평가모형의 지식기반(knowledge base)로 이용되고 있으며 최근 머신러닝 기법의 발전으로 이를 도입하여 고도화하려는 다양한 시도가 진행 중이다. 그러나 실제 이러한 모형이 도입되기 위해서는 모형을 이용하는 사용자와 설명제공 대상인 고객의 이해와 수용이 전제되어야 한다. 그러나 사용자에게 제공되는 설명이 현실적 타당성(feasibility)이 결여되어 있다면 모형의 신뢰성과 수용도에 부정적인 영향을 미친다. 이에 따라 본 연구는 도메인 지식을 설명 생성 알고리즘에 통합하여 현실적으로 타당한 설명을 사용자에게 제공하고자 한다. 본 연구에서는 머신러닝 기반의 부도예측 모형에 설명력을 더하는 방법으로 반사실적 예시(counterfactual example) 기반의 로컬영역에서의 설명을 제공하는 모델을 제안한다. 제안 모델은 모형에 이용된 재무변수의 특성을 설명력 생성 알고리즘에 통합하여 설명의 현실적 가능성을 확보하고 이를 통해 사용자의 이해와 수용을 도모하고자 한다. 또한 본 연구에서는 반사실적 예시기반 설명을 위해 유전알고리즘(GA)를 이용하며 다목적함수를 목적함수로 설정하여 반사실적 예시의 주요 기준이 되는 항목을 반영하고 있다. 본 연구는 대표적인 머신러닝 기법인 인공신경망을 이용해 부도예측모형을 학습시킨 뒤, 사후적 방법(post-hoc)으로 설명을 위한 알고리즘을 도입하여 기존의 모형 설명 알고리즘인 LIME과 현실적 가능성이 결여된 반사실적 예시 기반 알고리즘과 비교하였다. 더 나아가 제안방법의 금융/회계 분야의 종사자를 대상으로 서베이를 진행하여 제안 방법의 설명의 질을 정성적으로 평가하였다.

계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지 (Wafer bin map failure pattern recognition using hierarchical clustering)

  • 정주원;정윤서
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.407-419
    • /
    • 2022
  • 반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴탐지는 불량의 재현율이 96.31%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.

사회문제 해결 연구보고서 기반 문장 의미 식별 데이터셋 구축 (Building Sentence Meaning Identification Dataset Based on Social Problem-Solving R&D Reports)

  • 신현호;정선기;전홍우;권이남;이재민;박강희;최성필
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.159-172
    • /
    • 2023
  • 일반적으로 사회문제 해결 연구는 과학기술을 활용하여 다양한 사회적 현안들에 의미있는 해결 방안을 제시함으로써 중요한 사회적 가치를 창출하는 것을 연구 목표로 한다. 그러나 사회문제와 쟁점을 완화하기 위하여 많은 연구들이 국가적으로 수행되었음에도 불구하고 여전히 많은 사회문제가 남아 있는 상황이다. 사회문제 해결 연구의 전 과정을 원활하게 하고 그 효과를 극대화하기 위해서는 사회적으로 시급한 현안들에 대한 문제를 명확하게 파악하는 것이 중요하다. 사회문제 해결과 관련된 기존 R&D 보고서와 같은 자료에서 중요한 사안을 자동으로 식별할 수 있다면 사회문제 파악 단계가 크게 개선될 수 있다. 따라서 본 논문은 다양한 국가 연구보고서에서 사회문제와 해결방안을 자동으로 감지하기 위한 기계학습 모델을 구축하는 데에 필수적인 데이터셋을 제안하고자 한다. 우선 데이터를 구축하기 위해 사회문제와 쟁점을 다룬 연구보고서를 총 700건 수집하였다. 수집된 연구보고서에서 사회문제, 목적, 해결 방안 등 사회문제 해결과 관련된 내용이 담긴 문장을 추출 후 라벨링을 수행하였다. 또한 4개의 사전학습 언어모델을 기반으로 분류 모델을 구현하고 구축된 데이터셋을 통해 일련의 성능 실험을 수행하였다. 실험 결과 KLUE-BERT 사전학습 언어모델을 미세조정한 모델이 정확도 75.853%, F1 스코어 63.503%로 가장 높은 성능을 보였다.

기술력 평가항목을 이용한 고안정성 중소기업 판별력 검증 (Verification Test of High-Stability SMEs Using Technology Appraisal Items)

  • 이준원
    • 경영정보학연구
    • /
    • 제20권4호
    • /
    • pp.79-96
    • /
    • 2018
  • 본 연구는 기술력 평가항목 중 기업의 재무안정성과 관련된 항목을 신용평가모형에 반영하여 중소기업뿐만이 아닌 전체 기업을 대상으로 한 신용평가모형의 부도변별력을 높이기 위한 기술력 평가모형의 신용평가모형 내 내재화에 착안하여 시작되었다. 따라서 기술력 평가모형이 부채비율 기준의 고안정성 중소기업을 사전에 판별하는 데 적용될 수 있는지 검증하는 것을 목표로 한다. 대상 기업을 업종(제조업 vs. 비(非)제조업)과 업력(창업기업 vs. 비(非)창업기업)으로 구분하고, 3개년 동안 해당 군집의 평균 부채비율 1/2 이하를 달성한 기업에 대해 고안정성 중소기업으로 정의한 후, C5.0 기법을 적용하여 모형의 판별력을 검증하였다. 분석결과 소항목 수준에서는 업종과 업력에 따라 중요도 간 차이가 있지만, 중항목 수준에서는 기술개발역량이 고안정성 중소기업을 판별하는 중요변수로 도출되었으며, 기업의 업력에 따라 창업 초기에는 자금조달능력(수익창출능력을 고려한 자본구조, 자본비용 및 자금조달 방법의 다양성)이 미래 고안정성 중소기업 여부를 결정하는 중요변수이지만, 업력이 증가함에 따라 지속적인 성과를 가능하게 하는 기술개발 인프라가 재무안정성에 영향을 미치는 중요 변수로 변화한다는 결론을 도출하였다. 업종과 업력에 따른 모형의 분류 정확도는 71~91% 수준이며, 기술력 평가항목을 이용하여 고안정성 중소기업을 판별할 수 있다는 가능성을 확인하였다.

DNA 길이와 혼합 종 개수 예측을 위한 합성곱 신경망 (Convolution Neural Network for Prediction of DNA Length and Number of Species)

  • 승희;김예원;이효민
    • Korean Chemical Engineering Research
    • /
    • 제62권3호
    • /
    • pp.274-280
    • /
    • 2024
  • 기계학습법의 신경망 기술을 이용한 자료분석은 질병 유전자 탐색 및 진단, 신약 개발, 약인성 간 손상 예측 등과 같은 다양한 분야에서 활용되고 있다. 질병 특징 발견을 위한 자료분석은 DNA 정보를 기반으로 이루어질 수 있다. 본 연구에서는 DNA의 분자 정보 중 DNA의 길이와 용액 내 DNA의 길이별 종 개수를 예측하는 신경망을 개발하였다. 겔 전기영동을 통한 기존 방법론의 시간 소요 한계점을 해결하고자, 미세유체역학적 농축 장치의 동역학 자료를 분석 대상으로 하여 실험 분석 과정 중의 시간 소요 문제점을 해결하였다. 동역학 자료를 공간시간 지도로 재구성하여 학습 및 예측에 필요한 계산용량을 낮추었으며, 공간시간 지도에 대한 분석 정확도를 높이기 위해 합성곱 신경망을 활용하였다. 그 결과, 단일 변수 회귀로써의 단일 DNA 길이 예측과 복합 변수 회귀로써의 다종 DNA 길이의 동시 예측 및 이진 분류로써의 DNA 혼합 종 개수 예측을 성공적으로 수행하였다. 추가적으로, 예측 과정 중 발생할 수 있는 예측 편향을 학습 자료 구성 방식을 통한 해결책을 제시하였다. 본 연구를 활용한다면, 광학 측정 자료를 이용하는 액체생검 기반의 세포유리 DNA 분석 및 암 진단 등의 의학 자료 분석을 효과적으로 수행할 수 있을 것이다.

신경망분석기법을 이용한 패션 아이웨어 구매결정요소에 관한 연구 (Neural Network Analysis of Determinants Affecting Purchase Decisions in Fashion Eyewear)

  • 김지민
    • 문화기술의 융합
    • /
    • 제10권5호
    • /
    • pp.163-171
    • /
    • 2024
  • 본 연구는 30~40대 여성의 패션 아이웨어 구매결정 요인을 분석하기 위해 신경망 분석 기법을 적용하여 전통적인 모수적 분석 기법과 비교하였다. 패션 분야에서 신경망 등 머신러닝 기법은 맞춤형 패션 추천시스템에 많이 적용되는데, 국내 연구사례는 아직 미흡하다. 본 연구는 2017년에 전통적 계량기법으로 수행된 연구를 신기술로 다시 분석하여, 양자를 비교함으로써 신경망 기법의 유용성을 확인하고자 한다. 본 연구는 L-BFGS-B 신경망을 하이퍼볼릭 탄젠트로 활성화 시킬 때, 소비자들이 선호하는 디자인형태에 대한 분류정확도가 86.2%로 가장 좋았다. 소비자의 직업과 새로운 스타일에 대한 추구가 가장 중요한 구매결정요인이었다. 한국의 선글라스 소비자들은 "안전한 변화"를 가장 선호하는 것으로 해석된다. 이런 분석 결과는 선글라스 프레임 및 렌즈에 있어서도 동일하게 나타난다. 전통적인 계량분석의 결과물은 소비자가 어떤 집단에 속하는지 여부에 따라 선호하는 선글라스의 종류가 다르다고 본다. 이에 비해 신경망분석의 결과물은 각 개인별로 선호하는 선글라스를 개인별로 예측해준다. 이것이 기여하는 바는 개인별 맞춤형 선글라스 추천 시스템을 개발할 수 있게 해준다.

CAN 메시지의 주기성과 시계열 분석을 활용한 비정상 탐지 방법 (Detection of Abnormal CAN Messages Using Periodicity and Time Series Analysis)

  • 김세린;성지현;윤범헌;조학수
    • 정보처리학회 논문지
    • /
    • 제13권9호
    • /
    • pp.395-403
    • /
    • 2024
  • 최근 자동차 산업의 기술 발전과 함께 네트워크 연결성이 증대되고 있다. CAN(Controller Area Network) 버스 기술은 차량 내 다양한 전자기기와 시스템 간의 신속하고 효율적인 데이터 통신을 가능하게 하여, 핵심 시스템부터 다양한 기능을 통합 관리할 수 있는 플랫폼을 제공한다. 그러나 이러한 연결성 증가는 외부 공격자가 자동차 네트워크에 접근하여 차량 제어를 장악하거나, 개인 정보를 탈취하는 등 네트워크 보안 우려를 초래할 수 있다. 본 논문은 CAN에서 발생하는 비정상 메시지를 분석하여, 메시지 발생 주기성 또는 빈도와 데이터 변화량이 비정상 메시지의 탐지에 중요한 요소임을 확인하였다. DBC 디코딩을 통해 CAN 메시지의 구체적인 의미를 해석하였다. 이를 바탕으로 메시지 발생의 주기성과 추이 분석을 위해 GRU 모델을 활용하여 일정 주기 이내에 발생한 메시지에 대해 예측 메시지와 발생한 메시지의 차이(잔차)를 비정상 측도로 이용한 비정상 분류 모델을 제안하고 비정상 메시지의 공격 기법에 대한 다중 분류에는 메시지와 발생 주기, 잔차를 이용한 랜덤 포레스트 모델을 도입하여 다중 분류기로 활용하여 성능 향상을 이루었다. 이 모델은 비정상 메시지 탐지에서 99% 이상의 높은 정확도를 달성하며 기존의 다른 모델보다 우수한 성능을 보여주었다.

스마트폰 다종 데이터를 활용한 딥러닝 기반의 사용자 동행 상태 인식 (A Deep Learning Based Approach to Recognizing Accompanying Status of Smartphone Users Using Multimodal Data)

  • 김길호;최상우;채문정;박희웅;이재홍;박종헌
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.163-177
    • /
    • 2019
  • 스마트폰이 널리 보급되고 현대인들의 생활 속에 깊이 자리 잡으면서, 스마트폰에서 수집된 다종 데이터를 바탕으로 사용자 개인의 행동을 인식하고자 하는 연구가 활발히 진행되고 있다. 그러나 타인과의 상호작용 행동 인식에 대한 연구는 아직까지 상대적으로 미진하였다. 기존 상호작용 행동 인식 연구에서는 오디오, 블루투스, 와이파이 등의 데이터를 사용하였으나, 이들은 사용자 사생활 침해 가능성이 높으며 단시간 내에 충분한 양의 데이터를 수집하기 어렵다는 한계가 있다. 반면 가속도, 자기장, 자이로스코프 등의 물리 센서의 경우 사생활 침해 가능성이 낮으며 단시간 내에 충분한 양의 데이터를 수집할 수 있다. 본 연구에서는 이러한 점에 주목하여, 스마트폰 상의 다종 물리 센서 데이터만을 활용, 딥러닝 모델에 기반을 둔 사용자의 동행 상태 인식 방법론을 제안한다. 사용자의 동행 여부 및 대화 여부를 분류하는 동행 상태 분류 모델은 컨볼루션 신경망과 장단기 기억 순환 신경망이 혼합된 구조를 지닌다. 먼저 스마트폰의 다종 물리 센서에서 수집한 데이터에 존재하는 타임 스태프의 차이를 상쇄하고, 정규화를 수행하여 시간에 따른 시퀀스 데이터 형태로 변환함으로써 동행 상태분류 모델의 입력 데이터를 생성한다. 이는 컨볼루션 신경망에 입력되며, 데이터의 시간적 국부 의존성이 반영된 요인 지도를 출력한다. 장단기 기억 순환 신경망은 요인 지도를 입력받아 시간에 따른 순차적 연관 관계를 학습하며, 동행 상태 분류를 위한 요인을 추출하고 소프트맥스 분류기에서 이에 기반한 최종적인 분류를 수행한다. 자체 제작한 스마트폰 애플리케이션을 배포하여 실험 데이터를 수집하였으며, 이를 활용하여 제안한 방법론을 평가하였다. 최적의 파라미터를 설정하여 동행 상태 분류 모델을 학습하고 평가한 결과, 동행 여부와 대화 여부를 각각 98.74%, 98.83%의 높은 정확도로 분류하였다.