• 제목/요약/키워드: F1-스코어

검색결과 23건 처리시간 0.023초

규칙기반 데이터 증강기법을 활용한 한국어 증상발화 데이터 구축 (Construction of Korean symptom articulation data using rule-based data augmentation technique)

  • 전성원;이동준;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.360-362
    • /
    • 2023
  • 건강정보 검색 요구가 증가하면서 다양한 건강정보 검색 서비스가 제공되고 있다. 하지만 최근의 건강정보 검색 서비스는 정형화 된 전문적인 의료정보와 그 해석을 제공하기 때문에 사용자는 이러한 정보를 스스로 이해하여 원하는 건강정보를 검색해야 한다. 사용자의 검색 피로를 줄이고 원하는 정보를 정확하게 얻을 수 있는 건강정보 검색 시스템 개발을 위하여 사용자의 비의료적 표현인 한국어 증상발화 데이터 구축이 선행되어야 한다. 이러한 데이터 구축은 많은 시간과 비용이 필요하기 때문에 이를 줄이기 위한 규칙기반 데이터 증강기법을 제시하고, 이를 활용하여 한국어 증상발화 데이터를 증강하였다. 증강된 데이터의 유효성을 보이기 위하여 KoBERT 기반의 증상분류 실험을 진행하였으며, 증강된 데이터가 그 전의 데이터보다 F1 스코어가 더 높음을 확인할 수 있었다.

웨이블릿 변환 기반 CNN을 활용한 무선 신호 분류 (Classification of Radio Signals Using Wavelet Transform Based CNN)

  • 송민석;임재성;이민우
    • 한국정보통신학회논문지
    • /
    • 제26권8호
    • /
    • pp.1222-1230
    • /
    • 2022
  • 다양한 변조 기법을 사용하여 저피탐 능력을 갖춘 신호원들이 증가하면서, 신호의 변조 방식을 분류하는 연구가 꾸준히 진행되고 있다. 최근 신호 간섭이나 잡음 환경에서 수신 신호 분류의 성능 개선을 위하여 전처리 과정으로 FFT를 이용하는 CNN(Convolutional Neural Network) 딥러닝 기법이 제안되었다. 하지만 윈도우가 고정되는 FFT의 특성상 탐지 신호의 시간에 따른 변화를 정확히 분류해내지 못한다. 따라서 본 논문에서는 시간 영역과 주파수 영역에서 높은 해상도를 가지고 또한 다양한 유형의 신호를 시간 및 주파수 영역에서 동시에 표현할 수 있는 웨이블릿 변환(wavelet transform)을 전처리 과정으로 사용하는 CNN 모델을 제안한다. 시뮬레이션을 통해 제안하는 웨이블릿 변환 방식이 FFT 변환 방식에 비해 정확도와 학습 속도 측면에서 SNR 변화에 무관하게 우수한 성능을 보이고, 특히 낮은 SNR일 때 더욱 큰 차이를 보임을 입증하였다.

특징 매칭을 이용한 페어와이즈 어텐션 강화 모델에 대한 연구 (Research on Pairwise Attention Reinforcement Model Using Feature Matching)

  • 임준식;주영석
    • 전기전자학회논문지
    • /
    • 제28권3호
    • /
    • pp.390-396
    • /
    • 2024
  • Vision Transformer(ViT)는 패치 간의 관계를 학습하지만, 색상, 질감, 경계와 같은 중요한 특징을 간과할 경우 의료 분야나 얼굴 인식 등에서 성능 한계가 발생할 수 있다. 이를 해결하기 위해 본 연구에서는 Pairwise Attention Reinforcement(PAR) 모델을 제안한다. PAR 모델은 학습 이미지와 참조 이미지를 인코더에 입력하여 두 이미지 간의 유사성을 계산한 후, 높은 유사성을 보이는 이미지 어텐션 스코어 맵을 매칭하여 학습 이미지의 매칭 영역을 강화한다. 이를 통해 이미지 간의 중요한 특징이 강조되며, 미세한 차이도 구별할 수 있다. 시계 그리기 검사 데이터를 사용한 실험에서 PAR 모델은 Precision 0.9516, Recall 0.8883, F1-Score 0.9166, Accuracy 92.93%를 기록하였다. 본 모델은 Pairwise Attention 방식을 이용한 API-Net 대비 12% 성능이 향상되었으며, ViT 모델 대비 2%의 성능 향상을 보였다.

화학물질 사고 현황 및 사례 데이터를 이용한 인공지능 사고 원인 예측 모델에 관한 연구 (A Study on Artificial Intelligence Models for Predicting the Causes of Chemical Accidents Using Chemical Accident Status and Case Data)

  • 이경현;백락준;정혜성;김우수;최희정
    • 문화기술의 융합
    • /
    • 제10권5호
    • /
    • pp.725-733
    • /
    • 2024
  • 본 연구는 환경부 산하 화학물질안전원에서 제공하는 2014년 1월부터 2024년 1월까지의 화학물질 사고 현황 및 사례 데이터 865건을 활용하여 인공지능 기반 사고 원인 예측 모델을 개발하는 것을 목표로 한다. 본 연구에서는 6개의 인공지능 모델을 사용해 데이터를 학습시키고, 평가지표로는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 스코어(F1 Score)를 비교 분석하였다. 2020년부터 2024년까지의 화학물질 사고 사례 데이터 356건을 바탕으로, 2021년부터 2022년까지 화학물질안전원에서 제시한 화학사고 원인 조사 및 유사 사고 재발 방지 방안을 추가로 학습 데이터셋에 적용했다. 다층 퍼셉트론(Multi-Layer Perceptron) 모델의 경우 정확도 0.6590, 정밀도 0.6821로 분석되었고, 로지스틱 회귀(Logistic Regression) 모델은 정확도는 0.6647에서 0.7778로, 정밀도는 0.6790에서 0.7992로 향상되어 로지스틱 회귀 모델이 화학사고 원인 예측에 가장 효과적임을 확인하였다.

Performance Comparison of Neural Network and Gradient Boosting Machine for Dropout Prediction of University Students

  • Hyeon Gyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.49-58
    • /
    • 2023
  • 학생들의 중도 탈락은 대학의 재정적 손실 뿐 아니라, 학생 개개인 및 사회적으로도 부정적인 영향을 끼친다. 이러한 문제를 해결하기 위해 기계 학습을 이용하여 대학생들의 중도 탈락 여부를 예측하고자 하는 다양한 시도가 이루어지고 있다. 본 논문에서는 대학생들의 중도 탈락 여부를 예측하기 위해 DNN(Deep Neural Network)과 LGBM(Light Gradient Boosting Machine)을 이용한 모델을 구현하고 성능을 비교하였다. 학습 데이터로는 서울 소재 중소규모 4년제 대학인 A 대학의 20,050명의 학생을 대상으로 수집된 학적 및 성적 데이터를 학습에 이용하였다. 원본 데이터의 140여개의 속성 중 중도 탈락 여부를 나타내는 속성과의 상관계수가 0.1 이상인 속성들만 추출하여 학습하였다. 두 모델의 성능 실험 결과, DNN과 LGBM의 F1-스코어는 0.798과 0.826이었으며, LGBM이 DNN에 비해 2.5% 나은 예측 성능을 보였다.

Unet-VGG16 모델을 활용한 순환골재 마이크로-CT 미세구조의 천연골재 분할 (Segmentation of Natural Fine Aggregates in Micro-CT Microstructures of Recycled Aggregates Using Unet-VGG16)

  • 홍성욱;문덕기;김세윤;한동석
    • 한국전산구조공학회논문집
    • /
    • 제37권2호
    • /
    • pp.143-149
    • /
    • 2024
  • 이미지 분석을 통한 재료의 상 구분은 재료의 미세구조 분석을 위해 필수적이다. 이미지 분석에 주로 사용되는 마이크로-CT 이미지는 대체로 재료를 구성하고 있는 상에 따라 회색조 값이 다르게 나타나므로 이미지의 회색조 값 비교를 통해 상을 구분한다. 순환골재의 고체상은 수화된 시멘트풀과 천연골재로 구분되는데, 시멘트풀과 천연골재는 CT이미지 상에서 유사한 회색조 분포를 보여 상을 구분하기 어렵다. 본 연구에서는 Unet-VGG16 네트워크를 활용하여 순환골재 CT 이미지로부터 천연골재를 분할하는 자동화 방법을 제안하였다. 딥러닝 네트워크를 활용하여 2차원 순환골재 CT 이미지로부터 천연골재 영역을 분할하는 방법과 이를 3차원으로 적층하여 3차원 천연골재 이미지를 얻는 방법을 제시하였다. 선별된 3차원 천연골재 이미지에서 각각의 골재 입자를 분할하기 위해 이미지 필터링을 사용하였다. 골재 영역 분할 성능을 정확도, 정밀도, 재현율 F1 스코어를 통해 검증하였다.

사회문제 해결 연구보고서 기반 문장 의미 식별 데이터셋 구축 (Building Sentence Meaning Identification Dataset Based on Social Problem-Solving R&D Reports)

  • 신현호;정선기;전홍우;권이남;이재민;박강희;최성필
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.159-172
    • /
    • 2023
  • 일반적으로 사회문제 해결 연구는 과학기술을 활용하여 다양한 사회적 현안들에 의미있는 해결 방안을 제시함으로써 중요한 사회적 가치를 창출하는 것을 연구 목표로 한다. 그러나 사회문제와 쟁점을 완화하기 위하여 많은 연구들이 국가적으로 수행되었음에도 불구하고 여전히 많은 사회문제가 남아 있는 상황이다. 사회문제 해결 연구의 전 과정을 원활하게 하고 그 효과를 극대화하기 위해서는 사회적으로 시급한 현안들에 대한 문제를 명확하게 파악하는 것이 중요하다. 사회문제 해결과 관련된 기존 R&D 보고서와 같은 자료에서 중요한 사안을 자동으로 식별할 수 있다면 사회문제 파악 단계가 크게 개선될 수 있다. 따라서 본 논문은 다양한 국가 연구보고서에서 사회문제와 해결방안을 자동으로 감지하기 위한 기계학습 모델을 구축하는 데에 필수적인 데이터셋을 제안하고자 한다. 우선 데이터를 구축하기 위해 사회문제와 쟁점을 다룬 연구보고서를 총 700건 수집하였다. 수집된 연구보고서에서 사회문제, 목적, 해결 방안 등 사회문제 해결과 관련된 내용이 담긴 문장을 추출 후 라벨링을 수행하였다. 또한 4개의 사전학습 언어모델을 기반으로 분류 모델을 구현하고 구축된 데이터셋을 통해 일련의 성능 실험을 수행하였다. 실험 결과 KLUE-BERT 사전학습 언어모델을 미세조정한 모델이 정확도 75.853%, F1 스코어 63.503%로 가장 높은 성능을 보였다.

Reproducing Summarized Video Contents based on Camera Framing and Focus

  • Hyung Lee;E-Jung Choi
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.85-92
    • /
    • 2023
  • 본 논문에서는 장편의 드라마나 영화에서 스토리 기반의 축약된 요약본을 자동으로 제작하기 위한 방법을 제안한다. 촬영 단계에서 황금분할을 고려한 공간감 있는 프레임 구성과 내용 전달 차원에서 시청자들의 시선을 집중시키기 위한 관심 대상에 대한 초점을 기본 전제로 했다. 이에 적정한 프레임들을 추출하기 위한 방법을 고려하기 위해서 기존의 씬(scene) 및 숏(shot) 검출에 대한 연구, 초점과 관련된 블러 정도를 파악하는 연구들에서 활용되었던 요소 기술들을 활용했다. 유튜브에서 공유되는 영상을 프레임 단위로 변환한 후 프레임별로 특징을 추출하기 위한 영역으로 프레임 전체 영역과 3개의 부분 영역으로 구분했고, 해당 영역별로 각각 라플라시안 연산자와 FFT를 적용한 결과들을 비교하여 상대적으로 일관성 있고 강건한 FFT를 선택했다. 프레임 전체에 대한 계산값과 3개 영역의 계산값들을 비교하여 상대적으로 선명한 영역을 확인할 수 있는 조건을 기반으로 대상 프레임을 선별했다. 이렇게 선별된 결과를 토대로 숏 내에서 프레임들의 연속성을 확보하기 위해 오프라인 변화점 탐지기법을 적용한 결과와 접목시켜 최종 프레임들을 추출했고, 이를 기반으로 편집결정리스트를 구성하였으며, F1-스코어 75.9%를 갖는 62.77%로 축약된 요약본을 제작했다.

마이터 어택과 머신러닝을 이용한 UNSW-NB15 데이터셋 기반 유해 트래픽 분류 (Malicious Traffic Classification Using Mitre ATT&CK and Machine Learning Based on UNSW-NB15 Dataset)

  • 윤동현;구자환;원동호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.99-110
    • /
    • 2023
  • 본 연구는 현 보안 관제 시스템이 직면한 실시간 트래픽 탐지 문제를 해결하기 위해 사이버 위협 프레임워크인 마이터 어택과 머신러닝을 이용하여 유해 네트워크 트래픽을 분류하는 방안을 제안하였다. 마이터 어택 프레임워크에 네트워크 트래픽 데이터셋인 UNSW-NB15를 적용하여 라벨을 변환 후 희소 클래스 처리를 통해 최종 데이터셋을 생성하였다. 생성된 최종 데이터셋을 사용하여 부스팅 기반의 앙상블 모델을 학습시킨 후 이러한 앙상블 모델들이 다양한 성능 측정 지표로 어떻게 네트워크 트래픽을 분류하는지 평가하였다. 그 결과 F-1 스코어를 기준으로 평가하였을 때 희소 클래스 미처리한 XGBoost가 멀티 클래스 트래픽 환경에서 가장 우수함을 보였다. 학습하기 어려운 소수의 공격클래스까지 포함하여 마이터 어택라벨 변환 및 오버샘플링처리를 통한 머신러닝은 기존 연구 대비 차별점을 가지고 있으나, 기존 데이터셋과 마이터 어택 라벨 간의 변환 시 완벽하게 일치할 수 없는 점과 지나친 희소 클래스 존재로 인한 한계가 있음을 인지하였다. 그럼에도 불구하고 B-SMOTE를 적용한 Catboost는 0.9526의 분류 정확도를 달성하였고 이는 정상/비정상 네트워크 트래픽을 자동으로 탐지할 수 있을 것으로 보인다.

로지스틱 회귀, 랜덤포레스트, LSTM 기법을 활용한 서리예측모형 평가 (Comparative assessment of frost event prediction models using logistic regression, random forest, and LSTM networks)

  • 전종안;이현주;임슬희;김대하;백상수
    • 한국수자원학회논문집
    • /
    • 제54권9호
    • /
    • pp.667-680
    • /
    • 2021
  • 이 연구의 목적은 서리 발생일과 무상일 기간의 특성을 분석하고 로지스틱 회귀, 랜덤 포레스트, Long-short Term Memory (LSTM) 기법을 활용하여 서리발생 예측모델을 개발하고 평가하는데 있다. 수원, 청주, 광주 지점에서 봄철과 가을철 서리발생 예측모델 개발을 위한 기상변수들을 수집하였으며, 수집기간은 1973년부터 2019년까지이다. 프리시전(precision), 리콜(Recall), f-1 스코어와, AUC 및 Reliability Diagram과 같은 그래피컬 평가기법을 이용해 서리발생 예측모델을 평가하였다. 봄철과 가을철 모두 서리발생일이 줄어드는 경향성(유의수준: 0.01)을 보였다. 0.9 이상의 높은 AUC 값에도 불구하고, 신뢰도는 일정한 값을 보여주지는 않았다. 서리발생일 측뿐만 아니라, 초상일과 종상일을 정확히 예측할 수 있도록 모형 개선이 필요해 보이며, 다른 지역의 더 많은 지점에서 동일한 기법을 적용해 보는 연구가 필요해 보인다.