• 제목/요약/키워드: 로지스틱 회귀 모델

검색결과 194건 처리시간 0.026초

기계학습을 활용한 도로비탈면관리시스템 데이터 품질강화에 관한 연구 (The Study for Improvement of Data-Quality of Cut-Slope Management System Using Machine Learning)

  • 이세혁;김승현;우용훈;문재필;양인철
    • 지질공학
    • /
    • 제31권1호
    • /
    • pp.31-42
    • /
    • 2021
  • 도로비탈면관리시스템(Cut-Slope Management System, CSMS)은 전국 일반국도 비탈면에 대해 기초·정밀 조사를 바탕으로 데이터베이스를 구축해왔다. 그런데 이러한 데이터는 사람에 의해 기록되기 때문에 데이터 누락 및 오기입 문제가 발생할 수밖에 없다. 본 연구에서는 데이터의 불완전성 문제를 극복하기 위해 여러 머신러닝 기반의 예측모델들을 개발하고 이를 이용한 데이터 품질 강화 가능성을 검토하고자 하였다. 우선 다 범주 문자형 데이터를 수치화하는 과정을 수행하였고, 선정된 데이터 항목들에 대해 다항 로지스틱 회귀분석(Multinomial Logistic Regression)과 심층신경망(Deep-Neural-Network) 기반의 예측모델들을 개발하였다. 그 결과, 심층신경망 모델들의 정확도가 월등히 높은 것으로 나타났다. 향후 개발된 모델들을 활용하여 누락 및 오기입 데이터의 보완이 가능할 것으로 기대된다.

머신러닝을 이용한 지하철 고장 탐지 및 예측 (Detection and Prediction of Subway Failure using Machine Learning)

  • 성국경
    • 산업과 과학
    • /
    • 제2권4호
    • /
    • pp.11-16
    • /
    • 2023
  • 지하철은 현대 도시의 교통 체계에서 중요한 역할을 하는 대중 교통 수단이다. 하지만, 갑작스런 고장 및 시스템 불통 등의 이유로 혼잡을 야기시키는 경우가 종종 발생하여 불편을 초래하고 있다. 따라서, 본 논문에서는 지하철 시스템의 효율적 운영을 위해 머신러닝을 활용한 고장 예측 및 예방 연구를 진행하였다. UC Irvine의 MetroPT-3 데이터셋을 활용하고, 로지스틱 회귀를 이용하여 지하철 고장 예측 모델을 구축하였다. 모델은 0.991의 높은 정확도로 비고장 상태를 예측하나, 정밀도와 재현율은 상대적으로 낮아 고장 예측에 있어 오류 가능성을 시사하고 있다. ROC_AUC 값이 0.901로, 모델이 무작위 추측보다 뛰어난 분류를 할 수 있다. 구축한 모델은 지하철 시스템의 안정적인 운영 운영에 유용하나, 성능 개선을 위한 추가 연구가 필요하다고 생각한다. 따라서 학습 데이터가 많고 데이터의 정제가 잘 이루어진다면 고장 예측을 통해 사전 점검을 하여 예방할 수 있다.

데이터 마이닝의 지도학습 기법 성능향상을 위한 불일치 패턴 모델 (Inconsistent Pattern Model for Improving the Performance of Supervised Learning in Data Mining)

  • 허준;김종우
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2007년도 추계학술대회 및 정기총회
    • /
    • pp.288-305
    • /
    • 2007
  • 본 논문은 데이터 마이닝의 기법 중 가장 잘 알려진 지도학습 기법의 성능 향상을 위한 새로운 Hybrid 및 Combined 기법인 불일치 패턴 모델(오차 패턴 모델)에 대한 연구 논문이다. 불일치 패턴 모델이란 2개 이상의 기법 중 향후 더 레코드별로 더 잘 맞출 수 있는 기법을 메타 분류하는 불일치 패턴 모델을 개발하여, 최종적으로는 기존의 기법보다 더 좋은 분류 정확도 및 예측 향상율을 기대하기 위한 기법을 의미한다. 본 논문에서는 의사 결정나무 추론 기법인 C5.0과 C&RT 그리고 신경망 분석, 그리고 로지스틱 회귀분석과 같은 대표적인 데이터 마이닝의 지도학습 기법을 이용하여 불일치 패턴 모델을 생성하여 보고, 이들이 기존 단일 기법과 기존의 Combined 모델인 Bagging, Boosting 그리고 Stacking 기법보다 성능이 우수함을 23개의 실제 데이터 및 공신력 있는 공개 데이터를 이용하여 증명하여 보였다. 또한 데이터의 특성에 따라서 불일치 패턴 모델의 성능의 변화 및 더 우수해 지는지를 알아보기 위한 연구포 같이 수행을 하여 본 모델의 활용성을 높이고자 하였다.

  • PDF

로지스틱 회귀, 랜덤포레스트, LSTM 기법을 활용한 서리예측모형 평가 (Comparative assessment of frost event prediction models using logistic regression, random forest, and LSTM networks)

  • 전종안;이현주;임슬희;김대하;백상수
    • 한국수자원학회논문집
    • /
    • 제54권9호
    • /
    • pp.667-680
    • /
    • 2021
  • 이 연구의 목적은 서리 발생일과 무상일 기간의 특성을 분석하고 로지스틱 회귀, 랜덤 포레스트, Long-short Term Memory (LSTM) 기법을 활용하여 서리발생 예측모델을 개발하고 평가하는데 있다. 수원, 청주, 광주 지점에서 봄철과 가을철 서리발생 예측모델 개발을 위한 기상변수들을 수집하였으며, 수집기간은 1973년부터 2019년까지이다. 프리시전(precision), 리콜(Recall), f-1 스코어와, AUC 및 Reliability Diagram과 같은 그래피컬 평가기법을 이용해 서리발생 예측모델을 평가하였다. 봄철과 가을철 모두 서리발생일이 줄어드는 경향성(유의수준: 0.01)을 보였다. 0.9 이상의 높은 AUC 값에도 불구하고, 신뢰도는 일정한 값을 보여주지는 않았다. 서리발생일 측뿐만 아니라, 초상일과 종상일을 정확히 예측할 수 있도록 모형 개선이 필요해 보이며, 다른 지역의 더 많은 지점에서 동일한 기법을 적용해 보는 연구가 필요해 보인다.

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

예측소음도를 이용한 어노이언스 예측모델을 위한 로지스틱 회귀분석의 적용방법 (Application Method of Logistic Regression Analysis for Annoyance Prediction Model Based on Predicted Noise Level)

  • 손진희;이건;정태량;장서일
    • 한국소음진동공학회논문집
    • /
    • 제20권6호
    • /
    • pp.555-561
    • /
    • 2010
  • Predicted noise level has been used to assess the annoyance response since noise map was generalized and being the normal method to assess the environmental noise. Unfortunately using predicted noise level to derive the annoyance prediction curve caused some problems. The data have to be grouped manually to use the annoyance prediction curve. The aim of this paper is to propose the method to handle the predicted noise level and the survey data for annoyance prediction curve. This paper used the percentage of persons annoyed(%A) and the percentage of persons highly annoyed as the descriptor of noise annoyance in a population. The logistic regression method was used for deriving annoyance prediction curve. It is concluded that the method of dichotomizing data and logistic regression was suitable to handle the predicted noise level and survey data.

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함 되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

신경망 기반의 소프트웨어 개발노력 추정모델 구축에 관한 연구 (Software Development Effort Estimation Using Neural Network Model)

  • 김병관;백승익
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2005년도 춘계학술대회
    • /
    • pp.372-380
    • /
    • 2005
  • 소프트웨어 개발노력 추정에 대한 연구는 소프트웨어가 복잡해지고 범위가 크게 증가함에 따라서 그 중은 지속적으로 부각되고 있다. 관련 프로젝트를 발주하는 업체나, 이를 수주하고 개발을 진행하는 업체에게 원가를 고려하는 측면에서 매우 중요한 부분을 차지하고 있다. 이러한 개발노력 추정을 위하여 다양한 접근 방식들이 고려되어지고 있는데, 그중에서 많이 활용되어지고 있는 방식은 소프트웨어 규모에 기반을 둔 LOC(Line Of Code) 기반 COCOMO (Constructive Cost Model) 모델이나 기능점수(Function Point)를 기반으로 한 회귀분석 모델, 인공지능(Artificial Intelligence)을 활용한 신경망(Neural Network) 모델, 사례분석기법 (CBR, Case Based Reasoning) 등이 있다. 이중에서 최근에 기능점수를 활용한 개발노력 추정에 관한 연구들이 활발히 진행되고 있으나 개발노력 추정에는 소프트웨어 규모의 척도인 기능점수 뿐만 아니라, 개발환경을 구성하는 여러 가지 측면에 대한 고려가 추가되어져야 한다. 이에 본 논문은 최신의 소프트웨어 개발 사례들에 대하여 기능점수 및 추가적인 개발환경 요소들을 면밀히 분석하고, 분석한 내용에 대해서 전문가들의 설문을 통한 빈도분석 및 로지스틱 회귀분석, 데이터마이닝 기법인 신경망 분석 등을 활용하여 개발노력 추정 모델을 구축함으로써, 소프트웨어 개발의 다양한 측면의 중요성을 강조하고, 정확한 추정의 방안을 제시 하고자 노력 하였다.

  • PDF

신경망 모형의 초기가중치 최적화 방법에 관한 연구

  • 조용준;이용구
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.19-24
    • /
    • 2003
  • 신경망은 적용 다양성과 제약조건의 최소성, 강력한 예측성, 범용성, 근사성 등 많은 장점을 지니고 있으나 초기 가중치의 할당에 따라 모델 생성의 Performance와 예측의 결과가 달라지게 되는 단점을 지니고 있다. 이런 신경망의 초기 가중치에 따른 단점을 보안하기 위해 통계적 알고리즘의 접목을 통해 Hybrid된 신경망 보완 알고리즘을 제시하고자 하였다. 논문을 위한 기본 가정으로 신경망의 가장 기본인 SLP 알고리즘을 바탕으로 활성함수에 가장 일반적으로 사용되는 Sigmoid 활성함수를 이용하였을 때, 초기 가중치로 기존의 임의 난수 생성 방식이 아닌 통계적 로지스틱 회귀분석의 계수값(mle)을 제시하여 이를 초기치로 사용한 경우와 그렇지 않은 경우의 예측 정확성과 수렴의 Performance정도를 비교하여 가장 효과적인 초기치 방법을 제시하고자 하였다.

  • PDF

언어모델도 남녀유별을 아는가? - 'Fill-Mask' 태스크로 보는 성별과 직업의 관계 (Do language models know the distinctions between men and women? An insight into the relationships between gender and profession Through "Fill-Mask" task)

  • 비립;최재현;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-9
    • /
    • 2022
  • 본연구는 한국어 언어모델 트레이닝 단계에서 자주 사용되는 Fill-Mask 태스크와 직업 관련 키워드로 구성되는 각종 성별 유추 템플릿을 이용해 한국어 언어모델에서 발생하는 성별 편향 현상을 정량적으로 검증하고 해석한다. 결과를 봤을 때 현재 직업 키워드에서 드러나는 성별 편향은 각종 한국어 언어모델에서 이미 학습된 상태이며 이를 해소하거나 차단하는 방법을 마련하는 것이 시급한 과제이다.

  • PDF