• 제목/요약/키워드: 확률러닝

검색결과 101건 처리시간 0.018초

Patent Keyword Analysis using Gamma Regression Model and Visualization

  • Jun, Sunghae
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.143-149
    • /
    • 2022
  • 특허문서는 연구 개발된 기술에 대한 상세한 결과를 포함하고 있기 때문에 효과적인 기술분석을 위한 다양한 특허분석 방법에 대한 연구가 진행되고 있다. 특히 통계학과 머신러닝 알고리즘에 의한 정량적인 특허분석에 대한 연구가 최근 활발하게 이루어지고 있다. 정량적 특허분석에서 가장 많이 사용되는 특허 데이터는 기술 키워드이다. 기술 키워드 데이터를 분석하는 기존의 방법은 대부분 음의 무한대부터 양의 무한대까지 실수 공간 전체를 확률변수의 값으로 갖는 가우시안 확률분포에 기반한 모형이었다. 본 논문에서는 이론적으로 0부터 양의 무한대까지의 값을 갖는 특허 키워드의 빈도 데이터를 분석하기 위하여 감마 확률분포를 활용한 모형을 제안한다. 또한 감마 회귀모형의 회귀방정식을 결정하기 위하여 키워드 간의 기술 연관성을 시각화하는 2-모드 네트워크를 구축한다. 제안 방법과 기존의 가우시안 기반의 분석모형 간의 성능평가를 위하여 실제 특허 데이터를 수집하여 분석한다.

양식뱀장어 생산단계 안전성 조사를 위한 베이지안 네트워크 모델의 적용 (Application of Bayesian network for farmed eel safety inspection in the production stage)

  • 조승용
    • 한국식품저장유통학회지
    • /
    • 제30권3호
    • /
    • pp.459-471
    • /
    • 2023
  • 뱀장어 생산단계 안전성조사 부적합여부에 영향을 미치는 특성변수를 베이지안 네트워크(BN) 모델을 적용하여 분석하였다. 2012년부터 2021년까지의 통합식품안전정보망(IFSIN)의 뱀장어 생산단계 안전성조사 데이터에 양식장의 HACCP 정보, 지리적 정보 및 용수환경 데이터를 연계하여 BN 모델을 수립하였다. 뱀장어의 부적합여부에 영향을 주는 특성변수로 양식장의 HACCP 인증여부, 양식장의 이전 5년간 검사대상 유해물질의 검출여부, 해당 양식장의 이전 5년간 부적합적발이력, 사용되는 용수환경의 적정성이 제안되었으며, 이때 용수환경의 적정성은 총대장균군과 총유기탄소량으로부터 산출되었다. 뱀장어 부적합이 발생할 확률이 가장 높은 경우는 지난 5년간 검사대상 유해물질의 검출이력이 있으면서 동시에 부적합 적발 이력이 있는 HACCP 인증을 받지 않은 양식장으로서, 용수환경도 총대장균군 또는 총유기탄소가 높아 오염이 의심되는 용수를 사용하는 경우로 이때 부적합이 발생할 확률은 24.5%로 뱀장어 생산단계 안전성 조사 시 부적합률인 0.26%의 94배 높았다. 2022년 1월부터 8월까지 뱀장어 양식장 안전성조사 결과를 시험용 데이터세트(6,785건 중 부적합 15건)로 하여 BN 모델의 적정성을 검토하였다. 영향강도가 높았던 설명변수인 HACCP, 검출이력, 부적합이력으로 구성한 BN 모델을 시험용 데이터세트에 적용한 결과 부적합일 확률이 15.8%로 시험용데이터의 부적합률인 0.22%의 약 71.4배 개선할 수 있었다. 그러나 이 모델의 재현율은 0.2에 머물렀는데, 이는 특히 부적합항목인 유해물질의 기준·규격이 신설되어 해당 양식장에서 검사기록이 없는 경우와, 매우 드물게 발생하여 10년 동안 검출이력이 없어 학습데이터세트에는 없는 경우이었다. 베이지안 네트워크를 적용하여 부적합확률이 높은 생산단계 안전성 조사대상을 선정하게 되면 설명변수별로 시나리오에 따라 부적합확률을 설명가능하게 되어 다른 머신러닝 알고리즘을 적용하는 경우 지적되어온 설명불가능이라는 문제점을 해소할 수 있으며, 향후 안전성조사 데이터 축적 시 용이하게 모델 업데이트가 가능하며 이를 통해 모델의 예측성능개선도 기대할 수 있다는 장점이 있다.

머신러닝기반 범죄발생 위험지역 예측 (Predicting Crime Risky Area Using Machine Learning)

  • 허선영;김주영;문태헌
    • 한국지리정보학회지
    • /
    • 제21권4호
    • /
    • pp.64-80
    • /
    • 2018
  • 우리나라의 시민들은 범죄에 대한 일반적인 사항만을 알 수 있을 뿐, 자신이 범죄위험에 얼마나 노출되어 있는지를 파악하기 어렵다. 경찰의 입장에서도 범죄발생 지역을 예측할 수 있다면 경찰력이 부족한 상황에서 효율성 있게 범죄에 대처 가능할 것이지만 아직 우리나라에서는 예측시스템이 없고, 관련 연구도 매우 부족한 실정이다. 이에 본 연구에서는 범죄발생 위험지역 예측 자동화 시스템 개발의 첫 번째 단계로 빅데이터로 구축 가능한 범죄정보와 도시지역 자료를 바탕으로 머신러닝 방식을 통해 한국형 범죄발생 위험지역 예측 모형을 개발하고자 한다. 또한 시나리오를 가정하여 범죄발생 확률을 지도로 시각화함으로써 사용자의 이해도를 높이도록 하였다. 선행 연구 및 사례에서 범죄발생에 영향을 미치는 요인 중 빅데이터로 구축 가능한 범죄정보, 날씨정보(기온, 강수량, 풍속, 습도, 일조, 일사, 적설, 전운량), 지역정보(평균 건폐율, 평균 용적율, 평균 높이, 총 건축물수, 평균 공시지가, 평균 주거용도면적, 평균 지상층수)를 머신러닝에 활용할 수 있도록 데이터를 사전 처리하였다. 머신러닝 알고리즘으로서 지도학습 모형 중 다양한 분야에서 활용되며 정확도가 높다고 알려진 의사결정나무모형, 랜덤포레스트모형, Support Vector Machine(SVM)모형을 활용하여 범죄 예측 모형을 구축하고 비교 분석하였다. 그 결과 평균 제곱근 오차(Root Mean Square Error, RMSE)가 낮아 예측력이 높은 의사결정나무모형을 최적모형으로 선정하였다. 이를 바탕으로 가장 빈번하게 발생하는 절도와 폭력범죄를 대상으로 시나리오를 작성하여 범죄 발생 위험지역을 예측한 결과, 사례도시 J시는 위험지역이 3가지 패턴으로 발생하는 것으로 나타났으며, 각각 발생확률을 3 등급으로 구분하여 $250{\times}250m$ 단위의 지도형태로 시각화할 수 있었다. 본 연구는 향후 자동화 시스템으로 개발하여 시시각각으로 변하는 도시 상황에 따라 실시간으로 예측 결과를 시각화하여 제공함으로써 보다 범죄로부터 안전한 도시환경 조성에 기여하고자 한다.

KACTEIL-NER: 딥러닝과 앙상블 기법을 이용한 개체명 인식기 (KACTEIL-NER: Named Entity Recognizer Using Deep Learning and Ensemble Technique)

  • 박건우;박성식;장영진;최기현;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.324-326
    • /
    • 2017
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간 등과 같은 고유한 의미를 갖는 단어 열을 찾아 범주를 부착하는 기술이다. 기존의 연구에서는 단어 단위나 음절 단위를 입력으로 사용하였다. 하지만 단어 단위의 경우 미등록어 처리가 어려우며 음절 단위의 경우 단어 고유의 의미가 희석되는 문제가 발생한다. 이러한 문제들을 해결하기 위해 본 논문에서는 형태소 단위 개체명 인식기와 음절 단위 개체명 인식기를 앙상블하여 보정된 결과를 예측하는 개체명 인식기를 제안한다. 제안된 모델은 각각의 단일 입력 모델보다 향상된 F1-점수(0.8049)를 보였다.

  • PDF

KACTEIL-NER: 딥러닝과 앙상블 기법을 이용한 개체명 인식기 (KACTEIL-NER: Named Entity Recognizer Using Deep Learning and Ensemble Technique)

  • 박건우;박성식;장영진;최기현;김학수
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.324-326
    • /
    • 2017
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간 등과 같은 고유한 의미를 갖는 단어 열을 찾아 범주를 부착하는 기술이다. 기존의 연구에서는 단어 단위나 음절 단위를 입력으로 사용하였다. 하지만 단어 단위의 경우 미등록어 처리가 어려우며 음절 단위의 경우 단어 고유의 의미가 희석되는 문제가 발생한다. 이러한 문제들을 해결하기 위해 본 논문에서는 형태소 단위 개체명 인식기와 음절 단위 개체명 인식기를 앙상블하여 보정된 결과를 예측하는 개체명 인식기를 제안한다. 제안된 모델은 각각의 단일 입력 모델보다 향상된 F1-점수(0.8049)를 보였다.

  • PDF

문맥 표현 기반 한국어 영화평 감성 분석 (Contextualized Embedding-based Korean Movie Review Sentiment Analysis)

  • 박천음;김건영;황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-78
    • /
    • 2018
  • 감성 분석은 특정 대상에 대한 의견을 수집하고 분류하는 과정이다. 그러나 자연어에 담김 사람의 주관을 파악하는 일은 어려운 일로써, 기존의 감성 단어 사전이나 확률 모델은 이러한 문제를 해결하기 어려웠으나 딥 러닝의 발전으로 문제 해결을 시도할 수 있게 됐다. 본 논문에서는 사전 학습된 문맥 표현을 한국어 감성 분석에 활용하여 더 높은 성능을 낼 수 있음을 보인다.

  • PDF

Backward LSTM CRF를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling using Backward LSTM CRF)

  • 배장성;이창기;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.194-197
    • /
    • 2015
  • Long Short-term Memory Network(LSTM) 기반 Recurrent Neural Network(RNN)는 순차 데이터를 모델링 할 수 있는 딥 러닝 모델이다. 기존 RNN의 그래디언트 소멸 문제(vanishing gradient problem)를 해결한 LSTM RNN은 멀리 떨어져 있는 이전의 입력 정보를 볼 수 있다는 장점이 있어 음성 인식 및 필기체 인식 등의 분야에서 좋은 성능을 보이고 있다. 또한 LSTM RNN 모델에 의존성(전이 확률)을 추가한 LSTM CRF모델이 자연어처리의 한 분야인 개체명 인식에서 우수한 성능을 보이고 있다. 본 논문에서는 한국어 문장의 지배소가 문장 후위에 나타나는 점에 착안하여 Backward 방식의 LSTM CRF 모델을 제안하고 이를 한국어 의미역 결정에 적용하여 기존 연구보다 더 높은 성능을 얻을 수 있음을 보인다.

  • PDF

STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안 (Noise filtering method based on voice frequency correlation to increase STT efficiency)

  • 임지원;황용해;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

재난 현장 물리적 보안을 위한 딥러닝 기반 요구조자 탐지 알고리즘 (Deep Learning Based Rescue Requesters Detection Algorithm for Physical Security in Disaster Sites)

  • 김다현;박만복;안준호
    • 인터넷정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.57-64
    • /
    • 2022
  • 화재, 붕괴, 자연재해 등의 재난 발생으로 건물 내부가 붕괴하는 경우, 기존의 건물 내부의 물리적 보안이 무력해질 확률이 높다. 이때, 붕괴 건물 내의 인명피해와 물적 피해를 최소화하기 위한 물리적 보안이 필요하다. 따라서 본 논문은 기존 연구되었던 장애물을 탐지하고 건물 내 붕괴된 지역을 탐지하는 연구와 인명피해를 최소화하기 위한 딥러닝 기반 객체 탐지 알고리즘을 융합하여 재난 상황의 피해를 최소화하기 위한 알고리즘을 제안한다. 기존 연구에서 단일 카메라만을 활용하여 현재 로봇이 있는 복도 환경의 붕괴 여부를 판단하고 구조 및 수색 작업에 방해가 되는 장애물을 탐지했다. 이때, 붕괴 건물 내 물체는 건물의 잔해나 붕괴로 인해 비정형의 형태를 가지며 이를 장애물로 분류하여 탐지하였다. 또한, 재난 상황에서 자원 중 가장 중요한 요구조자를 탐지하고 인적 피해를 최소화하기 위한 방법을 제안하고 있다. 이를 위해, 본 연구는 공개된 재난 영상과 재난 상황의 이미지 데이터를 수집하여 다양한 딥러닝 기반 객체 탐지 알고리즘을 통해 재난 상황에서 요구조자를 탐지하는 정확도를 구했다. 본 연구에서 재난 상황에 요구조자를 탐지하는 알고리즘을 분석한 결과 YOLOv4 알고리즘의 정확도가 0.94로 실제 재난 상황에서 활용하기 가장 적합하다는 것을 증명하였다. 본 논문을 통해 재난 상황의 효율적인 수색과 구조에 도움을 주며 붕괴된 건물 내에서도 높은 수준의 물리적 보안을 이룰 수 있을 것이다.

베이지안 확률 및 폐쇄 순차패턴 마이닝 방식을 이용한 설명가능한 로그 이상탐지 시스템 (An Interpretable Log Anomaly System Using Bayesian Probability and Closed Sequence Pattern Mining)

  • 윤지영;신건윤;김동욱;김상수;한명묵
    • 인터넷정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.77-87
    • /
    • 2021
  • 인터넷과 개인용 컴퓨터가 발달하면서 다양하고 복잡한 공격들이 등장하기 시작했다. 공격들이 복잡해짐에 따라 기존에 사용하던 시그니처 기반의 탐지 방식으로 탐지가 어려워졌으며 이를 해결하기 위해 행위기반의 탐지를 위한 로그 이상탐지에 대한 연구가 주목 받기 시작했다. 최근 로그 이상탐지에 대한 연구는 딥러닝을 활용해 순서를 학습하는 방식으로 이루어지고 있으며 좋은 성능을 보여준다. 하지만 좋은 성능에도 불구하고 판단에 대한 근거를 제공하지 못한다는 한계점을 지닌다. 판단에 대한 근거 및 설명을 제공하지 못할 경우, 데이터가 오염되거나 모델 자체에 결함이 발생해도 이를 발견하기 어렵다는 문제점을 지닌다. 결론적으로 사용자의 신뢰성을 잃게 된다. 이를 해결하기 위해 본 연구에서는 설명가능한 로그 이상탐지 시스템을 제안한다. 본 연구는 가장 먼저 로그 파싱을 진행해 로그 전처리를 수행한다. 이후 전처리된 로그들을 이용해 베이지안 확률 기반 순차 규칙추출을 진행한다. 결과적으로 "If 조건 then 결과, 사후확률(θ)" 형식의 규칙집합을 추출하며 이와 매칭될 경우 정상, 매칭되지 않을 경우, 이상행위로 판단하게 된다. 실험으로는 HDFS 로그 데이터셋을 활용했으며, 그 결과 F1score 92.7%의 성능을 나타내었다.