• 제목/요약/키워드: SVM 모델

검색결과 391건 처리시간 0.036초

형태소 임베딩과 SVM을 이용한 뉴스 기사 정치적 편향성의 자동 분류 (Automatic Bias Classification of Political News Articles by using Morpheme Embedding and SVM)

  • 조단비;이현영;박지훈;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.451-454
    • /
    • 2020
  • 딥러닝 기술을 이용한 정치적 성향의 편향성 분류를 위하여 신문 뉴스 기사를 수집하고, 머신러닝을 위한 학습 데이터를 구축하였다. 학습 데이터의 구축은 보수 성향과 진보 성향을 대표하는 6개 언론사의 뉴스에서 정치적 성향을 이진 분류 데이터로 구축하였다. 뉴스 기사의 수집 방법으로 최근 이슈들 중에서 정치적 성향과 밀접하게 관련이 있는 키워드 15개를 선정하고 이에 관한 뉴스 기사들을 수집하였다. 그 결과로 11,584개의 학습 및 실험용 데이터를 구축하였으며, 정치적 편향성 분류를 위한 머신러닝 모델을 설계하였다. 머신러닝 기법으로 학습 및 실험을 위해 형태소 단위의 임베딩을 이용하여 문장 및 문서 임베딩으로 확장하였으며, SVM(Support Vector Machine)을 이용하여 정치적 편향성 분류 실험을 수행한 결과로 75%의 정확도를 달성하였다.

일반 필기 데이터를 이용한 온라인 서명 검증 기법 (Online Signature Verification Method using General Handwriting Data)

  • 허경용;김성훈;우영운
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2298-2304
    • /
    • 2017
  • 온라인 서명 검증은 간단하면서도 효율적인 본인 확인 방법의 하나로 다른 생체 인식 기술에 비해 거부감이 적은 장점이 있다. 서명 검증 모델을 학습하기 위해서는 모조서명이 필요하지만 대부분의 실용적인 응용에서는 모조서명을 확보하기가 쉽지 않다. 이 논문에서는 이러한 모조서명 확보 문제를 해결할 수 있는 방법의 하나로 다른 사람의 서명을 활용하는 방법을 제시한다. 검증 과정에서는 서명의 형태적 특징을 추출하고 이를 SVM을 이용하여 검증하였다. SVM은 특징 벡터를 고차원으로 사상하고 사상된 공간에서 선형 분리를 시도하는 방법으로 인식기 중 범용적이면서 높은 성능을 보이는 것으로 알려져 있다. 모델 생성 과정에서 모조서명으로 검증하고자 하는 사람의 서명과 형태적인 유사점을 찾을 수 없는 서명, 즉, 일반 필기 데이터를 사용함으로써, 모조서명의 확보가 어려운 경우에도 검증률을 개선할 수 있음을 실험 결과를 통해 확인할 수 있으며, 이는 모조서명 없이도 서명 검증이 가능함을 보여준다.

워드 임베딩을 이용한 아마존 패션 상품 리뷰의 사용자 감성 분석 (User Sentiment Analysis on Amazon Fashion Product Review Using Word Embedding)

  • 이동엽;조재춘;임희석
    • 한국융합학회논문지
    • /
    • 제8권4호
    • /
    • pp.1-8
    • /
    • 2017
  • 현대 사회에서 패션 시장의 규모는 해외와 국내 모두 지속적으로 증가하고 있다. 전자상거래를 통해 상품을 구입하는 경우 다른 소비자들이 작성한 상품에 대한 평가 데이터는 소비자가 상품의 구입 여부를 결정하는데에 영향을 미친다. 기업의 입장에서도 상품에 대한 소비자의 평가 데이터를 분석하여 소비자의 피드백을 반영한다면 기업의 성과에 긍정적인 영향을 미칠 수 있다. 이에 본 논문에서는 아마존 패션 상품의 리뷰 데이터를 학습하여 형성된 워드임베딩 공간을 이용하여 사용자의 감성을 분석하는 모델을 구축하는 방법을 제안한다. 실험은 아마존 리뷰 데이터 570만건을 학습하여 형성된 워드임베딩 공간을 이용하여 긍정, 부정 리뷰 데이터의 개수에 따라 총 3개의 SVM 분류기 모델을 학습하는 방식으로 진행하였다. 실험 결과 긍정 리뷰 데이터 5만건, 부정 리뷰데이터 5만건을 이용하여 SVM 분류기를 학습하였을 때 88.0%로 가장 높은 정확도(accuracy)를 나타냈다.

개인의 감성 분석 기반 향 추천 미러 설계 (Design of a Mirror for Fragrance Recommendation based on Personal Emotion Analysis)

  • 김현지;오유수
    • 한국산업정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문에서는 사용자의 감정 분석에 따른 향을 추천하는 스마트 미러 시스템을 제안한다. 본 논문은 자연어 처리 중 임베딩 기법(CounterVectorizer와 TF-IDF 기법), 머신러닝 분류 기법 중 최적의 모델(DecisionTree, SVM, RandomForest, SGD Classifier)을 융합하여 시스템을 구축하고 그 결과를 비교한다. 실험 결과, 가장 높은 성능을 보이는 SVM과 워드 임베딩을 파이프라인 기법으로 감정 분류기 모델에 적용한다. 제안된 시스템은 Flask 웹 프레임워크를 이용하여 웹 서비스를 제공하는 개인감정 분석 기반 향 추천 미러를 구현한다. 본 논문은 Google Speech Cloud API를 이용하여 사용자의 음성을 인식하고 STT(Speech To Text)로 음성 변환된 텍스트 데이터를 사용한다. 제안된 시스템은 날씨, 습도, 위치, 명언, 시간, 일정 관리에 대한 정보를 사용자에게 제공한다.

GoF 특징을 이용한 유해 동영상 자동 분류 (Automatic Classification of Objectionable Videos Based on GoF Feature)

  • 이승민;이호균;남택용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.197-200
    • /
    • 2005
  • 본 논문은 유해한 동영상을 실시간으로 분석하고 차단하기 위하여, 동영상의 비주얼 특징으로서 그룹 프레임(Group of Frame) 특징을 추출하여 SVM 학습모델을 활용하는 유해 동영상 분류에 관한 것이다. 지금까지 동영상 분류에 관한 연구는 주로 입력 동영상을 뉴스, 스포츠, 영화, 뮤직 비디오, 상업 비디오 등 사전에 정의한 몇 개의 장르에 자동으로 할당하는 기술이었다. 그러나 이러한 분류 기술은 미리 정의한 장르에 따른 일반적인 분류 모델을 사용하기 때문에 분류의 정확도가 높지 않다. 따라서, 유해 동영상을 실시간으로 자동 분류하기 위해서는, 신속하고 효과적인 동영상 내용분석에 적합한 유해 동영상 특화의 특징 추출과 분류 모델 연구가 필요하다. 본 논문에서는 유해 동영상에 대하여 신속하고, 정확한 분류를 위하여 유해 동영상의 대표 특징으로서 그룹프레임 특징을 정의하고, 이를 추출하여 SVM 학습 모델을 생성하고 분류에 활용하는 매우 높은 성능의 분석 방법을 제시하였다. 이는 최근 인터넷 뿐만 아니라 다양한 매체를 통하여 급속도로 번지고 있는 유해 동영상 차단 분야에 적극 활용될 수 있을 것으로 기대된다.

  • PDF

전역 및 지역 정보를 이용한 SVM 기반 한국어 문장 구조 및 격 레이블 분석 (Labeled Statistical Korean Dependency Parsing with Global and Local Information)

  • 임수종;이창기;장명길;나동렬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.207-212
    • /
    • 2009
  • 한국어 문장의 구조 및 격 레이블 분석을 위해서 SVM 모델을 이용하여 얻어진 전역 및 지역 정보 통계 모델에 기반한 방법을 제안한다. 제안하는 방법은 후방 beam search 알고리즘을 이용하여 부분 구문 분석을 하는 과정에서 지역 의존 정보를 사용하였고 이렇게 구성된 문장의 후보 구조에 대해서는 전역 정보 모델를 사용하여 최적의 문장 구조 및 격 레이블을 분석하였다. 제안하는 방법은 지역이나 전역 중 한 개의 모델만을 사용할 때 발생할 수 있는 오류를 최소화하였다. 지식 DB 사업의 한국어 의존 구문 분석 말뭉치를 이용하여 실험한 결과 전역 정보나 지역 정보만을 사용한 결과보다 각각 1.2%, 3.3% 높은 79.1%의 문장 구조 및 격 레이블 분석 정확률을 나타냈고 전역 정보만을 사용할 때보다 약 76배 이상의 빠른 속도 향상을 보였다. 향후 연구로는 지배소 단위, 구 묶음 단위 등으로 통계 정보를 세분화하여 좀더 높은 성능 향상을 기대한다.

  • PDF

TDSVM을 이용한 하천수 취수량 예측 (Prediction on the amount of river water use using support vector machine with time series decomposition)

  • 최서혜;권현한;박문형
    • 한국수자원학회논문집
    • /
    • 제52권12호
    • /
    • pp.1075-1086
    • /
    • 2019
  • 최근 기후 온난화의 발생과 이상기후의 발생빈도가 증가함에 따라 강수량, 하천유량과 같은 수문학적 요소의 예측이 복잡해지고 있으며 물부족 발생 위험도 증가하고 있다. 따라서 본 연구에서는 중단기 하천 취수량을 예측하기 위한 모델을 개발하고자 하였다. 입력인자를 선정하기 위해 취수량과 기상인자들 간의 상관성분석을 수행한 결과 온도가 가장 영향이 큰 것으로 나타났다. 또한 취수량은 시계열에 따른 증가 경향과 계절적 특성이 뚜렷하게 나타나므로 시계열분해기법을 이용하여 전처리를 수행하고 잔차에 대해 서포트 벡터 머신(SVM)을 적용하여 취수량 예측 모델을 개발하였다. 이 모델은 평균적으로 4.1%의 오차율을 나타내며, 전처리를 하지 않은 SVM 모델에 비해 높은 정확도를 나타냈다. 특히, 1~2달에 대해 중단기 예측을 수행하였을 때 더 유리한 결과를 나타냈다. 본 연구에서 개발된 취수량 예측모델은 수자원의 지속가능하고 효율적인 관리를 위해 하천수 사용허가, 수질관리, 가뭄 대책 마련에 활용이 가능할 것으로 예상된다.

온라인 게시글의 조회수 분석을 통한 인기도 예측 (Prediction Model for Popularity of Online Articles based on Analysis of Hit Count)

  • 김수도;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제12권4호
    • /
    • pp.40-51
    • /
    • 2012
  • 한국의 온라인 토론게시판은 의견 공유뿐 아니라 여론 형성과 참여를 위한 공간으로 활발히 사용되고 있다. 토론게시판에서 어떤 글은 사회적 정치적 이슈를 몰고 다니기도 하고 어떤 글은 사용자의 관심을 끌지 못하기도 한다. 본 논문에서는 한국의 유명 토론게시판인 다음 아고라와 서프라이즈에서 수집한 글의 통계적 정보를 이용하여 글의 인기를 분석하고 인기글을 예측하기 위한 예측모델을 제안한다. 분석결과 아고라는 87.52%의 글이 게시판에 제출된 후 하루가 지나기 전에 글의 인기가 끝나고 있었지만 서프라이즈는 39%의 글이 4일 이상 인기가 지속되고 있었다. 그렇지만 글의 인기기간과 조회수의 상관관계는 낮았다. 조회수 증가가 오랫동안 지속된다고 해서 최종 조회수가 높다는 것을 의미하지는 않는다. 본 논문에서는 분류와 예측 분야에서 잘 알려진 SVM 모델과 유사매칭 모델, 그리고 새롭게 제안한 예측 모델 '베이스 라인'을 이용하여 인기글을 예측하고 평가하였다. SVM 모델이 F-measure와 정밀도에서 유사매칭과 베이스라인보다 우수하였으며, 베이스라인이 실행시간에서 가장 우수한 성능을 보였다.

혈소판 라만 스펙트럼의 효율적인 분석을 위한 기준선 보정 방법 (A Baseline Correction for Effective Analysis of Alzheimer’s Disease based on Raman Spectra from Platelet)

  • 박아론;백성준
    • 전자공학회논문지CI
    • /
    • 제49권1호
    • /
    • pp.16-22
    • /
    • 2012
  • 본 논문에서는 알츠하이머병이 유도된 형질전환 마우스로부터 획득한 혈소판 라만 스펙트럼의 분석을 위해 가우시안 모델을 이용한 커브 피팅으로 기준선을 추정하고 보정하는 방법을 제안하였다. 측정된 라만 스펙트럼은 의미 있는 정보와 불필요한 노이즈 성분인 기준선과 가산 노이즈를 포함하고 있다. 스펙트럼의 효율적인 분석을 위해 노이즈를 포함하고 있는 스펙트럼을 몇 개의 피크를 포함하는 영역으로 분할하고 각 로컬 영역의 스펙트럼을 가우시안 모델을 이용한 커브 피팅으로 모델링한다. 가산 노이즈는 원 스펙트럼을 이 델로 대체하는 과정에서 명백하게 제거된다. 피팅된 모델의 로컬 최저점을 linear, piecewise cubic Hermite, cubic spline 알고리즘으로 보간하고 기준선을 보정한다. 기준선을 보정한 피팅 모델은 PCA(principal component analysis) 방법을 이용하여 특징을 추출하고 SVM(support vector machine)과 MAP(maximum $a$ posteriori probability) 분류 방법으로 성능 비교 실험을 하였다. 실험 결과에 따르면 linear 보간법이 모든 주성분 수에 대한 분류율의 평균에서 우세하였고 특히 piecewise cubic Hermite 보간법은 주성분의 수가 5개인 경우에서 SVM 분류율이 약 97.3%로 가장 좋은 성능을 보였다. 또한 이전의 연구 결과와 비교를 통해 제안한 기준선 보정 방법이 혈소판 라만 스펙트럼의 분석에 효과적으로 적용될 수 있음을 확인하였다.

무선 센서 네트워크에서 클러스터링 기반 Sleep Deprivation Attack 탐지 모델 (Sleep Deprivation Attack Detection Based on Clustering in Wireless Sensor Network)

  • 김숙영;문종섭
    • 정보보호학회논문지
    • /
    • 제31권1호
    • /
    • pp.83-97
    • /
    • 2021
  • 무선 센서 네트워크를 구성하는 무선 센서는 일반적으로 전력 및 자원이 극히 제한적이다. 무선 센서는 전력을 보존하기 위해 일정 주기마다 sleep 상태로 진입한다. Sleep deprivation attack은 무선 센서의 sleep 상태 진입을 막음으로써 전력을 소진 시키는 치명적인 공격이지만 이에 대한 뚜렷한 대응책이 없다. 이에 본 논문에서는 클러스터링 기반 이진 탐색 트리 구조의 Sleep deprivation attack 탐지 모델을 제안한다. 본 논문에서 제안하는 sleep deprivation attack 탐지 모델은 기계학습을 통해 분류한 공격 센서 노드와 정상 센서 노드의 특징을 사용한다. 이때 탐지 모델에 사용한 특징은 Long Short-Term Memory(LSTM), Decision Tree(DT), Support Vector Machine(SVM), K-Nearest Neighbor(K-NN)을 이용하여 결정하였다. 결정된 특징은 본 논문에서 제안한 알고리즘에 사용하여 공격 탐지를 위한 값들을 계산하였으며, 계산한 값을 판정하기 위한 임계값은 SVM을 적용하여 도출하였다. 본 논문에서 제안하는 탐지 모델은 기계학습으로 도출된 특징과 임계값을 본 논문에서 제안한 탐지 알고리즘에 적용하여 구성하였으며, 실험을 통해 전체 센서 노드 20개 중 공격 센서 노드의 비율이 0.35일 때 94%의 탐지율을 갖고 평균 에너지 잔량은 기존 연구보다 최대 26% 향상된 결과를 보였다.