• 제목/요약/키워드: tree kernel

검색결과 40건 처리시간 0.025초

앙상블 머신러닝 모델 기반 유튜브 스팸 댓글 탐지 (Ensemble Machine Learning Model Based YouTube Spam Comment Detection)

  • 정민철;이지현;오하영
    • 한국정보통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.576-583
    • /
    • 2020
  • 이 논문은 최근 엄청난 성장을 하고 있는 유튜브의 댓글 중 스팸 댓글을 판별하는 기법을 제안한다. 유튜브에서는 광고를 통한 수익 창출이 가능하기 때문에 인기 동영상에서 자신의 채널이나 동영상을 홍보하거나 영상과 관련 없는 댓글을 남기는 스패머(spammer)들이 나타났다. 유튜브에서는 자체적으로 스팸 댓글을 차단하는 시스템을 운영하고 있지만 여전히 제대로 차단하지 못한 스팸 댓글들이 있다. 따라서, 유튜브 스팸 댓글 판별에 대한 관련 연구들을 살펴 보고 인기 동영상인 싸이, 케이티 페리, LMFAO, 에미넴, 샤키라의 뮤직비디오 댓글 데이터에 6가지 머신러닝 기법(의사결정나무, 로지스틱 회귀분석, 베르누이 나이브 베이즈, 랜덤 포레스트, 선형 커널을 이용한 서포트 벡터 머신, 가우시안 커널을 이용한 서포트 벡터 머신)과 이들을 결합한 앙상블 모델로 스팸 탐지 실험을 진행하였다.

SVM 워크로드 분류기를 통한 자동화된 데이터베이스 워크로드 식별 (Automatic Identification of Database Workloads by using SVM Workload Classifier)

  • 김소연;노홍찬;박상현
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.84-90
    • /
    • 2010
  • 데이터베이스 시스템의 응용분야가 데이터웨어하우징에서 전자상거래에 이르기까지 광범위해지면서 데이터베이스 시스템이 대형화되었다. 이로 인해 데이터베이스 시스템의 성능 향상을 위한 튜닝이 중요한 논점이 되었다. 데이터베이스 시스템의 튜닝은 워크로드 특성을 고려하여 수행할 필요가 있다. 그러나 복합적인 데이터베이스 환경에서 워크로드를 식별하기는 어려우므로 자동적인 식별 방법이 요구된다. 본 논문에서는 데이터베이스 워크로드를 자동적으로 식별하는 SVM 워크로드 분류기를 제안한다. TPC-C와 TPC-W 성능 평가에서 자원할당 파라미터 변경에 따른 워크로드 데이터를 수집하여 SVM을 통해 분류 한다. SVM의 커널별 커널 파라미터와 오류 허용 임계치 값인 C의 조정을 통하여 최적의 SVM 워크로드 분류기를 선택한다. 제안한 SVM 워크로드 분류기와 Decision Tree, Naive Bayes, Multilayer Perceptron, K-NN 분류기의 분류 성능을 비교한 결과, SVM 워크로드 분류기가 다른 기계 학습 분류기보다 9% 이상 향상된 분류 성능을 보였다.

BCI에서 기계 학습을 위한 간질 뇌파 특징 선택을 통한 차원 감소 방법 분석 (Analysis of Dimensionality Reduction Methods Through Epileptic EEG Feature Selection for Machine Learning in BCI)

  • 양통;;임창균
    • 한국전자통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1333-1342
    • /
    • 2018
  • 지금까지 뇌파(Electroencephalography - EEG)는 뇌전증 진단 및 치료를 위한 가장 중요하고 편리한 방법이었다. 그러나 뇌전증 뇌파 신호의 파형 특성은 매우 약하고 비 정지 상태이며 배경 노이즈가 강하기 때문에 식별하기가 어렵다. 이 논문에서는 간질 뇌파의 특징 선택을 통한 차원 감소를 통한 분류 방법의 효과를 분석한다. 우리는 차원 감소를 위해 주 요소 분석, 커널 요소 분석, 선형 판별 분석 방법을 사용하였다. 차원 감소방법의 성능 분석을 위해 Support Vector Machine: SVM), Logistic Regression(: LR), K-Nearestneighbor(: K-NN), Decision Tree(: DR), Random Forest(: RF) 분류 방법들을 사용해 평가하였다. 실험 결과에 따르면, PCA는 SVM, LR 및 K-NN에서 75% 정확도를 나타냈다. KPCA는 SVM과 K-KNN에서 85%의 성능을 보였으며 LDA는 K-NN를 이용했을 때 100 %의 정확도 보여주었다. 따라서 LDA를 이용한 차원 감소가 뇌전증 EEG 신호에 대한 최고의 분류 결과 보여주었다.

무슬림 관광객 증대를 위한 머신러닝 기반의 할랄푸드 분류 프레임워크 (A Halal Food Classification Framework Using Machine Learning Method for Enhancing Muslim Tourists)

  • 김선아;김정원;원동연;최예림
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권3호
    • /
    • pp.273-293
    • /
    • 2017
  • Purpose The purpose of this study is to introduce a framework that helps Muslims to determine whether a food can be consumed. It can complement existing Halal food classification services having a difficulty of constructing Halal food database. Design/methodology/approach The proposed framework includes two components. First, OCR(Optical Character Recognition) technique is utilized to read the food additive information. Second, machine learning methods were used to trained and predicted to determine whether a food can be consumed using the provided information. Findings Among the compared machine learning methods, SVM(Support Vector Machine), DT(Decision Tree), and NB(Naive Bayes), SVM with linear kernel and DT had excellent performance in the Halal food classification. The framework which adopting the proposed framework will enhance the tourism experiences of Muslim tourists who consider keeping the Islamic law most importantly. Furthermore, it can eventually contribute to the enhancement of smart tourism ecosystem.

SPH에서의 Convex Hull 알고리즘 적용연구 (A Syudy on Applications of Convex Hull Algorithm in the SPH)

  • 이진성;이영신
    • 한국군사과학기술학회지
    • /
    • 제14권2호
    • /
    • pp.313-320
    • /
    • 2011
  • SPH(Smoothed Particle Hydrodynamics) is a gridless Lagrangian technique that is useful as an alternative numerical analysis method used to analyze high deformation problems as well as astrophysical and cosmological problems. In SPH, all points within the support of the kernel are taken as neighbours. The accuracy of the SHP is highly influenced by the method for choosing neighbours from all particle points considered. Typically a linked-list method or tree search method has been used as an effective tool because of its conceptual simplicity, but these methods have some liability in anisotropy situations. In this study, convex hull algorithm is presented as an improved method to eliminate this artifact. A convex hull is the smallest convex set that contains a certain set of points or a polygon. The selected candidate neighbours set are mapped into the new space by an inverse square mapping, and extract a convex hull. The neighbours are selected from the shell of the convex hull. These algorithms are proved by Fortran programs. The programs are expected to use as a searching algorithm in the future SPH program.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

Cloud 및 IoT 시스템의 보안을 위한 소프트웨어 정의 경계기반의 접근제어시스템 개발 (Development of Software-Defined Perimeter-based Access Control System for Security of Cloud and IoT System)

  • 박승규
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.15-26
    • /
    • 2021
  • 최근 클라우드, 모바일, IoT의 도입이 활성화되면서 방화벽이나 NAC(Network Access Control) 등의 고정 경계(Fixed Perimeter) 기반의 기존 보안 솔루션들의 한계를 보완할 수 있는 기술 개발의 필요성이 커지고 있다. 이에 대응하여 새로운 기반 기술로써 최근 등장한 것이 SDP(Software Defined Perimeter) 이다. 이 기술은 기존 보안 기술들과 달리 보호 대상 자원(서버, IoT 게이트웨이 등)의 위치에 상관없이 보안 경계를 유연하게 설정(Gateway S/W를 설치)하여, 날로 다양화·고도화되고 있는 네트워크 기반 해킹 공격을 대부분 무력화할 수 있으며 특히, Cloud 및 IoT 분야에 적합한 보안 기술로 부각 되고 있다. 본 연구에서는 SDP와 해시 트리 기반의 대규모 데이터 고속 서명 기술을 결합하여 새로운 접근제어시스템을 제안하였다. 대규모 데이터 고속 서명 기술에 의한 프로세스 인증기능을 통해 엔드포인트에 침입한 미지의 멀웨어들의 위협을 사전에 차단하고, 주요 데이터의 백업, 복구과정에서 유저 레벨의 공격이 불가능한 커널 레벨의 보안 기술을 구현하였고 그 결과 SDP의 취약 부분인 엔드포인트 보안을 강화하였다. 제안된 시스템을 시제품으로 개발하고 공인시험기관의 테스트(TTA V&V Test)로 성능시험을 완료하였다. SDP 기반 접근제어 솔루션은 스마트 자동차 보안 등에서도 활용될 수 있는 향후 잠재력이 매우 높은 기술이다.

중산간지와 고냉지산 쌀 형태 및 이화학적특성의 품종 및 산지간 변이 (Varietal and Locational Variation of Grain Quality Components of Rice Produced in Hilly and High Altitude Areas in Korea)

  • 최해춘;지정현;이종섭;김영배;조수연
    • 한국작물학회지
    • /
    • 제39권1호
    • /
    • pp.27-37
    • /
    • 1994
  • 중산간지 및 산간고냉지대에서 재배된 벼의 주요 미질특성에 대한 품종 및 환경변이정도를 파악하고자 오대벼등 자포니카 조생종 5개 품종을 1989년에 중북부 중간지인 철원과 산간고냉지인 진부, 중남부 중산간지인 상주, 화서 및 남부고냉지인 운봉의 4개소에 재배하여 생산된 쌀의 외관 및 도정특성과 주요 이화학적 특성 및 식미특성을 조사하였던 바 이들 미질특성의 품종 및 산지변이를 비교 분석한 결과를 요약하면 다음과 같다. 1. 현미천립중, 아밀로스함량, K/Mg률, 호화개시온도, 최고점도, 강하점도(breakdown) 및 치반점도(setback)에서 품종 및 산지간 변이가 모두 품종${\times}$산지간 교호작용변이에 비해 현저하였고 정현비율, 알칼리 붕괴도 및 단백질 함양에서는 산지간 변이가, 밥의 점성 /경도비율에서는 품종간 변이가 유의하게 켰다. 특히 품종${\times}$산지간 교호작용 변이가 켰던 미질특성은 외관 및 등숙관련특성과 식미 및 응집점도(consistency)등이었다. 2. 현미천립중은 진부올벼와 오대벼가 가장 무거웠고 불완전등숙립률은 진부올벼가 가장 낮았으며 백미건전미율는 오대벼가 심복백 때문에 다른 품종에 비해 약간 멀어졌다. 아밀로스 함량은 출수기가 빠른 진부올벼와 소백벼가 타품종에 비해 약 1% 가량 낮았고 K /Mg율은 식미가 가장 좋았던 오대벼가 가장 낮았으며, 호화개시온도와 치반점도가 유의하게 낮았던 반면 최고점도와 강하점도가 현저하게 높았던 오대벼, 소백벼 및 진부올벼등이 밥맛이 약간 양호한 편이었다. 3. 철원산미가 가장 입중이 무겁고 등숙이 양호하였던 반면 건전미율은 오히려 떨어졌으며 진부산미가 가장 정현비율이 높으면서 건전미율이 높았다. 4. 아밀로스함량은 진부산미가 다른 지역산미에 비해 약 2~3%가 높았던 반면 철원산미가 가장 낮았고 단백질함량은 중부지역산미가 남부지역산미에 비해 약1%가량 낮았으며 K/Mg율은 진부산미가 가장 높았고 K함량은 중부지역산미가 남부지역산미에 비해 다소 높은 경향이었다. 식미총평은 품종별로 산지에 따라 크게 달라서 산지간 평균적 비교가 큰 의미가 없지만 운봉과 철원산미가 진부와 화서산미보다 양호한 경향이었다. 5. 쌀의 알칼리 붕괴도와 호화개시온도는 진부산미가 다른 지역산미에 비해 현저히 높았고 그 다음으로 운봉>화서>철원산미 순으로 낮았으며 강하점도는 철원산미가 가장 켰고 그 다음으로 화서>운봉>진부산미 순으로 저온하에서 등숙된 쌀일수록 낮았으며 치반점도는 이와 정반대의 경향이었다. 밥의 점성 /경도비율은 철원산미가 여타 지역에 비해 약간 높은 값을 나타내었다. 6. 식미관련 미질특성을 이용한 주성분 분석에서 전정보의 약 60% 설명이 가능한 제1 및 제2 주성분치상의 5개 품종별 4개 산지미의 분포로 보아 대체로 진부산미와 여타 지역산미로 확연히 구분되었고 다시 진부산미는 2개군, 여타 지역산미는 3개군으로 세분화 할 수 있었으며 산지내 품종변이가 가장 작았던 것은 화서산미였고. 고냉지산미는 품종 간 변이가 켰다. 식미관련 종합적 미질특성면에서 가장 양호한 군에 속하는 것은 철원, 운봉 및 화서산 오대벼와 운봉산 소백벼였다.

  • PDF

의사결정나무와 시공간 시각화를 통한 서울시 교통사고 심각도 요인 분석 (Analysis of Traffic Accidents Injury Severity in Seoul using Decision Trees and Spatiotemporal Data Visualization)

  • 강영옥;손세린;조나혜
    • 지적과 국토정보
    • /
    • 제47권2호
    • /
    • pp.233-254
    • /
    • 2017
  • 본 연구는 교통사고 가운데 인적피해를 동반한 교통사고에 대해 교통사고의 시공간적 특성과 교통사고 심각도에 영향을 미치는 주요인을 분석하고자 하였다. 이를 위해 2012년부터 2015년 까지 4년간 서울시에서 발생한 교통사고 데이터 가운데 인적사고가 있는 데이터를 교통사고 심각도에 따라 경상, 중상, 사망 교통사고로 분류하고, 교통사고의 시공간특성분석은 커널분석, 핫스팟분석, 스페이스타임큐브분석, EHSA(Emerging HotSpot Analysis)를 수행하였으며, 교통사고 심각도에 영향을 미치는 요인 분석은 데이터마이닝 기법중의 하나인 의사결정나무 모형을 활용하였다. 분석결과 서울시 교통사고는 도심부 보다는 외곽지역에서 많이 발생하며 특히 한강 이남의 상업 활동이 많은 곳에서 교통사고가 많음을 확인할 수 있었다. 특히 서초와 강남의 일부 상업 및 유흥지역을 중심으로 교통사고 집중지역이 나타나며 교통사고 다발지역은 시간이 흐름에 따라 그 현상이 더욱 심화되는 경향을 보이고 있었다. 사망교통사고의 경우 지역적으로는 영등포구, 구로구, 종로구, 중구, 성북구 일부지역에 통계적으로 유의미한 핫스팟지역이 나타나지만 시간대별로 구분해보면 오후 퇴근시간 부터 새벽까지 일부 구간에서 핫스팟이 나타나며 시간 고려 없이 분석된 결과와는 상이한 패턴이 나타남을 알 수 있었다. 서울시 교통사고 심각도에 영향을 미치는 주요 요인으로는 사고유형이 가장 중요한 역할을 하며 도로의 종류, 차량의 종류, 교통사고 발생 시간, 법규위반 종류 등의 순으로 중요도가 나타났다. 교통사고 가운데 심각한 교통사고로 이어지는 경우는 차대 사람이나 차량단독으로 사고가 나는 경우 고속도로나 특별광역시도와 같이 폭원이 넓고 차량속도가 높은 곳에서 승합차나 화물차에서 중상의 교통사고가 일어날 가능성이 높으며, 동일한 상황에서 승합차나 화물차가 아닌 승용차, 자전거, 이륜차 등의 경우에는 새벽시간에 심각한 교통사고로 이어질 가능성이 높은 것으로 나타났다.

중ㆍ남부 평야지산 발 형태 및 이화학적 특성의 품종 및 산지간 변이 (Varietal and Locational Variation of Grain Quality Components of Rice Produced n Middle and Southern Plain Areas in Korea)

  • 최해춘;지정현;이종섭;김영배;조수연
    • 한국작물학회지
    • /
    • 제39권1호
    • /
    • pp.15-26
    • /
    • 1994
  • 주요 미질특성에 대한 품종 및 환경변이정도를 파악하고자 자포니카 5개 품종과 통일형 두 품종을 1989년에 중부평야지인 수원 및 이천과 중서해안간 척지인 남양, 호남평야지인 이리 및 남서해안간척지인 계화에서는 보통기 보비재배로, 영남평야지인 밀양에서는 맥후작 만식으로 재배하여 생산된 쌀의 외관 및 도정특성과 주요 이화학적 특성 및 식미를 비교분석한 결과를 요약하면 다음과 같다. 1. 쌀 외관 및 도정특성을 비롯하여 쌀의 이화학적 특성, 밥의 물리성 및 식미총평 등 모든 미질특성에서 현저한 품종간 차이를 나타내었고, 산지간변이가 두드러졌던 미질특성은 쌀 외관, 도정특성, 알칼리붕괴도, 단백질함량, K/Mg율, 호화개시온도, 강하점도(breakdown) 및 치반점도(setback)였는데 이들 특성의 산지변이는 전변이의 14~54%에 달하였으며 품종$\times$산지간 교호작용변이가 특히 켰던 미질특성은 식미총평과 응집(consistency) 및 치반점도였다. 2. 벼 품종간 미질특성의 차이는 특히 자포니카와 통일형 품종군간에 현저하였는데 통일형 품종들이 자포니카품종들에 비해 쌀 외관품질 및 도정률이 떨어지고 1.0% 저농도 KOH 용액의 쌀 붕괴도와 아밀로스함량이 약간 낮은 반면 단백질함량과 K/Mg율은 약간 높은 편이었으며 최고점도, 강하점도 및 응집점도가 다소 높은 반면 치반점도는 유의하게 낮았고 식미가 크게 떨어졌다. 식미가 양호했던 자포니카품종들은 단백질함량이 약간 낮으면서 K/Mg을 및 밥의 점성/경도비율이 약간 높은 경향이었다. 3. 현미천립중은 이리산미가 타 지역산미에 비해 두드러지게 무거웠고 수원, 계화 및 밀양산미가 소립인 경향이었으며 정현비율이나 등숙면에서는 밀양산이 가장 떨어졌고 이리나 이천산이 양호하였다. 건전미율은 남양간척지산미가 가장 높았으며 계화간척지산미가 가장 낮았다. 4. 쌀의 아밀로스함량은 계화간척지산미가 타 지역산미에 비해 약 1%가량 낮았고 단백질 함량은 중부지역산미가 남부지역산미에 비해 유의하게 약 1%가량 낮았으며 K/Mg율은 계화 및 이리산미가 가장 낮았던 반면 밀양산미가 가장 높았다. 식미총평은 품종별로 생산지에 따라 상당히 달랐는데 평균적으로 남양산미가 가장 좋았고 다음으로 수원>이리>이천>계화>밀양 순이었다 5. 쌀의 알칼리 붕괴도는 밀양 맥후작산미가 가장 높았고 호남평야지산미가 가장 낮았는데 비해 아밀로그래프의 호화개시온도는 수원과 이리산미가 가장 낮았던 반면 밀양산미가 가장 높았다. 강하점도는 밀양산미가 가장 낮았고 다음이 이천산미가 낮았던데 비해 계화 및 이리산미가 가장 높았으며 치반점도는 이와 정반대의 경향을 나타내었다. 밥의 점성 /경도비율은 지역간 차이가 유의하지는 않았으나 남부평야산미가 중부평야산미에 비해 다소 떨어지는 경향이었다. 6. 식미와 관련이 있는 쌀 외관품질 및 이화학적 특성을 이용한 주성분 분석에서 전정보의 약 59% 설명이 가능한 제 1 및 제 2 주성분치상의 7개 품종별 6개 산지미의 분포로 보아 품종에 따라서 산지 반응이 달랐는데 대체로 자포니카와 통일형 품종군간 구분과 밀양, 중부평야 및 호남평야의 세 산지간 구분이 가능하였다. 산지내 품종간 미질변이는 남양간척지와 이리산미가 비교적 작았는데 수원산미는 이천과 남양산미의 미질변이를, 계화산미는 이리산미의 미질변이를 거의 포괄하였다.

  • PDF