• 제목/요약/키워드: Software classification

검색결과 899건 처리시간 0.025초

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

신사 정장 브랜드의 기성복 및 MTM 생산 실태 조사 - 백화점 입점 브랜드를 대상으로 - (Investigation of Production Condition of Ready-Made and MTM Men's Suits - Focusing on Brands of Department Store -)

  • 최진영;송화경
    • 한국의류산업학회지
    • /
    • 제18권6호
    • /
    • pp.746-754
    • /
    • 2016
  • This study aimed to investigate the status of ready-made suit and MTM (Made-to-measure) suit production with 10 men's suit brands turning over 200 billion won. Their target age group is late 30's to late 40's. Regarding production for the ready-made suit, eight out of 10 brands are using both KS and their own sizing. Classification of body shapes was done in 8 brands, mostly for upper body in simple ways (lean, normal, and obese). All brands are conducting fittings on only standard size. The number of sizes produced is varying depending on the brands; 9 to 17 for a jacket and 9 to 20 for a pair of pants. Regarding on the MTM production, four out of 10 brands have implemented MTM production. The rate of MTM production to their total production is about 15-20%. There were positive opinions on MTM production since it enables to reduce stocks through a small quantity of production for necessary sizes only. The reasons of orders of MTM production were answered as 'no size available', 'unique body shape', etc., and most orders were placed by consumers who are fat-bellied or have thick thighs. They have used MTM automated CAD software developed by Gerber Technology or Investronica. All the brands have utilized automated marker-making software and cutting facilities for MTM production.

IDS의 성능 향상을 위한 패킷 폐기 방안 (Policy of packet dropping for enhancing IDS performance)

  • 문종욱;김종수;정기현;임강빈;주민규;최경희
    • 정보처리학회논문지C
    • /
    • 제9C권4호
    • /
    • pp.473-480
    • /
    • 2002
  • 침입탐지시스템에 대해 많은 연구가 이루어지고 있지만 이들 연구는 침입탐지시스템내의 탐지 소프트웨어의 알고리즘에만 국한되어 있다. 하지만, 침입탐지시스템의 탐지 알고리즘이 우수하더라도 침입에 해당하는 단서인 패킷을 손실하게 되면 해당 침입을 탐지해내지 못하게 된다. 본 논문에서는 침입 탐지 시스템의 하드웨어적인 한계와 탐지 소프트웨어의 거대화에 따른 시스템 부하로 인해서 자연히 발생하게 되는 패킷 손실을 줄이기 위해서 탐지 시스템에 불필요한 패킷으로 분류될 수 있는 패킷을 미리 폐기함으로써 얻을 수 있는 탐지 시스템의 성능 향상을 다룬다. 실험 결과에 따르면 제안한 방법에 의해서 패킷 손실인 줄어들어 실제 공격에 대한 탐지율이 개선되었다.

Motion Recognition for Kinect Sensor Data Using Machine Learning Algorithm with PNF Patterns of Upper Extremities

  • Kim, Sangbin;Kim, Giwon;Kim, Junesun
    • The Journal of Korean Physical Therapy
    • /
    • 제27권4호
    • /
    • pp.214-220
    • /
    • 2015
  • Purpose: The purpose of this study was to investigate the availability of software for rehabilitation with the Kinect sensor by presenting an efficient algorithm based on machine learning when classifying the motion data of the PNF pattern if the subjects were wearing a patient gown. Methods: The motion data of the PNF pattern for upper extremities were collected by Kinect sensor. The data were obtained from 8 normal university students without the limitation of upper extremities. The subjects, wearing a T-shirt, performed the PNF patterns, D1 and D2 flexion, extensions, 30 times; the same protocol was repeated while wearing a patient gown to compare the classification performance of algorithms. For comparison of performance, we chose four algorithms, Naive Bayes Classifier, C4.5, Multilayer Perceptron, and Hidden Markov Model. The motion data for wearing a T-shirt were used for the training set, and 10 fold cross-validation test was performed. The motion data for wearing a gown were used for the test set. Results: The results showed that all of the algorithms performed well with 10 fold cross-validation test. However, when classifying the data with a hospital gown, Hidden Markov model (HMM) was the best algorithm for classifying the motion of PNF. Conclusion: We showed that HMM is the most efficient algorithm that could handle the sequence data related to time. Thus, we suggested that the algorithm which considered the sequence of motion, such as HMM, would be selected when developing software for rehabilitation which required determining the correctness of the motion.

CNN 모델 평가를 위한 이미지 데이터 증강 도구 개발 (Development of an Image Data Augmentation Apparatus to Evaluate CNN Model)

  • 최영원;이영우;채흥석
    • 소프트웨어공학소사이어티 논문지
    • /
    • 제29권1호
    • /
    • pp.13-21
    • /
    • 2020
  • CNN 모델이 이미지 분류와 객체 탐지 등 여러 분야에 활용됨에 따라, 자율주행자동차와 같이 안전필수시스템에 사용되는 CNN 모델의 성능은 신뢰할 수 있어야 한다. 이에 CNN 모델이 다양한 환경에서도 성능을 유지하는지 평가하기 위해 배경을 변경한 이미지를 생성하는 이미지 데이터 증강 도구를 개발한다. 이미지 데이터 증강 도구에 객체가 존재하는 이미지를 입력하면, 해당 이미지로부터 객체 이미지를 추출한 후 수집한 배경 이미지 내에 객체 이미지를 합성하여 새로운 이미지를 생성한다. CNN 모델 성능 평가 방법으로 개발한 도구를 사용하여 기존 테스트 이미지로부터 새로운 테스트 이미지를 생성하고, 생성한 새로운 테스트 이미지로 CNN 모델을 평가한다. 사례 연구로 Pascal VOC2007 테스트 데이터로부터 새로운 테스트 이미지를 생성하고, 새로운 테스트 이미지로 YOLOv3 모델을 평가하였다. 그 결과 기존 테스트 이미지의 mAP 보다 새로운 테스트 이미지의 mAP가 약 0.11 더 낮아지는 것을 확인하였다.

예쁜꼬마선충의 수영 행동 영상과 기계학습 모델을 이용한 수질 오염 물질 구분 방법 (A Method for the Classification of Water Pollutants using Machine Learning Model with Swimming Activities Videos of Caenorhabditis elegans)

  • 강승호;정인선;임형석
    • 한국정보통신학회논문지
    • /
    • 제25권7호
    • /
    • pp.903-909
    • /
    • 2021
  • 예쁜꼬마선충(Caenorhabditis elegans)은 염기서열이 완전히 밝혀진 동물로 유전자 기능 분석, 동물 행동 연구 등 다양한 연구 분야에 사용되는 대표적인 생물 종이다. 그동안 선충을 이용해 물의 오염 여부를 판별하기 위한 바이오 모니터링 시스템에 대한 여러 연구들이 있었다. 본 논문은 하천의 수질 오염의 원인이 되는 화학물질을 식별하기 위해 선충의 수영 행동이 활용 가능한 지를 보여주기 위해 기계학습 기반의 바이오 모니터링 시스템을 제안한다. 선충의 수영 행동을 대표하기 위해 선충을 대상으로 가지 길이 유사성(Branch Length Similarity) 엔트로피를 계산한다. 그리고 BLS 엔트로피의 조합인 BLS 엔트로피 프로파일을 클러스터링 알고리즘을 사용해 몇 가지 패턴으로 유형화하여 데이터 집합을 만든다. 0.1ppm 농도의 포름알데히드, 벤젠, 톨루엔이 첨가된 아레나에서 선충의 수영 행동을 촬영하고 개발한 히든 마코프 모델(Hidden Markov Model: HMM)의 성능을 검증한다.

데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율 (Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance)

  • 신승수;조휘연;김용혁
    • 한국융합학회논문지
    • /
    • 제12권1호
    • /
    • pp.49-55
    • /
    • 2021
  • 최근에는 데이터베이스의 발달로 금융, 보안, 네트워크 등에서 생성된 많은 데이터가 저장 가능하며, 기계학습 기반 분류기를 통해 분석이 이루어지고 있다. 이 때 주로 야기되는 문제는 데이터 불균형으로, 학습 시 다수 범주의 데이터들로 과적합이 되어 분류 정확도가 떨어지는 경우가 발생한다. 이를 해결하기 위해 소수 범주의 데이터 수를 증가시키는 오버샘플링 전략이 주로 사용되며, 데이터 분포에 적합한 기법과 인자들을 다양하게 조절하는 과정이 필요하다. 이러한 과정의 개선을 위해 본 연구에서는 스모트와 생성적 적대 신경망 등 다양한 기법 기반의 오버샘플링 조합과 비율을 유전알고리즘을 통해 탐색하고 최적화 하는 전략을 제안한다. 제안된 전략과 단일 오버샘플링 기법으로 신용카드 사기 탐지 데이터를 샘플링 한 뒤, 각각의 데이터들로 학습한 분류기의 성능을 비교한다. 그 결과 유전알고리즘으로 기법별 비율을 탐색하여 최적화 한 전략의 성능이 기존 전략들 보다 우수했다.

합성곱 신경망을 이용한 구글 어스에서의 녹지 비율 측정 (Measurements of Green Space Ratio in Google Earth using Convolutional Neural Network)

  • 윤여수;김광백;박현준
    • 한국정보통신학회논문지
    • /
    • 제24권3호
    • /
    • pp.349-354
    • /
    • 2020
  • 녹지 영역의 확충을 위한 사전 조사에는 많은 비용과 시간이 필요하다는 문제가 발생한다. 본 논문에서는 구글 어스를 이용한 합성곱 신경망 기반의 녹지 분류를 통해 특정 지역의 녹지 비율을 측정함으로써 문제를 해결한다. 먼저 제안하는 방법은 구글 어스에서 여러 지역 영상을 수집하고 합성곱 신경망을 이용하여 학습한다. 제안하는 방법은 특정 지역의 녹지 비율을 측정하기 위해서 영상을 재귀적으로 분할하고 학습된 모델을 이용하여 녹지 여부를 판단한 뒤, 녹지로 판단된 영역 면적을 이용하여 녹지 비율을 계산한다. 실험 결과 제안하는 방법은 다양한 지역의 녹지 비율 측정에 높은 성능을 보여주는 것을 확인할 수 있었다.

외부고리 은하 영상 분석을 위한 파이썬 기반 알고리즘 개발 (Development of a Python-based Algorithm for Image Analysis of Outer-ring Galaxies)

  • 조훈;손정주
    • 한국지구과학회지
    • /
    • 제43권5호
    • /
    • pp.579-590
    • /
    • 2022
  • 본 연구는 데이터 과학의 과정에 따른 파이썬 기반의 외부고리 은하 영상 분석 알고리즘 개발을 목적으로 한다. 잠재적 사용자는 학생과 교사를 포함한 시민 과학자로 정하였다. 은하의 실제 데이터를 이용한 분류 연구는 IRAF 라는 전문 소프트웨어가 이용되고 있어 일반인이 접근하기에 한계가 있다. 이에 IRAF를 사용한 선행 연구의 결과와 비교 검증이 가능한 외부고리 은하를 분석 대상 천체로 정하여, 영상 분석 알고리즘을 개발하고 그 결과를 검증하였다. 검증 결과 총 69개의 외부고리 은하 중 50개(72.5%)가 IRAF 결과와 높은 일치를 보였다. 남은 19개(27.5%)는 시선 방향에 겹친 밝은 별의 존재 혹은 은하 내부의 약한 밝기로 인해 IRAF 결과와 다른 낮은 일치를 보였다. 보완 과정을 거친 최종 결과물은 공유 및 교육 자료의 활용도를 높이기 위해 전체 사용된 데이터와 알고리즘, 파이썬 코드 파일 및 사용 설명서를 GitHub에 탑재하였다.

특허문헌의 IPC 코드 분석에 의한 사물인터넷 분야 교육과정에 관한 연구 (Curriculum of IoT by IPC Code Analysis of Patents)

  • 심재륜;최진호
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1642-1648
    • /
    • 2021
  • 본 연구는 사물인터넷 관련 특허의 대표 기술을 분석한 후 이를 교육과정에 반영하기 위한 연구이다. 대표 기술을 파악하기 위해 특허문헌의 IPC 코드를 분석하였다. 단독 기술 특허에서 가장 많이 사용된 IPC 코드는 H04L로 974건(32.0%)이고, 복합 기술 특허의 경우 G06Q 710건(29.2%), H04L 396건(16.3%) 순이다. IPC 코드 분석 결과를 WIPO 기술 분류체계에 적용한 결과 단독 기술 특허에서 가장 강조되는 기술은 디지털 통신으로 약 60.5%에 이른다. 복합기술 특허에서 가장 강조되는 기술은 IT경영시스템(710건, 29.2%)과 디지털 통신(589건, 24.2%) 순이다. 본 연구를 통해 사물인터넷 교육과정 편성 및 운영시 고려해야 할 주요사항은 ∇디지털 통신 기술의 강조, ∇IT경영시스템 관련 교육의 확대(창업교육 및 특허 출원 포함), ∇사물인터넷의 확장과 융합 관련 교과목의 반영 등이다. 본 연구 방법은 인공지능과 핀테크 등 최근 대두되는 신산업 신기술 분야의 교육과정 설계 등에 기여할 수 있다.