• Title/Summary/Keyword: 논문 분류

Search Result 12,592, Processing Time 0.044 seconds

Classification of Advertising Spam Reviews (제품 리뷰문에서의 광고성 문구 분류 연구)

  • Park, Insuk;Kang, Hanhoon;Yoo, Seong Joon
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.186-190
    • /
    • 2010
  • 본 논문은 쇼핑몰의 이용 후기 중 광고성 리뷰를 분류해 내는 방법을 제안한다. 여기서 광고성 리뷰는 주로 업체에서 작성하는 것으로 리뷰 안에 광고 내용이 포함되어 있다. 국외 연구 중에는 드물게 오피니언 스팸 문서의 분류 연구가 진행되고 있지만 한국어 상품평으로부터 광고성 리뷰를 분류하는 연구는 아직 이루어지지 않고 있다. 본 논문에서는 Naive Bayes Classifier를 활용하여 광고성 리뷰를 분류하였다. 이때 확률 계산을 위해 사용된 특징 단어는 POS-Tagging+Bigram, POS-Tagging+Unigram, Bigram을 사용하여 추출하였다. 실험 결과는 POS-Tagging+Bigram 방법을 이용하였을 때 광고성 리뷰의 F-Measure가 80.35%로 정확도 높았다.

  • PDF

Design of a Two-Phase Activity Recognition System Using Smartphone Accelerometers (스마트폰 가속도 센서를 이용한 2단계 행위 인식 시스템의 설계)

  • Kim, Jong-Hwan;Kim, In-Cheol
    • Annual Conference of KIPS
    • /
    • 2013.11a
    • /
    • pp.1328-1331
    • /
    • 2013
  • 본 논문에서는 스마트폰 내장 가속도 센서를 이용한 2단계 행위 인식 시스템을 제안한다. 제안하는 행위 인식 시스템에서는 행위 별 시간에 따른 가속도 센서 데이터의 변화 패턴을 충분히 반영하기 위해, 1단계 분류에서는 결정트리 모델 학습과 분류를 수행하고, 2단계 분류에서는 1단계 분류 결과들의 시퀀스를 이용하여 HMM모델 학습과 분류를 수행하였다. 또한, 본 논문에서는 특정 사용자나 스마트폰의 특정 위치, 방향 변화에도 견고한 행위 인식을 위하여, 동일한 행위에 대해 사용자와 스마트폰의 위치, 방향을 변경하면서 다양한 훈련 데이터를 수집하였다. 6720개의 가속도 센서 데이터를 이용하여 총 6가지 실내 행위들을 인식하기 위한 실험들을 수행하였고, 그 결과 높은 인식 성능을 확인 할 수 있었다.

Apple Sorting Machine by its Color (색에 따른 사과 분류기)

  • Tun, Pyei Phyoe Wai;Kim, Soo-Chan
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.21 no.4
    • /
    • pp.154-161
    • /
    • 2020
  • This paper presented the basics of using a sorting system to reduce human effort and increase accuracy. The proposed system has consisted of a camera, motors, and a Raspberry Pi. This system can classify the apples as immature, mature, ripe condtion, and etc. In this experiment, 100 apples were randomly selected by purchasing various apples from a local market. The accuracy percentage was 95% and processing time was about 8 seconds per each apple. The proposed system could be useful to reduce labor.

Image Classification Model using web crawling and transfer learning (웹 크롤링과 전이학습을 활용한 이미지 분류 모델)

  • Lee, JuHyeok;Kim, Mi Hui
    • Journal of IKEEE
    • /
    • v.26 no.4
    • /
    • pp.639-646
    • /
    • 2022
  • In this paper, to solve the large dataset problem, we collect images through an image collection method called web crawling and build datasets for use in image classification models through a data preprocessing process. We also propose a lightweight model that can automatically classify images by adding category values by incorporating transfer learning into the image classification model and an image classification model that reduces training time and achieves high accuracy.

Malware Classification Schemes Based on CNN Using Images and Metadata (이미지와 메타데이터를 활용한 CNN 기반의 악성코드 패밀리 분류 기법)

  • Lee, Song Yi;Moon, Bongkyo;Kim, Juntae
    • Annual Conference of KIPS
    • /
    • 2021.05a
    • /
    • pp.212-215
    • /
    • 2021
  • 본 논문에서는 딥러닝의 CNN(Convolution Neural Network) 학습을 통하여 악성코드를 실행시키지 않고서 악성코드 변종을 패밀리 그룹으로 분류하는 방법을 연구한다. 먼저 데이터 전처리를 통해 3가지의 서로 다른 방법으로 악성코드 이미지와 메타데이터를 생성하고 이를 CNN으로 학습시킨다. 첫째, 악성코드의 byte 파일을 8비트 gray-scale 이미지로 시각화하는 방법이다. 둘째, 악성코드 asm 파일의 opcode sequence 정보를 추출하고 이를 이미지로 변환하는 방법이다. 셋째, 악성코드 이미지와 메타데이터를 결합하여 분류에 적용하는 방법이다. 이미지 특징 추출을 위해서는 본고에서 제안한 CNN을 통한 학습 방식과 더불어 3개의 Pre-trained된 CNN 모델을 (InceptionV3, Densnet, Resnet-50) 사용하여 전이학습을 진행한다. 전이학습 시에는 마지막 분류 레이어층에서 본 논문에서 선택한 데이터셋에 대해서만 학습하도록 파인튜닝하였다. 결과적으로 가공된 악성코드 데이터를 적용하여 9개의 악성코드 패밀리로 분류하고 예측 정확도를 측정해 비교 분석한다.

DAKS: A Korean Sentence Classification Framework with Efficient Parameter Learning based on Domain Adaptation (DAKS: 도메인 적응 기반 효율적인 매개변수 학습이 가능한 한국어 문장 분류 프레임워크)

  • Jaemin Kim;Dong-Kyu Chae
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.678-680
    • /
    • 2023
  • 본 논문은 정확하면서도 효율적인 한국어 문장 분류 기법에 대해서 논의한다. 최근 자연어처리 분야에서 사전 학습된 언어 모델(Pre-trained Language Models, PLM)은 미세조정(fine-tuning)을 통해 문장 분류 하위 작업(downstream task)에서 성공적인 결과를 보여주고 있다. 하지만, 이러한 미세조정은 하위 작업이 바뀔 때마다 사전 학습된 언어 모델의 전체 매개변수(model parameters)를 학습해야 한다는 단점을 갖고 있다. 본 논문에서는 이러한 문제를 해결할 수 있도록 도메인 적응기(domain adapter)를 활용한 한국어 문장 분류 프레임워크인 DAKS(Domain Adaptation-based Korean Sentence classification framework)를 제안한다. 해당 프레임워크는 학습되는 매개변수의 규모를 크게 줄임으로써 효율적인 성능을 보였다. 또한 문장 분류를 위한 특징(feature)으로써 한국어 사전학습 모델(KLUE-RoBERTa)의 다양한 은닉 계층 별 은닉 상태(hidden states)를 활용하였을 때 결과를 비교 분석하고 가장 적합한 은닉 계층을 제시한다.

Development of a Korean Font Classification System for Images Based on Syllable-Level Text Recognition (글자 단위 텍스트 인식 기반의 이미지 내 한글 글꼴 분류 시스템 개발)

  • Sara Yu;Kim Yoon-Ju;Song Ji-Hyo;Ki Yong Lee
    • Annual Conference of KIPS
    • /
    • 2023.11a
    • /
    • pp.718-721
    • /
    • 2023
  • 이미지 내 글꼴을 파악하는 것은 디자인 자료 제작, 저작권 확인 등 다양한 곳에서 중요한 문제이다. 하지만 이미지 내 한글 글꼴을 자동으로 식별하는 시스템은 아직 존재하지 않으며, 수동으로 한글 글꼴을 파악하는 것은 시간과 정확도 측면에서 매우 비효율적이다. 따라서 본 논문에서는 이미지 내 한글 글꼴을 자동으로 인식하는 시스템을 개발한다. 본 논문에서 개발한 시스템은 크게 두 가지 기법을 사용한다: (1) 한글의 기하학적인 특성을 활용하여 글자 단위로 텍스트를 인식하며, (2) 단어가 아닌 글자 단위로 글꼴을 분류하고 각 글자에 대한 글꼴 분류 결과를 종합하여 최종적인 글꼴 분류 결과를 얻는다. 10가지 한글 글꼴이 나타나는 직접 제작한 이미지를 사용하여 시스템의 성능을 평가한 결과 제안 방법은 비교 방법에 비해 더욱 정확히 한글 글꼴을 분류함을 확인하였다.

Text Categorization Based on the Maximum Entropy Principle (최대 엔트로피 기반 문서 분류기의 학습)

  • 장정호;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.57-59
    • /
    • 1999
  • 본 논문에서는 최대 엔트로피 원리에 기반한 문서 분류기의 학습을 제안한다. 최대 엔트로피 기법은 자연언어 처리에서 언어 모델링(Language Modeling), 품사 태깅 (Part-of-Speech Tagging) 등에 널리 사용되는 방법중의 하나이다. 최대 엔트로피 모델의 효율성을 위해서는 자질 선정이 중요한데, 본 논문에서는 자질 집합의 선택을 위한 기준으로 chi-square test, log-likelihood ratio, information gain, mutual information 등의 방법을 이용하여 실험하고, 전체 후보 자질에 대한 실험 결과와 비교해 보았다. 데이터 집합으로는 Reuters-21578을 사용하였으며, 각 클래스에 대한 이진 분류 실험을 수행하였다.

  • PDF

커널 판별분석의 오분류확률에 대한 붓스트랩 조정

  • 백장선
    • Communications for Statistical Applications and Methods
    • /
    • v.2 no.2
    • /
    • pp.249-265
    • /
    • 1995
  • 본 논문에서는 확률분포가 알려져 있지 않은 두 모집단 중 어느 하나로 새로운 관측치를 분류할 때 오분류확률이 분석자에 의해 사전에 정해진 수준에 부합할 수 있도록 커널 판별함수의 임계치를 결정하였다. 정해진 오분류확률을 만족시키기 위한 판별함수의 임계치는 붓스트랩(bootstrap)기법을 판별 함수에 적용시켜 계산된다. 본 논문에서 제시도된 방법은 모집단에 대한 모수적 가정이 없으므로 어느 분포에도 적용가능하며, 모집단이 정규분포, 대수정규분포, 이산형과 연속형 변수가 혼합된 분포의 경우 모의실험을 통하여 그 성능에 대한 검증을 하였다.

  • PDF

Analysis on the patent of DTV techniques (디지털TV 기술의 특허 현황과 전망)

  • 원성구;최성진;이선희;이광직
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2002.11a
    • /
    • pp.315-318
    • /
    • 2002
  • 본 논문에서는 한국 미국, 유럽, 일본에서 출원된 디지털TV 기술에 관한 특허를 분석하였다. 먼저 디지털TV 기술의 분류는 대분류 4가지, 중분류 15가지, 소분류 40여가지로 하였으며, 조사 대상 특허 수는 IPC, UPC, G7에 1981년부터 2002년 4월까지 게재된 특허를 중심으로 한국 3,462건, 일본 2,358건, 유럽 1,596건, 미국 3,216건을 추출하였다. 이들 특허들에 관해 본 논문에서는 전체적인 특허 동향을 분석하고, 각국마다 대분류 및 중분류에 따른 특허 현황을 분석함으로서 국내에 취약한 기술부분을 도출하였다.

  • PDF