• Title/Summary/Keyword: 자동 코드 분류

Search Result 79, Processing Time 0.037 seconds

An automated Classification System of Standard Industry and Occupation Codes by Using Information Retrieval Techniques (정보검색 기법을 이용한 산업/직업 코드 자동 분류 시스템)

  • Lim, Heui Seok
    • The Journal of Korean Association of Computer Education
    • /
    • v.7 no.4
    • /
    • pp.51-60
    • /
    • 2004
  • This paper proposes an automated coding system of Korean standard industry/occupation for census which reduces a lot of cost and labor for manual coding. The proposed system converts natural language responses on survey questionnaires into corresponding numeric codes using information retrieval techniques and document classification algorithm. The system was experimented with 46,762 industry records and occupation 36,286 records using 10-fold cross -validation evaluation method. As experimental results, the system show 87.08% and 66.08% production rates when classifying industry records into level 2 and level 5 codes respectively. The system shows slightly lower performances on occupation code classification. We expect that the system is enough to be used as a semi-automate coding system which can minimize manual coding task or as a verification tool for manual coding results though it has much room to be improved as an automated coding system.

  • PDF

Automatic Generation of Standard Classification Code (표준 통계 분류 코드 자동 생성)

  • Lim, Heui-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2006.05a
    • /
    • pp.388-390
    • /
    • 2006
  • 본 논문은 수동 코드 분류 규칙과 예제기반의 자동 학습을 이용하는 한국어 표준 산업/직업 코드 자동분류 시스템을 제안한다. 제안된 시스템은 산업과 직업에 대하여 설명하는 자연어를 입력받아 해당 산업/직업 분류 코드를 생성하는 시스템으로 수작업으로 구축된 규칙을 적용한 후 규칙이 적용되지 않는 레코드는 예제 기반의 학습을 이용한 자동 분류 시스템에 의해서 해당 코드를 할당한다.

  • PDF

An Example-based Korean Standard Industrial and Occupational Code Classification (예제기반 한국어 표준 산업/직업 코드 분류)

  • Lim Heui-Seok
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.7 no.4
    • /
    • pp.594-601
    • /
    • 2006
  • Coding of occupational and industrial codes is a major operation in census survey of Korean statistics bureau. The coding process has been done manually. Such manual work is very labor and cost intensive and it usually causes inconsistent results. This paper proposes an automatic coding system based on example-based learning. The system converts natural language input into corresponding numeric codes using code generation system trained by example-based teaming after applying manually built rules. As experimental results performed with training data consisted of 400,000 records and 260 manual rules, the proposed system showed about 76.69% and 99.68% accuracy for occupational code classification and industrial code classification, respectively.

  • PDF

Automating Scanned Document Classification Using ColorCode (컬러코드를 이용한 스캔 문서 분류 자동화)

  • Sang-Kil Ahn;Byung-Uk Choi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.766-769
    • /
    • 2008
  • 디지털 형태의 문서가 널리 퍼지고 끊임없이 증가함에 따라 이를 자동으로 가공하고 처리하는 문서자동분류의 중요성이 널리 인식되고 있다. 본 논문에서는 복합기에서 컬러코드를 인식하는 모듈을 탑재하여 스캔된 문서를 자동으로 분류하는 시스템을 제안하고자 한다. 복합기에서 컬러코드가 부착된 종이문서를 스캔한 다음 그 컬로코드를 추출하여 인식하고 해당 컬러코드와 관련된 문서관리정보에 따라 스캔문서를 복합기 내부의 지정 폴더에 저장하거나 다른 곳으로 전달하는 시스템이다. 이렇게 함으로써 종이문서를 전자화하는 과정에서 수작업으로 분류하는 시간을 줄일 수 있고 또한 사람에 의한 오류를 줄일 수 있다는 장점이 있다.

Malware Classification and Analysis of Automated Malware Analysis System (악성코드 자동 분석 시스템의 결과를 이용한 악성코드 분류 및 분석)

  • Na, Jaechan;Jo, Yeong-Hun;Youn, Jonghee M.
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.490-491
    • /
    • 2014
  • 쿠쿠 샌드박스(Cuckoo Sandbox)는 가상머신을 이용해 악성코드를 자동으로 동적 분석할 수 있는 도구이다. 우선 악성코드의 MD5값을 이용하여 VirusTotal을 이용해 종류를 분류하고, 쿠쿠 샌드박스로 악성코드 동적을 분석하여 결과파일을 이용해 악성코드에서 호출한 API들에 대한 정보를 추출하고, 다양한 종류별 악성코드 그룹에 대해서 API빈도를 종합하고, 또한 다른 종류군의 악성코드 그룹과 API 빈도를 비교해 특정 종류의 악성코드 그룹에 대한 특징적인 API를 찾아내어 향후 이런 특징 API들을 이용해 악성코드의 종류를 자동으로 판정하기 위한 방법을 제시한다.

A Study for Customer Clustering Mechanism using Automatic Meter Reading Data (자동검침 데이터를 이용한 고객 분류 기법에 대한 연구)

  • Kim, Young-Il;Shin, Jin-Ho;Song, Jae-Ju;Yi, Bong-Jae
    • Proceedings of the KIEE Conference
    • /
    • 2008.07a
    • /
    • pp.179-180
    • /
    • 2008
  • 배전선로의 효과적인 운영을 위해 최근 들어 자동검침 데이터를 활용한 부하분석에 대한 연구가 진행되고 있다. 일반적인 부하분석 방식은 자동검침 고객의 데이터를 이용하여 대표 부하패턴을 생성하고 이를 이용하여 미 검침 고객의 부하패턴을 생성하여, 전체 배전선로의 회선 및 구간에 대한 15분/시간/일/주/월 단위의 최대부하 및 부하패턴 등을 분석하는 방법이다. 기존에는 고객을 분류하기 위해 계약종별 코드만을 사용하였으나, 같은 계약종별 코드를 갖는 고객이라 하더라도 부하패턴이 다른 경우가 많아서 부하분석의 정확도를 떨어뜨렸다. 본 연구에서는 고객의 계약종별 코드뿐 아니라 다양한 고객속성 정보와 15분 단위 자동검침 데이터를 이용하여 k-means 기법을 통해 고객을 분류하는 방식을 제안하였다.

  • PDF

Generating Malware DNA to Classify the Similar Malwares (악성코드 DNA 생성을 통한 유사 악성코드 분류기법)

  • Han, Byoung-Jin;Choi, Young-Han;Bae, Byung-Chul
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.23 no.4
    • /
    • pp.679-694
    • /
    • 2013
  • According to the national information security white paper 2013, the number of hacking attempt in 2012 is 17,570 which is increased by 67.4% than in 2011, and it has been increasing year after year. The cause of this increase is considered as pursuit of monetary profit and diversification techniques of infection. However, because the development of malicious code faster than the increase in the number of experts to analyze and respond the malware, it is difficult to respond to security threats due to malicious code. So, the interest on automatic analysis tools is increasing. In this paper, we proposed the method of malware classification by similarity using malware DNA. It helps the experts to reduce the analysis time, to increase the correctness. The proposed method generates 'Malware DNA' from extracted features, and then calculates similarity to classify the malwares.

An Automated Industry and Occupation Coding System using Deep Learning (딥러닝 기법을 활용한 산업/직업 자동코딩 시스템)

  • Lim, Jungwoo;Moon, Hyeonseok;Lee, Chanhee;Woo, Chankyun;Lim, Heuiseok
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.4
    • /
    • pp.23-30
    • /
    • 2021
  • An Automated Industry and Occupation Coding System assigns statistical classification code to the enormous amount of natural language data collected from people who write about their industry and occupation. Unlike previous studies that applied information retrieval, we propose a system that does not need an index database and gives proper code regardless of the level of classification. Also, we show our model, which utilized KoBERT that achieves high performance in natural language downstream tasks with deep learning, outperforms baseline. Our method achieves 95.65%, 91.51%, and 97.66% in Occupation/Industry Code Classification of Population and Housing Census, and Industry Code Classification of Census on Basic Characteristics of Establishments. Moreover, we also demonstrate future improvements through error analysis in the respect of data and modeling.

Behavior based Malware Profiling System Prototype (행위기반 악성코드 프로파일링 시스템 프로토타입)

  • Kang, Hong-Koo;Yoo, Dae-Hoon;Choi, Bo-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.376-379
    • /
    • 2017
  • 전 세계적으로 악성코드는 하루 100만개 이상이 새롭게 발견되고 있으며, 악성코드 발생량은 해마다 증가하고 있는 추세이다. 공격자는 보안장비에서 악성코드가 탐지되는 것을 우회하기 위해 기존 악성코드를 변형한 변종 악성코드를 주로 이용한다. 변종 악성코드는 자동화된 제작도구나 기존 악성코드의 코드를 재사용하므로 비교적 손쉽게 생성될 수 있어 최근 악성코드 급증의 주요 원인으로 지목되고 있다. 본 논문에서는 대량으로 발생하는 악성코드의 효과적인 대응을 위한 행위기반 악성코드 프로파일링 시스템 프로토타입을 제안한다. 동일한 변종 악성코드들은 실제 행위가 유사한 특징을 고려하여 악성코드가 실행되는 과정에서 호출되는 API 시퀀스 정보를 이용하여 악성코드 간 유사도 분석을 수행하였다. 유사도 결과를 기반으로 대량의 악성코드를 자동으로 그룹분류 해주는 시스템 프로토타입을 구현하였다. 악성코드 그룹별로 멤버들 간의 유사도를 전수 비교하므로 그룹의 분류 정확도를 객관적으로 제시할 수 있다. 실제 유포된 악성코드를 대상으로 악성코드 그룹분류 기능과 정확도를 측정한 실험에서는 평균 92.76%의 분류 성능을 보였으며, 외부 전문가 의뢰에서도 84.13%로 비교적 높은 분류 정확도를 보였다.

A Study of Malware Detection and Classification by Comparing Extracted Strings (문자열 비교 기법을 이용한 악성코드 탐지 및 분류 연구)

  • Lee, Jinkyung;Im, Chaetae;Jeong, Hyuncheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1245-1248
    • /
    • 2010
  • 최근 급격하게 증가하고 있는 악성코드에 비해 이들을 분석하기 위한 전문 인력은 매우 부족하다. 다행히 양산되는 악성코드의 대부분은 기존의 것을 수정한 변종이기 때문에 이들에 대해서는 자동분석시스템을 활용해서 분석하는 것이 효율적이다. 악성코드 자동분석에는 동적 분석과 정적 분석 모두가 사용되지만 정적 분석은 여러 가지 한계점 때문에 아직까지도 개선된 연구를 필요로 한다. 본 논문은 문자열 비교를 통해 두 실행파일에 대한 유사도를 측정함으로써 악성코드 판별 및 분류를 도와주는 정적 분석기법을 제안한다. 제안된 방법은 비교 문자열의 수와 종류에 따라 그 성능이 결정되기 때문에 문자열들을 정제하는 과정이 선행된다. 또한 유사도 측정에 있어서 악성코드가 가지는 문자열들의 특성을 고려한 개선된 비교방법을 보인다.