• 제목/요약/키워드: 대용량 분류

검색결과 243건 처리시간 0.023초

대용량 문서 데이터베이스를 위한 효율적인 점진적 문서 클러스터링 기법 (An Effective Incremental Text Clustering Method for the Large Document Database)

  • 강동혁;주길홍;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되고 있으며, 문서 단위별 표현된 많은 정보들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서들을 주제별로 통합하는 방법으로 대용량의 문서들을 자동으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 본 논문에서는 새로운 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고, 이미 생성된 클러스터들의 구조를 적극적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 클러스터링의 정확도를 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안하고, 문서 클러스터링에서 정확한 단어가중치 산출을 위해 TF$\times$IDF 공식을 수정한 TF$\times$NIDF 공식을 제안한다.

대용량 조명연출을 위한 마스터-슬레이브 구조와 동기화 방안 (The Master-Slave structure and Synchronization Method for a higher-Capacity Lighting Performance)

  • 최성철;이원호;문병구
    • 한국산학기술학회논문지
    • /
    • 제11권7호
    • /
    • pp.2559-2564
    • /
    • 2010
  • 현재의 실내 실외의 조명 산업은 반도체 LED를 이용한 R(빨강), G(초록), B(파랑)를 각각 제어 연출하여 대형화, 시스템화 되어가고 있다. 조명 산업의 통신 제어 표준인 DMX512(ANSI E1.11) 프로토콜은 최대 512개의 조명등 또는 24bit 트루 칼라로 표현할 경우 최대 170개의 조명등을 연출할 수 있다. 요즘 100개 이하의 조명등 연출은 소규모 연출로 분류되고 있어 본 논문은 1000개 이상의 대용량 조명 연출을 위하여 1대 마스터 컨트롤러에 최대 32대의 슬레이브 컨트롤러를 연결할 수 있는 마스터-슬레이브 구조를 제안한다. 또한, 슬레이브 컨트롤러들이 설계된 하나의 연출을 달성하기 위한 동기화(synchronization) 방안도 제안한다. 제안하는 방안은 마스터가 400ms 마다 동기화 신호를 송신하고 슬레이브들은 이 신호를 수신하여 DMX512 출력의 기본이 되는 타이머를 초기화하여 동기화를 구현하였다. 제안된 방안으로 설계 제작되어 상용화된 운영 사례를 소개한다.

대용량 악성코드의 특징 추출 가속화를 위한 분산 처리 시스템 설계 및 구현 (Distributed Processing System Design and Implementation for Feature Extraction from Large-Scale Malicious Code)

  • 이현종;어성율;황두성
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권2호
    • /
    • pp.35-40
    • /
    • 2019
  • 기존 악성코드 탐지는 다형성 또는 난독화 기법이 적용된 변종 악성코드 탐지에 취약하다. 기계학습 알고리즘은 악성코드에 내재된 패턴을 학습시켜 유사 행위 탐지가 가능해 기존 탐지 방법을 대체할 수 있다. 시간에 따라 변화하는 악성코드 패턴을 학습시키기 위해 지속적으로 데이터를 수집해야한다. 그러나 대용량 악성코드 파일의 저장 및 처리 과정은 높은 공간과 시간 복잡도가 수반된다. 이 논문에서는 공간 복잡도를 완화하고 처리 시간을 가속화하기 위해 HDFS 기반 분산 처리 시스템을 설계한다. 분산 처리 시스템을 이용해 2-gram 특징과 필터링 기준에 따른 API 특징 2개, APICFG 특징을 추출하고 앙상블 학습 모델의 일반화 성능을 비교했다. 실험 결과로 특징 추출의 시간 복잡도는 컴퓨터 한 대의 처리 시간과 비교했을 때 약 3.75배 속도가 개선되었으며, 공간 복잡도는 약 5배의 효율성을 보였다. 특징 별 분류 성능을 비교했을 때 2-gram 특징이 가장 우수했으나 훈련 데이터 차원이 높아 학습 시간이 오래 소요되었다.

그린 환경을 위한 웹기반 대용량 이미지 콘텐츠 검색 시스템 설계 및 구현 (Design and Implementation of Web-based Retrieval System for Massive Image Contents in Green Computing Environment)

  • 나문성;이재동
    • 한국산업정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.113-123
    • /
    • 2009
  • 환경에 대한 문제가 대두됨에 따라, 에너지와 자원의 소비를 억제하고 탄소 배출을 줄이기 위한 노력들이 진행되고 있다. 그 중 다양한 형태의 문서들을 디지털로 변환하여 컴퓨터상에 파일로 보관하고, 이를 전자 문서 또는 전자 이미지 형태로 제공하여 에너지와 자원을 줄이기 위한 노력들이 진행되고 있다. 하지만, 디지털화 된 이미지 데이터들은 인터넷상에 표준화되지 못한 채 산재해 있어 이를 활용하기 위해서는 많은 시간과 노력이 필요하게 된다. 이에 따라 전력 소비 및 자원의 소비가 다시 증가하게 된다. 본 논문에서는 인터넷 상에 존재하는 디지털화된 이미지 데이터의 효율적인 관리와 제공을 통해 에너지와 자원의 소비를 줄이기 위한 시스템을 설계하고 구현한다. 웹상에 존재하는 대용량의 이미지 콘텐츠들을 보다 정확하게 분류하고 사용자가 원하는 이미지 콘텐츠를 정확하고 빠르게 제공해 줌으로써 이미지 데이터에 대한 에너지와 자원의 소비를 줄일 수 있다.

DNS 트래픽 기반의 사이버 위협 도메인 탐지 (Detecting Cyber Threats Domains Based on DNS Traffic)

  • 임선희;김종현;이병길
    • 한국통신학회논문지
    • /
    • 제37B권11호
    • /
    • pp.1082-1089
    • /
    • 2012
  • 최근 사이버 공간에서는 대규모 사이버 공격들을 위해 봇넷(Botnet)을 형성하여 자산 손실과 같은 경제적 위협뿐만 아니라 Stuxnet과 같은 국가적으로 위협이 되고 있다. 진화된 봇넷은 DNS(Domain Name System)를 악용하여 C&C 서버와 좀비간의 통신 수단으로 사용하고 있다. DNS는 인터넷에서의 주요 인프라이고, 무선 인터넷의 대중화로 지속적으로 DNS 트래픽이 증가되고 있다. 반면에, 도메인 주소를 이용한 공격들도 증가되고 있는 현실이다. 본 논문에서는 지도 학습 기반의 데이터 분류 기술을 이용한 DNS 트래픽 기반의 사이버 위협 도메인 탐지 기술에 대해 연구한다. 더불어, 개발된 DNS 트래픽을 이용한 사이버위협 도메인 탐지 시스템은 대용량의 DNS데이터를 수집, 분석, 정상/비정상 도메인 분류 기능을 제공한다.

러프집합 이론을 이용한 러프 엔트로피 기반 지식감축 (Rough Entropy-based Knowledge Reduction using Rough Set Theory)

  • 박인규
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.223-229
    • /
    • 2014
  • 대용량의 지식베이스 시스템에서 유용한 정보를 추출하여 효율적인 의사결정을 수행하기 위해서는 정제된 특징추출이 필수적이고 중요한 부분이다. 러프집합이론에 있어서 최적의 리덕트의 추출과 효율적인 객체의 분류에 대한 문제점을 극복하고 자, 본 연구에서는 조건 및 결정속성의 효율적인 특징추출을 위한 러프엔트로피 기반 퀵리덕트 알고리듬을 제안한다. 제안된 알고리듬에 의해 유용한 특징을 추출하기 위한 조건부 정보엔트로피를 정의하여 중요한 특징들을 분류하는 과정을 기술한다. 또한 본 연구의 적용사례로써 실제로 UCI의 5개의 데이터에 적용하여 특징을 추출하는 시뮬레이션을 통하여 본 연구의 모델링이 기존의 방법과 비교결과, 제안된 방법이 효율성이 있음을 보인다.

데이터 마이닝 도구 XM-Tool/Miner 개발에 관한 연구 (A Study on the Development of Data Mining Tool named XM-Tool/Miner)

  • 이남근;이창호;김주용;이병엽;이승희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.23-26
    • /
    • 2000
  • 정보기술이 발달하면서 자료의 흔적들이 체계화된 데이터베이스에 저장이 되고, 더불어 데이터베이스의 규모는 점점 커지고 있다. 데이터 마이닝은 이런 방대한 자료의 분석을 통해, 그 속에 숨어있는 의미를 찾는 과정이라고 볼 수 있다. 본 논문에서는 대용량 데이터베이스에 존재하는 여러 유용한 지식을 추출하는 방법으로서 데이터 마이닝을 분류화, 클러스터링, 요약규칙, 시간에 따른 분석 및 예측등으로 분류하여 요약, 제시하였고, 이렇게 추출된 패턴, 정보, 지식들의 유용성을 측정하는 지표를 정리하였다. 개발된 XM-Tool/Miner은 문제 중심적 마이닝 도구를 목표로 하였으며, 대표적인 마이닝 알고리즘을 적용하였고, 또한 사용의 편이성에 초점을 맞추었다. 더 나아가 데이터 마이닝 기법뿐만 아니라 데이터의 샘플링과 성능향상을 통하여 방대한 데이터로부터 다양한 지식탐사가 가능해지고, 발견된 규칙 또는 지식의 유용성 측정을 통하여 업무 분야의 특성에 따라 효과적으로 반영되며 의사결정 및 CRM 마케팅, 동향분석 및 예측 등에 유용한 정보를 추출하는 도구로 사용할 수 있을 것이다.

  • PDF

스마트폰 내장 가속도 센서를 이용한 2단계 행위 인식 시스템의 설계 및 구현 (Design and Implementation of a Two-Phase Activity Recognition System Using Smartphone's Accelerometers)

  • 김종환;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.87-92
    • /
    • 2014
  • 본 논문에서는 스마트폰 내장 가속도 센서를 이용한 2단계 행위 인식 시스템을 제안한다. 제안하는 행위 인식 시스템에서는 각 행위 별 가속도 데이터의 시간적 변화 패턴을 충분히 반영하기 위해, 1단계에서는 결정트리(DT) 학습을 수행하고, 2단계에서는 1단계 분류 결과들의 시퀀스를 이용하여 은닉 마코프 모델(HMM) 학습을 수행한다. 또한, 견고한 행위 인식기를 얻기 위해, 동일한 행위에 대해 서로 사용자와 서로 다른 스마트폰 위치와 방향으로부터 수집한 다양한 대용량 데이터를 이용하여 본 시스템을 훈련하였다. 6가지 실내 행위들에 대해 수집한 6720개의 가속도 센서 데이터를 이용한 실험을 통해, 본 시스템은 앞서 설명한 설계 방식을 기초로 높은 인식 성능을 보여주었다.

삼킴장애 분석을 위한 멀티프레임 의료영상 라벨링 웹 애플리케이션 구현 (Implementation of Multi-frame Medical Image Labeling Web Application for Swallowing Disorder Analysis)

  • 임동욱;이충섭;노시형;박철;김민수;문희경;정창원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.8-10
    • /
    • 2023
  • 삼킴장애는 음식물이 입에서 식도로 가지않고 걸리거나 기도(Trachea)로 흡입되는 문제를 갖는 상태이다. 특히 노인이나 신경계 질환을 앓는 환자의 경우 기도로 흡입된 음식덩이가 폐렴을 일으키고 결국에는 사망으로 이어지기에 적절한 치료와 관리가 요구된다. 보통 영상으로 판단할 수 있는 삼킴단계는 구강준비단계(Oral Preparatory Phase), 구강단계(Oral Phase), 인두단계(Pharyngeal Phase), 식도단계(Esophageal Phase) 4가지로 분류하고 삼킴장애는 침습(Penetration)과 흡인(Aspiration)으로 크게 2가지로 분류한다. 본 논문에서는 이러한 6가지 클래스를 가지는 삼킴장애 환자 비디오 파일을 라벨링하기 위한 웹 애플리케이션을 제안한다. 이를 구현하기 위해서 대용량 멀티프레임 이미지를 수신해서 분리하여 저장하도록 개발하였다. 또한 음식덩이를 정교하게 분할할 수 있도록 GrabCut 알고리즘을 적용하여 라벨링할 수 있도록 하였다. 차후 라벨러와 전문의 간의 협업이 가능하도록 라벨링 데이터의 상태를 관리할 수 있도록 개발하고자 한다.

SOM을 이용한 고객의 이탈 가능성 분석 및 이탈 방지 방법론

  • 채경희;김재경;송희석
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2004년도 춘계공동학술대회 논문집
    • /
    • pp.694-697
    • /
    • 2004
  • 최근 빠르게 성숙되고 있는 시장과 경쟁적 환경으로 인해 고객 유지에 대한 중요성이 증대되고 있다. 이는 기존 고객을 유지하는 것이 비용 면에서 저렴할 뿐 아니라, 고객 충성도나 구전효과가 같은 기타 부수적인 이득을 획득할 수 있다는 측면에서 유리하기 때문이다. 본 논문은 고객의 이탈 가능성을 미리 예측하고 이를 사전에 방지할 수 있는 고객 유지 절차를 제시하고 있다. 이탈고객의 탐지 및 방지를 위해서는 기존의 인구통계학적 자료 외에도 웹로그, 구매 Database 등의 대용량의 고객 행위 데이터에 대한 분석이 요구되기 때문에 데이터 마이닝 기법의 활용이 필수적이다. 그러나 대부분의 데이터 마이닝 연구는 예측 및 분류의 정확성이 높은 모델을 개발하는데 초점이 맞추어져 있으며, 고객의 행위를 이해하고 바람직한 방향으로 유도하고자 하는 연구는 지극히 부족한 상황이다. 그러므로 본 논문은 다양한 데이터마이닝 기법을 통합하여 잠재 이탈고객을 탐지하고, 기존 연구에서 간과하고 있던 비용적 측면을 고려한 이탈 방지 절차를 제시하고자 한다.

  • PDF