• 제목/요약/키워드: 대용량 분류

검색결과 243건 처리시간 0.026초

Spark 프레임워크를 적용한 대용량 SHIF 온톨로지 추론 기법 (An Approach of Scalable SHIF Ontology Reasoning using Spark Framework)

  • 김제민;박영택
    • 정보과학회 논문지
    • /
    • 제42권10호
    • /
    • pp.1195-1206
    • /
    • 2015
  • 지식 관리 시스템을 운영하기 위해서는 대량의 지식 정보를 자동으로 추론 및 관리하는 기술이 필요하다. 현재, 이러한 시스템의 대다수는 컴퓨터간의 지식 정보를 자동으로 교환하고 스스로 새로운 지식을 추론하기 위해 온톨로지를 적용하고 있다. 따라서 대용량의 온톨로지를 대상으로 새로운 정보를 추론하는 효율적인 기술이 요구되고 있다. 본 논문은 분산 클러스터의 메모리상에서 MapReduce와 유사한 작업을 수행하는 Spark 프레임워크를 적용하여, SHIF 수준으로 작성된 대용량의 온톨로지를 규칙 기반으로 추론하는 기술에 대해서 제안한다. 이에 본 논문은 다음 3 가지에 초점을 맞추어 설명을 한다. 클러스터내의 분산된 메모리상에서 대용량 추론을 실시하기 위해서, 먼저 각 추론 규칙에 따라 대용량의 온톨로지 트리플을 효과적으로 분류하여 적재하기 위한 자료구조, 두 번째 규칙간의 종속 관계와 상호 연관성에 따른 규칙 실행 순서와 반복 조건 정의, 마지막으로 규칙 실행에 필요한 명령을 정의하고 이러한 명령어를 실행하여 추론을 수행하는 알고리즘에 대해 설명한다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험을 수행하였다. 대표적인 분산클러스터 기반 대용량 온톨로지 추론 엔진인 WebPie와 비교 실험한 결과, LUBM에 대해서 WebPie의 추론 처리량이 553 트리플/초 인데 비해 284배 개선된 157k 트리플/초의 성능 향상이 있었다.

화상 정보의 DB 구축과 검색 요소

  • 안용남
    • 정보관리학회지
    • /
    • 제8권2호
    • /
    • pp.108-124
    • /
    • 1991
  • 정보량이 많은 사진과 같은 화상 정보는 대용량을 갖고 있는 광 디스크에 축적시켜 DB를 구축하고 이는 컴퓨터를 이용해 고속 검색할 수 있다. 사진 DB 구축은 사진의 양, 구 축 목적, 이용 대상, 활용 방법 등에 따라 방법을 달리할 수 있으며 이의 검색 요소에는 촬 영 행위, 촬영 조건, 표제, 주제의 4가지 요소가 있고 그 중 가장 중요시되는 주제 요소에는 감각 정보, 주제 분류, 키워드가 있다.

  • PDF

슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법 (A Sliding Window-based Multivariate Stream Data Classification)

  • 서성보;강재우;남광우;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.163-174
    • /
    • 2006
  • 분산 센서 네트워크에서 대용량 스트림 데이타를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이타를 전송하고 분석하는 것은 어렵고 바람직하지 않다. 그러므로 연속적으로 입력되는 데이타를 사전에 분류하여 특성에 따라 선택적으로 데이타를 처리하는 데이타 분류 기법이 요구된다. 이 논문에서는 다차원 센서에서 주기적으로 수집되는 스트림 데이타를 슬라이딩 윈도우 단위로 데이타를 분류하는 기법을 제안한다. 제안된 기법은 전처리 단계와 분류단계로 구성된다. 전처리 단계는 다변량 스트림 데이타를 포함한 각 슬라이딩 윈도우 입력에 대해 데이타의 변화 특성에 따라 문자 기호를 이용하여 다양한 이산적 문자열 데이타 집합으로 변환한다. 분류단계는 각 윈도우마다 생성된 이산적 문자열 데이타를 분류하기 위해 표준 문서 분류 알고리즘을 이용하였다. 실험을 위해 우리는 Supervised 학습(베이지안 분류기, SVM)과 Unsupervised 학습(Jaccard, TFIDF, Jaro, Jaro Winkler) 알고리즘을 비교하고 평가하였다. 실험결과 SVM과 TFIDF 기법이 우수한 결과를 보였으며, 특히 속성간의 상관 정도와 인접한 각 문자 기호를 연결한 n-gram방식을 함께 고려하였을 때 높은 정확도를 보였다.

대용량 DB를 사용한 지문인식 시스템 (A Fingerprint Identification System using Large Database)

  • 차정희;서정만
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.203-211
    • /
    • 2005
  • 본 논문에서는 대용량 DB에서 개인을 인식하는 새로운 자동 지문인식 시스템을 제안한다. 시스템은 전처리, 분류, 매칭의 3단계로 구성되는데, 분류단계에서는 방향성 이미지 분포의 통계적인 접근 방법에 기반한 새로운 분류기법을 제안하였고, 정합단계에서는 기존 알고리즘보다 더 빠르고 정확한, 개선된 특징점 후보쌍 추출 알고리즘을 제안하였다. 정확성을 위해 정합 단계에서 세선화된 이미지로부터 지문의 특징점을 추출하고 특징점의 연결정보를 사용한 정합과정을 소개한다. 특징점 정합과정에서 연결정보를 사용하는 것은 간단하지만 정확한 방법이며, 두 지문의 비교단계에서 빠르게 기준 특징점 쌍을 선택하는 문제를 해결해 준다. 알고리즘은 지문의 회전과 이동에 무관하다. 제안한 시스템은 반도체 칩방식 입력장치로부터 획득한 1000개의 지문영상으로 실험하였으며, 실험결과는 제안한 방법이 기존방법보다 오인식율은 줄어들고 정확도는 증가하였음을 보여준다.

  • PDF

쇼크 그래프를 이용한 효과적인 영상 군집화 (Effective Image Clustering Using Shock Graphsm)

  • 장석우;솔리마 카남;백우진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.249-252
    • /
    • 2011
  • 본 논문에서는 쇼크(shock) 그래프 기반의 뼈대 특징을 이용하여 모양 정보를 분류하기 위해 그래프 편집 거리(edit cost) 기반의 k-means 군집화 알고리즘을 적용하는 방법을 제안한다. 본 논문에서 제안된 방법에서는 먼저 질의 영상과 대상 데이터베이스 영상으로부터 뼈대 기반의 쇼크 그래프를 추출한 후 종점(end points)과 분기점(branch points)을 가중치를 이용하여 적응적으로 선택한다. 그런 다음, 두 영상 사이의 편집 거리를 구하여 이를 k-means 군집화 알고리즘의 거리 척도로 적용함으로써 대용량의 영상을 보다 효과적으로 분류한다. 성능을 평가하기 위해서 제안된 알고리즘을 MPEG-7 데이터베이스에 적용하였으며, 그 결과 제안된 영상 분류 방법이 기존의 영상 분류 방법에 비해서 보다 효과적으로 모양 기반의 영상을 분류하였음을 확인하였다.

  • PDF

SIFT 알고리즘을 이용한 플리커 이미지 자동분류 (Flickr Image Classification using SIFT Algorism)

  • 장현웅;조수선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1394-1396
    • /
    • 2013
  • 플리커와 같은 대용량 영상저장 및 공유 사이트가 인기를 끌면서 이미지 정보의 양은 점점 늘어나고 있고 사용자들은 정확한 이미지 정보 검색을 요구하고 있다. 태그기반의 이미지 검색에서 정확도를 높이기 위하여 태그들의 의미적 연관성을 이용하는 등 다양한 연구가 진행되고 있다. 본 논문에서는 특징점 추출에 기반하여 이미지를 분류하는데 뛰어난 성능을 가진 SIFT알고리즘을 사용하여 플리커 이미지를 분류하는 방법을 제안한다. 위키피디아 의미 연관성을 이용해 태그 정보로 1차 분류된 데이터베이스에 SIFT알고리즘을 사용해본 결과 기존의 SURF를 사용한 연구보다 높은 정확성을 보이는 것을 확인하였다. 따라서 이 방법을 통하여 다양한 이미지를 더욱 정확하게 분류할 수 있을 것으로 기대한다.

ManiFL을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using ManiFL)

  • 김완수;신준철;박서연;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.633-636
    • /
    • 2021
  • 개체명 인식은 주어진 문장 안의 고유한 의미가 있는 단어들을 인명, 지명, 단체명 등의 미리 정의된 개체의 범주로 분류하는 문제이다. 최근 연구에서는 딥 러닝, 대용량 언어 모델을 사용한 연구들이 활발하게 연구되어 높은 성능을 보이고 있다. 하지만 이러한 방법은 대용량 학습 말뭉치와 이를 처리할 수 있는 높은 연산 능력을 필요로 하며 모델의 실행 속도가 느려서 실용적으로 사용하기 어려운 문제가 있다. 본 논문에서는 얕은 기계 학습 기법을 적용한 ManiFL을 사용한 개체명 인식 시스템을 제안한다. 형태소의 음절, 품사 정보, 직전 형태소의 라벨만을 자질로 사용하여 실험하였다. 실험 결과 F1 score 기준 90.6%의 성능과 초당 974 문장을 처리하는 속도를 보였다.

  • PDF

대용량 천문 응용 수행을 위한 사이언스 클라우드 테스트베드 구축 연구 (Study on Building Science Cloud Testbed for Massive Astronomical Applications)

  • 김주현;권오경;정용환;곽재혁;김상완;윤준원;함재균
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.25-28
    • /
    • 2011
  • 최근 사이언스 컴퓨팅 분야에서 대용량 데이터가 발생하고 있고 컴퓨팅 자원들의 수요도 급증하고 있다. 이로 인해 클라우드 컴퓨팅 기술의 필요성이 중요시되고 있고 전 세계적으로 급속히 발전하고 있다. 천문 연구 분야에서 관측기기의 발전으로 대용량의 천문 데이터가 생산되고 있다. 이를 처리하기 위하여 다양한 클라우드 컴퓨팅 기술을 이용한 데이터 분석 환경이 요구되고 있다. 이러한 환경을 구축하기 위해서는 가상 인프라 자원을 효율적으로 관리할 수 있어야 한다. 현재 가상 인프라 자원을 관리하기 위해 오픈 소스를 개발하는 프로젝트들이 활발히 진행되고 있다. 본 논문에서는 오픈 소스인 Eucalyptus와 OpenNebula의 기능적인 측면을 크게 10가지로 분류하여 장단점을 비교 분석하였고 OpenNebula의 세 가지 특징인 중앙 집중화된 구조, live migration과 suspend/resume 기능, 커스터마이징 기능이 대용량 천문 응용 수행을 위한 환경을 구축하는데 반드시 필요하기 때문에 OpenNebula를 채택하였다. OpenNebula를 사용해 구축한 사이언스 클라우드 테스트베드는 NFS 서버의 별도 구성을 통한 성능 개선, 하이브리드 클라우드 컴퓨팅 환경 구축, B클래스 사설 네트워크 구성, GUI 기반 사이언스 클라우드 테스트베드 관리 및 모니터링 기능의 4가지 특징을 가지고 있다. 앞으로도 천문 연구자들에게 안정적인 서비스를 제공하기 위하여 관련 연구를 계속할 것이다.

PSO(Particle Swarm Optimization) Algorithm의 DNA Chip 데이터 Classification (Classifying DNA Chip Data of Particle Swarm Optimization Algorithm)

  • 최옥주;맹보연;이윤경;이민수;윤경오;최혜연;김대현;이근일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.64-67
    • /
    • 2008
  • DNA Chip을 이용한 실험은 그 결과에 대하여 대용량의 정보를 쏟아내고 있다. 이러한 데이터를 분석하는 다양한 기법 중, 미리 정해진 클래스에 데이터를 해당하는 클래스로 분류하는 기법인 분류화를 수행하여 의도한 목표를 위한 규칙을 찾아내고자 한다. 본 논문에서는 이를 위해 DNA Chip과 같은 방대한 양의 정보 분석에 대하여 적합한 생태계 모방 알고리즘인 PSO Algorithm을 사용하여 분류 규칙을 발견하여 이를 데이터에 적용, 분류하는 연구를 기술하고 있다.

  • PDF

자연어 질의유형 판별과 응답 추출을 위한 어휘 의미 체계에 관한 연구 (A Study on Work Semantic Categories for Natural Language Question Type Classification and Answer Extraction)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권6호
    • /
    • pp.539-545
    • /
    • 2004
  • 자연어 질의를 입력하고 문서로부터 질의에 대한 정답을 추출하여 제공하는 질의응답 시스템에서는 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 과정이 매우 중요하다. 본 논문에서는 질의 유형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의의 의도를 나타내는 어휘들을 추출하고 인접 명사들의 의미 정보를 이용하여 질의 및 정답 유형을 결정할 수 있는 방법을 제안한다. 또 동의어 정보와 접미사 정보를 이용하고, 의문사가 생략된 경우 어휘 의미 정보를 이용하여 질의 유형 분류기의 성능을 향상시킬 수 있음을 보인다.

  • PDF