• 제목/요약/키워드: 분류화

검색결과 4,822건 처리시간 0.033초

개인화 된 특허 분류 시스템 사례 연구 (A Case Study on Personalized Patent Classification System)

  • 서형국;최광선;안한준;최성준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.241-245
    • /
    • 2006
  • 개인화 된 특허 분류 시스템은 기존의 자동 분류 및 특허 문서의 특성, 그리고 분류 체계의 개인화를 고려하여 접근해야 한다. 본 논문에서는 개인화 된 특허 분류 시스템을 구축하는데 있어 개인화된 분류 체계 및 모델의 구축, 특히 분류체계 구축에 있어서의 자동화에 초점을 두었다. 우리는 특히 분류체계 구축 자동화에 있어 특허 문서의 기존 분류체계인 IPC 및 문서 클러스터링을 활용하였다. 다음으로 이를 기반으로 한 구축 시스템 사례를 들었다. 구축 후 나타난 정성적 문제점을 분석해보고, 분석 결과를 향후 연구 방향으로 삼고자 한다.

  • PDF

시계열 인체 센서 데이터의 분류화 기법의 설계와 구현 (Design and implementation of a classification method for time series body sensor data)

  • ;맹보연;이민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.140-141
    • /
    • 2010
  • 무선 통신의 발달과 센서 장비의 소형화로 인하여 다양한 인체 센서들이 개발되고 있으며 이에 따라 이들 인체 센서로부터 생성되는 데이터를 누적하여 분석 및 예측을 해야 할 필요성이 증가하고 있다. 본 연구에서는 누적된 인체 센서 데이터에 대한 분류화 기법을 제안하여 구현하고 성능을 검증하였다. 분류화 기법은 인체 센서 데이터에 잘 적용될 수 있는 지지벡터 기계를 활용하여 구현하였다. 인체 센서 데이터의 대표패턴 정의와 실험을 위한 잡음 생성을 통하여 분류화 정확도를 높일 수 있도록 실험을 설계하였고 다양한 설정 변수에서도 기법을 실험하여 빠르고 정확한 기법을 설계 및 구현하였다.

SVM 분류기를 이용한 문서 범주화 연구 (An Experimental Study on Text Categorization using an SVM Classifier)

  • 정영미;임혜영
    • 정보관리학회지
    • /
    • 제17권4호
    • /
    • pp.229-248
    • /
    • 2000
  • 문서 범주화에 이용되는 학습알고리즘 중에서 이원 패턴인식 문제를 해결하기 위해 제안된 SVM은 다른 분류기 보다 우수한 성능을 보이고 있다. 본 연구에서는 Reuters-21578 (ModApte 분할판)을 대상으로 SVM 분류기를 이용하여 단어빈도, 역문헌빈도, 문헌길이 정규화 공식을 자질에 대한 가중치로 적용하여 성능을 평가하고, 선형 SVM과 비선형 SVM의 분류 성능을 비교하였다. 또한 이원 분류기를 승자독식 방법과 쌍단위 분류방법에 의해 다원 분류기로 확정하여 실험한 후 이원 분류기와의 성능을 비교 분석하였다.

  • PDF

한국어 분류를 위한 효율적인 서브 워드 분절 (Efficient Subword Segmentation for Korean Language Classification)

  • 서현진;남정재;김민석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.535-540
    • /
    • 2022
  • Out of Vocabulary(OOV) 문제는 인공신경망 기계번역(Neural Machine Translation, NMT)에서 빈번히 제기되어 왔다. 이를 해결하기 위해, 기존에는 단어를 효율적인 압축할 수 있는 Byte Pair Encoding(BPE)[1]이 대표적으로 이용되었다. 하지만 BPE는 빈도수를 기반으로 토큰화가 진행되는 결정론적 특성을 취하고 있기에, 다양한 문장에 관한 일반화된 분절 능력을 함양하기 어렵다. 이를 극복하기 위해 최근 서브 워드를 정규화하는 방법(Subword Regularization)이 제안되었다. 서브 워드 정규화는 동일한 단어 안에서 발생할 수 있는 다양한 분절 경우의 수를 고려하도록 설계되어 다수의 실험에서 우수한 성능을 보였다. 그러나 분류 작업, 특히 한국어를 대상으로 한 분류에 있어서 서브 워드 정규화를 적용한 사례는 아직까지 확인된 바가 없다. 이를 위해 본 논문에서는 서브 워드 정규화를 대표하는 두 가지 방법인 유니그램 기반 서브 워드 정규화[2]와 BPE-Dropout[3]을 이용해 한국어 분류 문제에 대한 서브 워드 정규화의 효과성을 제안한다. NMT 뿐만 아니라 분류 문제 역시 단어의 구성성 및 그 의미를 파악하는 것은 각 문장이 속하는 클래스를 결정하는데 유의미한 기여를 한다. 더불어 서브 워드 정규화는 한국어의 문장 구성 요소에 관해 폭넓은 인지능력을 함양할 수 있다. 해당 방법은 본고에서 진행한 한국어 분류 과제 실험에서 기존 BPE 대비 최대 4.7% 높은 성능을 거두었다.

  • PDF

Particle Swarm Optimization 알고리즘을 이용한 바이오칩 데이터의 군집화 및 분류화 기법 (Clustering and Classifying DNA Chip Data using Particle Swarm Optimization Algorithm)

  • 이윤경;윤혜정;이민수;윤경오;최혜연;김대현;이근일;김대영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.151-154
    • /
    • 2007
  • 바이오 칩 분석 시스템은 다양한 종류의 바이오칩에서 자료를 추출하고 유용한 정보를 얻기 위해 데이터를 분석하는 시스템이다. 데이터를 분석하는 다양한 기법 중 대표적인 것이 클러스터링과 분류화(classification)이다. 클러스터링은 비슷한 개체들을 한 집단으로 묶는 방법이고, 분류화는 미리 정해진 클래스에 데이터를 해당하는 클래스로 분류하는 기법이다. 다양한 알고리즘을 통해서 데이터를 클러스터링 및 분류화를 할 수 있는데 바이오칩과 같이 데이터의 양이 방대한 경우는 생태계를 모방한 알고리즘을 적용하는 것이 효율적이다. 본 논문에서는 생태계 모방알고리즘 중 하나인 PSO 집단 알고리즘을 사용하여 바이오칩 데이터로부터 클러스터의 중심을 찾아 클러스터링을 하교, 분류 규칙을 발견하여 이를 바이오 데이터에 적용, 분류해 주는 시스템을 기술하고 있다.

  • PDF

개인화 검색시스템 평가에 관한 연구 (A Study of Personalized Retrieval System Evaluation)

  • 김광영;최호섭;진두석;김진숙
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.39-42
    • /
    • 2010
  • 본 논문에서는 주제별 분류기반의 개인화 검색시스템의 평가를 위해서 기존의 한글 정보 검색시스템 평가를 위해서 사용하는 한글 테스트 컬렉션(HANTEC v2.0)을 사용하였다. 주제별 분류기반의 개인화 검색 시스템의 평가를 위해서 첫째, 한글 테스트 컬렉션을 한국일보-40075 문서분류 테스트 컬렉션을 이용하여 주제별 분류를 수행 하였다. 둘째, 한국일보-40075 문서분류 테스트 컬렉션의 분류 체계에 다라 한글 테스트 컬렉션의 문서들을 kNN 분류기를 이용하여 분류를 수행하였다. 마지막으로 구축된 컬렉션을 이용하여 주제별 분류기반의 개인화 검색시스템의 성능 평가를 수행하였다.

  • PDF

오류 역전파 학습 알고리듬을 이용한 블록경계 영역에서의 적응적 블록화 현상 제거 알고리듬 (Adaptive Blocking Artifacts Reduction Algorithm in Block Boundary Area Using Error Backpropagation Learning Algorithm)

  • 권기구;이종원;권성근;반성원;박경남;이건일
    • 한국통신학회논문지
    • /
    • 제26권9B호
    • /
    • pp.1292-1298
    • /
    • 2001
  • 본 논문에서는 공간 영역에서의 블록 분류 (block classification)와 순방향 신경망 필터(feedforward neural network filter)를 이용한 블록 기반 부호화에서의 적응적 블록화 현상 제거 알고리듬을 제안하였다. 제안한 방법에서는 각 블록 경계를 인접 블록간의 통계적 특성을 이용하여 평탄 영역과 에지 영역으로 분류한 후, 각 영역에 대하여 블록화 현상이 발생하였다고 분류된 클래스에 대하여 적응적인 블록간 필터링을 수행한다. 즉, 평탄 영역으로 분류된 영역 중 블록화 현상이 발생한 영역은 오류 역전파 학습 알고리듬 (error backpropagation learning algorithm)에 의하여 학습된 2계층 (2-layer) 신경망 필터를 이용하여 블록화 현상을 제거하고, 복잡한 영역으로 분류된 영역 중 블록화 현상이 발생한 영역은 에지 성분을 보존하기 위하여 선형 내삽을 이용하여 블록간 인접 화소의 밝기 값만을 조정함으로써 블록화 현상을 제거한다. 모의 실험 결과를 통하여 제안한 방법이 객관적 화질 및 주관적 화질 측면에서 기존의 방법보다 그 성능이 우수함을 확인하였다.

  • PDF

주제어기반 분류의 특성 분석 - 범주화 및 분류체계의 측면을 중심으로 - (An Analysis of the Characteristics of the Subject-based Classification System)

  • 백지원
    • 한국문헌정보학회지
    • /
    • 제47권1호
    • /
    • pp.57-79
    • /
    • 2013
  • 본 연구는 전통적인 문헌분류와 주제어기반 분류(Subject-Based Classification: SBC)의 상대적인 비교를 통하여 SBC 체계가 범주화 및 분류체계의 측면에서 갖는 특성을 분석함으로써 SBC의 정체성을 명확히 정립하는 데 목적이 있다. 분석을 위하여 12종의 실제 SBC 체계를 수집하여 그 체계의 전반 및 특성을 개괄하고, 범주화의 관점과 내용, 그리고 분류의 이론적 측면에서 DDC와 상대적인 방식으로 분석하였다. 분석의 결과 SBC 체계는 분류의 관점의 차이에서 비롯되는 범주화의 내용과 구조적인 측면에서 DDC와 큰 차이가 있으며, 분류체계로서의 요건이 적용되는 정도와 방식에 있어서도 기존의 문헌분류체계와 상반된 특성이 명확하게 드러남을 파악할 수 있었다. 따라서 향후 이러한 SBC의 특성을 고려한 분류론적 논의와 이론 개발이 필요함을 밝혔다.

웹 개인화를 통한 자동화된 뉴스레터 시스템 (Automatic Newsletter System with Web Personalization)

  • 김계숙;박우수;권오현;박규석
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.389-392
    • /
    • 2001
  • 본 논문에서는 웹 데이터 마이닝을 통하여 웹 사이트를 방문한 사용자의 컨텐츠 유형에 따른 정보를 조사하고, 필터링 과정을 통해 분류화하고, 이러한 과정을 통해 얻은 정보를 이용하여 뉴스레터를 발송하며, 발송된 뉴스레터로부터의 컨텐츠 유형에 따른 CTR(Click Through Rate)과 사용자 반응을 추적하여 이러한 정보를 분석하고 사용자 프로파일 및 웹 사이트로부터 분류화된 정보, 그리고 추적된 정보와 함께 뉴스레터 컨텐츠를 재구성하는 개인화된 자동화 뉴스레터 시스템을 설계하고 구현한다.

  • PDF

스칼라 벡터 머신 기법을 활용한 시계열 혈압 센서 데이터의 분류 기법 (Classification method for time series blood pressure sensor data using Scalar Vector Machine)

  • ;맹보연;이민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1234-1236
    • /
    • 2011
  • 최근 고령화 사회가 도래함에 따라 복지 사회 실현을 위해 의료기술에 IT 기술을 접목하여 인간의 건강을 효과적으로 유지하려는 요구가 증가하였다. 이러한 요구의 증가로 인해 원격으로 건강 상태를 검진하여 질병을 방지하거나 만성적인 환자의 건강상태를 장기적으로 관찰할 수 있는 IT 기술에 대한 연구가 활발하게 진행되고 있다. 본 연구에서는 누적된 인체 센서 데이터에 대한 분류화 기법을 제안하여 구현하고 성능을 검증하였다. 분류화 기법은 인체 센서 데이터에 잘 적용될 수 있는 지지벡터 기계를 활용하여 구현하였다. 인체 센서 데이터의 대표패턴 정의와 실험을 위한 잡음 생성을 통하여 분류화 정확도를 높일 수 있도록 실험을 설계하였고 다양한 설정 변수에서도 기법을 실험하여 빠르고 정확한 기법을 설계 및 구현하였다.