• 제목/요약/키워드: category classification

검색결과 657건 처리시간 0.025초

CATEGORICAL TOPOLOGY의 역사

  • 홍성사;홍영희
    • 한국수학사학회지
    • /
    • 제10권2호
    • /
    • pp.11-23
    • /
    • 1997
  • Category theory gives a convenient language for the study of mathematical structures besides its own study. In this paper, we investigate how the abstract structure theory emerged in 1930s affects the study in Topology and eventually becomes a rudiment for the category theory. Moreover, various extensions and universal mapping problems were put in their proper perspective as reflections by the category theory and by its duality principle, coreflections become an interesting subject in Topology, both of which give rise to a new discipline of the categorical topology.

  • PDF

심층 주제, 지역, 장르를 모두 분류할 수 있는 다면적 뉴스 기사 자동 분류 모델 연구 (Research on Multi-facted News Article Classification Models Classifying Subjects, Geographies and Genres)

  • 이효진;최성필
    • 한국문헌정보학회지
    • /
    • 제58권3호
    • /
    • pp.65-89
    • /
    • 2024
  • 본 연구는 한국어 사전학습 모델을 활용하여 뉴스 기사를 주제, 장르, 지역별로 각각 분류하는 모델을 구축하였다. 이를 위해 국내 언론사의 분류체계를 참고하여 새로운 뉴스 기사 분류체계를 설계하였다. 주제 및 장르 분류 모델은 대분류와 중분류 모델을 연결한 계층적 구조의 분류 모델로 구현하여 카테고리 통합 모델의 성능과 비교하였다. 평가 결과, 계층적 구조의 분류 모델은 모호하거나 중복된 카테고리에서 카테고리 통합 모델보다 더 명확한 분류를 수행할 수 있다는 이점이 있었다. 뉴스 기사의 지역적 분류를 위해서는 18개의 카테고리에 대하여 분류를 수행하는 모델을 구축하였으며 지역 관련 뉴스 기사의 경우, 지역적 특성이 본문에 명확히 드러나 높은 성능을 기록할 수 있었다. 본 연구는 주제, 장르, 지역의 다각적인 측면에서 뉴스 기사를 효과적으로 분류할 수 있음을 보여주었으며, 이를 통해 사용자 요구에 부합하는 다차원적 뉴스 기사 분류 서비스의 가능성을 제시한 점에서 의의가 있다.

PCA에 의한 도서분류에 관한 연구( I ) (A Study on the Classification of Islands by PCA ( I ))

  • 이강우
    • 수산경영론집
    • /
    • 제14권2호
    • /
    • pp.1-14
    • /
    • 1983
  • This paper considers a classification of the 88 islands located at Kyong-nam area in Korea, using by examples of 12 components of the islands. By means of principal component analysis 2 principle components were extracted, which explained a total of 73.7% of the variance. Using an eigen variable criterion (λ>1), no further principle components were discussed. Principal component 1 and 2 explained 63.4% and 10.3% of the total variance respectively, The representation of the unrelated factor scores along the first and second principal axes produced a new information with respect to the classification of the islands. Based upon the representation, 88 islands were classified into 6 groups i. e. A, B, C, D, E, and F according to similarity of the components among them in this paper. The "Group F" belongs to a miscellaneous assortment that does not fit into the logical category. category.

  • PDF

질문대답 아카이브에서 어휘 연관성을 이용한 질문 분류 (Question Classification Based on Word Association for Question and Answer Archives)

  • 김설영;이경순
    • 정보처리학회논문지B
    • /
    • 제17B권4호
    • /
    • pp.327-332
    • /
    • 2010
  • 보통 두 세 개의 어휘로 구성된 질문 분류에서 어휘의 다양한 표현으로 인한 어휘 불일치문제는 성능 저하의 주요 원인이다. 따라서 질문 분류에서 어휘 사이의 연관성을 반영하는 것이 필수적이다. 본 논문에서는 같은 범주의 질문-질문 쌍들에 대해 계산한 어휘 번역확률을 번역기반 언어모델에 반영하여 질문을 분류하는 방법을 제안한다. 실험에서 야후!앤써 질문대답 아카이브를 이용해서 전체 질문-대답 쌍들에 대해서 번역확률을 계산하는 것보다 같은 범주에 속하는 질문-질문 쌍들에 대해서 번역확률을 계산하는 것이 질문 분류에서 더 좋은 번역확률인 것을 증명한다.

텍스트 마이닝을 이용한 XML 문서 분류 기술 (Classification Techniques for XML Document Using Text Mining)

  • 김천식;홍유식
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.15-23
    • /
    • 2006
  • 인터넷에는 많은 문서가 있고 지금도 새로운 문서가 만들어지고 있다. 따라서 인터넷에 존재하는 문서를 의미 있게 분류하는 것은 향후 문서의 관리 및 질의처리에서 중요한 문제이다. 하지만 지금까지 대부분은 키워드에 기초한 문서 분류방법을 사용하고 있다. 이 방법은 문서를 효율적으로 분류하지 못했다. 또한 의미를 포함한 문서의 분류를 하지 못한다. 사람이 문서를 꼼꼼하게 읽어서 문서를 분류하는 방법이 최선이지만, 시간적인 면이나 효율성에 문제가 있다. 따라서 본 논문에서는 신경망 알고리즘과 C4.5 알고리즘을 이용하여 문서를 분류하고자 한다. 실험 데이터로 XML로 만들어진 이력서 데이터를 사용하여 실험하였다. 실험결과 문서 분류에 가능성을 보였다. 또한, 다양한 문서 분류 응용에 적용하여 좋은 결과를 얻을 것으로 기대한다.

  • PDF

BERT 모형을 이용한 주제명 자동 분류 연구 (A Study on Automatic Classification of Subject Headings Using BERT Model)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제57권2호
    • /
    • pp.435-452
    • /
    • 2023
  • 이 연구는 딥러닝 기법의 전이학습 모형인 BERT를 이용하여 주제명의 자동 분류를 실험하고 그 성능을 평가하였으며, 더 나아가 주제명이 부여된 KDC 분류체계와 주제명의 범주 유형에 따른 성능을 분석하였다. 실험 데이터는 국가서지를 이용하여 주제명의 부여 횟수에 따라 6개의 데이터셋을 구축하고 분류 자질로 서명을 이용하였다. 그 결과, 분류 성능으로 3,506개의 주제명이 포함된 데이터셋(레코드 1,539,076건)에서 마이크로 F1과 매크로 F1 척도가 각각 0.6059와 0.5626 값을 보였다. 또한 KDC 분류체계에 따른 분류 성능은 총류, 자연과학, 기술과학, 그리고 언어 분야에서 좋은 성능을 보이며 종교와 예술 분야는 낮은 성능을 보였다. 주제명의 범주 유형에 따른 성능은 '식물', '법률명', '상품명'이 높은 성능을 보인 반면, '국보/보물' 유형의 주제명에서 낮은 성능을 보였다. 다수의 주제명을 포함하는 데이터셋으로 갈수록 분류기가 주제명을 제대로 부여하지 못하는 비율이 늘어나 최종 성능의 하락을 가져오기 때문에, 저빈도 주제명에 대한 분류 성능을 높이기 위한 개선방안이 필요하다.

컴포넌트 유통시장 활성화를 위한 분류체계 모델링 (Component classification modeling for component circulation market activation)

  • 이서정;조은숙
    • 한국전자거래학회지
    • /
    • 제7권3호
    • /
    • pp.49-60
    • /
    • 2002
  • Many researchers have studied component technologies with concept, methodology and implementation for partial business domain, however there are rarely researches for component classification to manage these systematically. In this paper, we suggest a component classification model, which can make component reusability higher and can derive higher productivity of software development. We take four focuses generalization, abstraction, technology and size. The generalization means which category a component belongs to. The abstraction means how specific a component encapsulates its inside. The technology means which platform for hardware environment a component can be plugged in. The size means the physical component volume.

  • PDF

Automatic Categorization of Clusters in Unsupervised Classificatin

  • Jeon, Dong-Keun
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권1E호
    • /
    • pp.29-33
    • /
    • 1996
  • A categorization for cluster is necessary when an unsupervised classfication is used for remote sensing image classification. It is desirable that this method is performed automatically, because manual categorization is a highly time consuming process. In this paper, several automatic determination methods were proposed and evaluated. They are four methods. a) maximum number method : which assigns the tharget cluster to the category which occupies the largest area of that cluster b) maximum percentage method : which assigns the target cluster to the category which shows the maximum percentage within the category in that cluster. c) minmun distance method : which assigns the target cluster to the category having minmum distance with that cluster d) element ratio matching method : which assigns local regions to the category having the most similar element ratio of that region From the results of the experiments, it was certified that the result of minimum distance method was almost the same as the result made by a human operator.

  • PDF

용어 가중치부여 기법을 이용한 로치오 분류기의 성능 향상에 관한 연구 (A Study on the Performance Improvement of Rocchio Classifier with Term Weighting Methods)

  • 김판준
    • 정보관리학회지
    • /
    • 제25권1호
    • /
    • pp.211-233
    • /
    • 2008
  • 로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부석 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

우리나라 보호지역에 IUCN 카테고리 적용 방안에 관한 연구 (A Study on the Application of IUCN Category to the Protected Areas of Korea)

  • 허학영;김현;이영주;김성일
    • 환경정책연구
    • /
    • 제6권2호
    • /
    • pp.71-96
    • /
    • 2007
  • 본 연구는 우리나라 보호지역의 특성을 반영하여 IUCN 카테고리 시스템 적용하기 위한 방안을 도출하였으며, 도출된 IUCN 카테고리 시스템을 소백산국립공원에 적용해 봄으로써 동 시스템의 적용가능성을 검토하였다. 우리나라 보호지역에 IUCN 카테고리 시스템 채택을 위해 고려해야 할 사항으로는 보호지역 관리목적에 있어 (1)원생지 보호 개념, (2)자원의 지속가능한 이용, (3)문화적 전통적 특성 유지 등에 대해서 우리나라 특성에 맞는 유연한 접근이 필요한 것으로 나타났다. 또한 용도지역 면적 및 용도지구별 행위규제 내용에 대한 고려, IUCN 카테고리 별 이용유형의 상대적 비교(탐방, 자원이용, 거주), 복합적 분류의 활용 등이 필요할 것으로 판단된다. 이를 고려할 때, 우리나라의 보호지역에 대한 IUCN 카테고리의 적용원칙으로는 (1)원생지 개념의 보호지역(Ib) 적용 배제, (2)자연자원의 지속가능한 이용에 있어 극히 제한적 이용(자연보존지구, 자연환경지구의 합이 95%이상) 개념 고려, (3)거주민 점유 수준 등 관리여건 고려, (4)생태계 서비스 유지 개념 고려, (5)복합적 분류 활용을 선택할 수 있다. 이 원칙에 따라 IUCN 카테고리 적용 분류키를 소백산 국립공원에 적용하면, 소백산 국립공원은 IUCN 카테고리 II에 적합하고, 소백산 국립공원 내 천연기념물로 지정되어 있는 주목군락지는 카테고리 Ia 지역이 적합하다. 본 연구에서 제안한 보호지역의 분류키는 향후 보호지역의 카테고리 적용을 위한 기초자료로 활용될 수 있을 것으로 사료된다. 향후 IUCN 카테고리 채택을 통한 보호지역의 효율적 관리를 위해서는 카테고리별 차별화된 관리가 가능하도록 각 카테고리의 보전 목적에 적합한 법제도에 대한 검토와 관리수단에 대한 연구가 필요할 것이다.

  • PDF