• 제목/요약/키워드: 범주

검색결과 3,893건 처리시간 0.036초

Modified ECCD 및 문서별 범주 가중치를 이용한 문서 분류 시스템 (A Document Classification System Using Modified ECCD and Category Weight for each Document)

  • 한정석;박상용;이수원
    • 정보처리학회논문지B
    • /
    • 제19B권4호
    • /
    • pp.237-242
    • /
    • 2012
  • 웹 문서 정보 서비스는 관리자의 효율적 문서관리와 사용자의 문서검색 편의성을 위해 문서 분류 시스템을 필요로 한다. 기존의 문서 분류 시스템은 분류하고자 하는 문서 내 선택된 자질어의 개수가 적거나, 특정 범주의 문서 비율이 높아 그 범주에서 대부분의 자질어가 선택되어 모델이 생성된 경우 분류 정확도가 저하되는 문제점을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 'Modified ECCD' 기법 및 '문서별 범주 가중치' 특징 변수를 사용한 문서 분류 시스템을 제안한다. 실험 결과, 제안 방법인 'Modified ECCD' 기법이 ${\chi}^2$ 및 ECCD 기법에 비해 높은 분류 성능을 보였으며, '문서별 범주 가중치' 특징 변수를 'Modified ECCD' 기법으로 선택된 자질어 변수에 추가하여 학습하였을 경우에 더 높은 분류 성능을 보였다.

복잡하고 다양한 정보 속에서 빠른 정보 처리 디자인 -색의 범주화를 통한 빠른 정보처리 (The Design for the fast process in the complex and various information.)

  • 민경근
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.1150-1155
    • /
    • 2009
  • 정보화 사회에서 정보의 양은 기술의 발달로 급격하게 증가하고 있다. 그로 인해 정보의 다양화와 복잡성 또한 증가하여 빠른 정보처리에 어려움을 주고 있다. 정보의 복잡성 속에 정보의 구조화, 범주화는 사용자가 쉽게 정보에 접근할 수 있게 만들며 처리 속도도 빠르게 해 준다. 본 연구는 정보의 범주화에서 색을 통한 범주화가 정보처리 속도 향상에 어떠한 영향을 주는지를 실험적으로 확인해 보려 한다. 실험 1은 복잡한 정보를 가진 노선도에서 역을 찾는 과제를 시행 하였을 때, target 역 이름의 색과 노선의 색이 동일 할 때 그렇지 않는 경우 보다 탐색시간을 빠름을 보여주고자 한다. 그리고 실험2는 단어 분류 과제에서 색의 범주화가 단어의미 범주화 보다 빨리 처리되며, 색의 대비가 클 때 더 효과적임을 보여 주고자 한다.

  • PDF

모자이크 플롯에서 변수와 범주의 순서화 (Ordering Variables and Categories on the Mosaic Plot)

  • 이문주;허명회
    • 응용통계연구
    • /
    • 제21권5호
    • /
    • pp.875-888
    • /
    • 2008
  • Hartigan과 Kleiner (1981, 1984)에 의해 제안된 모자이크 플롯은 범주형 자료의 탐색에 매우 유용한 시각화 도구이다. 모자이크 플롯은 범주 셀의 빈도를 사각형의 기에 비례하게 나타내므로 이해가 쉽고 데이터에 포함된 정보를 유지하지만 실제 모습은 변수 순서와 변수 내 범주의 순서에 따라 상당히 달라진다. 이에 우리는 본 연구에서 모자이크 플롯에서 크래머(Cramer)의 V 계수를 활용한 변수의 순서화 방법과 감마 계수를 활용한 범주의 순서화 방법을 제안하고 Titanic, Housing, PreSex 등 공개 자료에 적용한 결과를 제시한다.

개념지식의 유형에 따른 표상차이: 범주와 각본의 위계성과 전형성 비교1) (Knowledge Representation Characteristics of Categories and Scripts: An Investigation on Hierarchy and Typicality Effects)

  • 이재호;이정모
    • 인지과학
    • /
    • 제11권3_4호
    • /
    • pp.73-81
    • /
    • 2000
  • 이 연구는 지식유형에 따른 표상 차이를 확인하기 위해서 범주지식과 각본지식의 위계성과 전형성에 대한 점화효과를 측정하였다. 실험 1에서는 상위개념을 점화단어로 제시하고 하위개념을 목표단어로 제시한 다움 목표단어의 어휘판단시간을 측정하였다. 그 결과, 범주지식은 전형단어가 비전형단어보다 반응시간이 빨랐지만, 각본지식은 두 조건간의 차이가 없었다. 실험 2에서는 하위개념을 점화단어로 제시하고 상위개념을 목표단어로 제시한 다음 목표단어의 어위판단시간을 측정하였다. 범주지식이 각본지식보다 반응시간이 빨랐으며, 두 지식 모두 전형성 효과는 관찰되지 않았다. 이러한 결과는 범주지식은 전형성에 따른 위계구조를 구성하지만 각본지식은 범주지식에 비해서 위계성과 전형성이 약회된 구조로 표상될 가능성을 시사하는 것이다.

  • PDF

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법 (A Clustering-based Undersampling Method to Prevent Information Loss from Text Data)

  • 김종휘;신사임;장진예
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화 (Automatic Text Categorization Using Passage-based Weight Function and Passage Type)

  • 주원균;김진숙;최기석
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.703-714
    • /
    • 2005
  • 문서 범주화 분야에 대한 연구들은 전체 문서 단위에 한정되어 왔으나, 오늘날 대부분의 전문들이 주요 주제를을 표현하기 위해서 조직화 된 특정 구조로 기술되고 있어, 텍스트 범주화에 대한 새로운 인식이 필요하게 되었다. 이러한 구조는 부주제(Sub-topic)의 텍스트 블록이나 문단(Passage) 단위의 나열로서 표현되는데, 이러한 구조 문서에 대한 부주제 구조를 반영하기 위해서 문단 단위(Passage-based) 문서 범주화 모델을 제안한다. 제안한 모델에서는 문서를 문단들로 분리하여 각각의 문단에 범주(Category)를 할당하고, 각 문단의 범주를 전체 문서의 범주로 병합하는 방법을 사용한다. 전형적인 문서 범주화와 비교할 때, 두 가지 부가적인 절차가 필요한데, 문단 분리와 문단 병합이 그것이다. 로이터(Reuter)의 4가지 하위 집합과 수십에서 수백 KB에 이르는 전문 테스트 컬렉션(KISTl-Theses)을 이용하여 실험하였는데, 다양한 문단 타입들의 효과와 범주 병합 과정에서의 문단 위치의 중요성에 초점을 맞추었다 실험한 결과 산술적(Window) 문단이 모든 테스트 컬렉션에 대해서 가장 좋은 성능을 보였다. 또한 문단은 문서 안의 위치에 따라 주요 주제에 기여하는 바가 다른 것으로 나타났다.

문헌범주화에서 학습문헌수 최적화에 관한 연구 (Optimization of Number of Training Documents in Text Categorization)

  • 심경
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.277-294
    • /
    • 2006
  • 본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr-20)에서 2,000개(Tr-2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 $F_1$ 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr-100 문헌집단이 $F_1$값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

언어의 '매개작용' 범주 고찰: 프랑스어와 한국어 비교 연구 (Reconsideration of the Linguistic Category of Mediation in Language: a Comparative Approach between French and Korean)

  • 서정연
    • 비교문화연구
    • /
    • 제46권
    • /
    • pp.297-325
    • /
    • 2017
  • 이 논문은 언어에서 포착되는 '증거성(${\acute{e}}videntialit{\acute{e}}$)' 범주의 의미적 속성과 그 체계를 연구하기 위한 언어학적 토대연구로 진행되었다. 본 연구에서, 우리는 프랑스어와 한국어의 증거성 범주를 $Descl{\acute{e}}s$ & $Guentch{\acute{e}}va$(2000)의 '발화작용이론(la $th{\acute{e}}orie$ de $l^{\prime}op{\acute{e}}ration$ ${\acute{e}}nonciative$)'을 중심으로 비교, 분석하였다. 선행 연구를 바탕으로, 우리는 프랑스어의 문법표지인 '조건법 현재시제'와 한국어의 문법표지인 '-더-'에 드러난 증거성 범주의 의미적 가치를 기술하고, 이 범주가 언어마다 다르게 발현되는 양상을 살펴보았다. 본 연구에서 우리는 발화작용 이론을 객관적 분석 기제로 이용해, 양 언어 간에 드러나는 증거성 범주를 매개작용으로 다시 정의하고, 시상 및 양태 범주와 구별되는 범주의 구별된 위상을 규명하였다. 또한, 해당 범주의 범언어적 체계와 보편적 의미 가치를 탐색하는 일반 언어학적 연구도 병행하였다. 이를 통해, 본 연구는 '증거성' 이라는 범언어적 현상을 발화작용의 체계 내에서 통합적으로 설명해내었고, 본 연구의 결과는 응용언어학 등의 다양한 분야로 까지 확장되어 활용될 수 있는 가능성도 마련하였다.

기업부도 예측 앙상블 모형의 최적화 (The Optimization of Ensembles for Bankruptcy Prediction)

  • 김명종;윤우섭
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.39-57
    • /
    • 2022
  • 본 연구에서는 범주 불균형 문제가 내재된 기업부도 예측 AdaBoost 앙상블 모형의 성과를 개선하기 위하여 GMOPTBoost 알고리즘을 제안한다. AdaBoost 알고리즘은 오분류 표본에 대하여 강건한 학습기회를 제공한다는 장점이 있지만, 산술평균 정확도에 기반하기 때문에 범주 불균형 문제를 효과적으로 해결하지 못한다는 한계점이 존재한다. GMOPTBoost는 가우시안 경사하강법(Gaussian gradient descent)을 적용하여 기하평균 정확도를 최적화하고 범주 불균형 문제를 효과적으로 해결할 수 있다는 장점이 있다. 본 연구에서는 첫째, 범주 불균형 문제가 예측 모형의 성과에 미치는 효과와 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 5개의 범주 불균형 데이터를 구성하였으며, 둘째, 범주 균형 데이터에 대한 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 데이터 샘플링 기법을 통하여 구성된 균형 데이터를 구성하였다. 30회의 교차타당성 분석의 주요 결과는 다음과 같다. 첫째, 범주 불균형 문제는 예측 성과에 부정적인 영향을 미친다. 둘째, GMOPTBoost는 불균형 데이터에 적용된 AdaBoost의 성과를 유의적으로 개선시키는 긍정적인 효과를 제공한다. 셋째, 데이터 샘플링 기법은 성과 개선에 긍정적인 영향을 미친다. 마지막으로 데이터 샘플링 기법을 적용한 범주 균형 데이터에서도 GMOPTBoost는 유의적인 성과 개선에 기여한다.

한국어 명사의 내재적/외재적 의미특징 연구: 곡식, 과일, 채소 범주를 중심으로 (A Study of Intrinsic and Extrinsic Semantic Features of Korean Nouns: Focusing on the Categories of Grains, Fruits and Vegetables)

  • 정영철;이정모
    • 인지과학
    • /
    • 제15권1호
    • /
    • pp.43-67
    • /
    • 2004
  • 본 연구는 곡식, 과일, 채소의 범주에 속하는 39개 한국어 명사의 의미자질을 질적 연구방법론의 관점에서 분석하였다. 대학생을 대상으로 한 설문조사에서, 연구 대상자들에게 각 어휘항목과 연상되는 의미자질을 열거하도록 하였다. 설문자료를 귀납적으로 분석한 결과, 과일의 범주에 속하는 본보기들의 개념형성은 외재적 의미자질보다 내재적 의미자질에 의해 압도적인 영향을 받았고. 곡식과 채소범주에 속하는 본보기들은 내재적 의미자질보다는 외재적 의미자질이 더욱 중요하게 그들의 개념형성에 영향을 미쳤다. 내재적 의미자질은 지시대상 자체에 내재하는 보편적인 의미자질을 말하며, 외재적 의미자질은 특정한 상황에서의 대상과 관련된 개인적 경험이나 다른 대상과의 관계 속에서 형성되어지는 의미자질을 말한다. 하지만, 본 연구는 부록의 도표에서 나타나는 바와 같이, 한 종류의 의미자질(즉, 내재적 혹은 외재적 의미자질)이 전적으로 각 범주 본보기들의 개념을 형성하고 있지 않음을 보여준다. 과일범주 어휘의 개념에서 내재적 의미자질이 매우 두드러졌고 곡식과 채소 범주의 어휘 개념에서는 외재적 의미 자질이 두드려졌지만, 그 두 가지 종류의 의미자질들이 각 어휘의 개념형성에 일정부분씩 기여하는 것으로 드러났다.

  • PDF