• 제목/요약/키워드: 다범주 분류

검색결과 34건 처리시간 0.019초

자질의 범주 모호성 해소를 위한 Naive Bayes 분류기 설계 (A Naive Bayes Classifier for Category Disambiguation of Features)

  • 유현숙;정영미
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.364-366
    • /
    • 2001
  • 문서 범주화는 전자 정보환경에서 매우 유용한 정보처리 도구로서, 다양한 문서 범주화 기법 및 성능향상을 위한 연구들이 지속적으로 이루어지고 있다. 그러나, 대부분의 연구들은 문서 범주화의 대상이 되는 단어 자질 공간의 차원축소 문제에만 집중되었을 뿐, 학습단계에 큰 영향을 미치는 다범주 단어 자질의 범주 모호성은 고려하지 않았다. 본 연구에서는, 다범주 자질의 범주 모호성을 해소함으로써 문서 범주화의 성능향상을 유도하는 범주 모호성 해소 가중치 W를 제시하고 이를 실험을 통해 증명하였다. 실험에서는 Naive Bayes 분류기와 가중치 W를 적용한 Naive Bayes-W 분류기를 직접 구축하여 문서 범주화의 성능향상 여부를 비교하는데 사용하였다. 도출된 실험결과를 통해, 가중치 W는 현재의 분류기가 가지고 있는 자질 표현의 범주 모호성이라는 단점을 보완하고 분류기의 성능향상을 유도함으로써 정보검색시스템의 검색효율을 높이는 데 활용될 수 있음일 증명되었다.

  • PDF

온라인 리뷰에서 평점의 분류 (Classification of ratings in online reviews)

  • 최동준;최호식;박창이
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.845-854
    • /
    • 2016
  • 감성분석 (sentiment analysis) 혹은 오피니언 마이닝 (opinion mining)은 블로그, 리뷰, 신문기사나 소셜네트워크 등의 문서에서 개인의 주관적인 정보 혹은 의견을 알아보는데 사용되는 텍스트 마이닝의 기법이다. 평점이 있는 온라인 리뷰에서 리뷰 텍스트에 기반한 평점의 분류문제에 대한 선행연구에서는 이진 분류만을 고려하였다. 그러나 긍정과 부정 외에도 중립적인 의견도 있을 수 있기 때문에 이진 분류보다는 다범주 분류가 더 적합할 것이다. 본 연구에서는 리뷰 텍스트에 기반한 평점의 다범주 분류문제를 고려한다. 전처리에서는 카이제곱 통계량을 이용하여 평점과 연관된 단어들을 추출하고 이를 입력변수로 삼아 지지벡터기계 (support vector machines)와 비례오즈 모형 (proportional odds model) 등 다범주 분류기의 예측력을 비교한다.

mRMR과 수정된 입자군집화 방법을 이용한 다범주 분류를 위한 최적유전자집단 구성 (A hybrid method to compose an optimal gene set for multi-class classification using mRMR and modified particle swarm optimization)

  • 이선호
    • 응용통계연구
    • /
    • 제33권6호
    • /
    • pp.683-696
    • /
    • 2020
  • 표본의 다범주 표현형을 예측하는데 사용되는 최적의 유전자집단이란 적은 수의 유전자로 표현형을 정확히 예측할 수 있는 유전자들의 모임이다. 특이발현유전자를 검색하는 통계량은 이미 여러 가지가 있고, K-평균 군집화를 곁들여 중복성이 적은 특이발현유전자들을 선택 가능하다. 이들을 바탕으로 적은 수로 정확하게 다범주 분류가 가능한 유전자집단을 구성할 수 있도록 수정한 입자최적화 방법을 제안한다. 널리 알려진 ALL 248례와 SRBCT 83례를 이용하여 제안된 방법으로 최적유전자집단을 찾을 수 있음을 보였다.

초고차원 다범주분류를 위한 변수선별 방법 비교 연구 (A comparative study of feature screening methods for ultrahigh dimensional multiclass classification)

  • 이경은;김경희;신승준
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.793-808
    • /
    • 2017
  • 본 논문에서는 초고차원 자료의 다항분류를 위한 변수선별 방법에 대해 비교 연구를 진행하였다. 다항분류를 위한 변수선별 방법에는 일대일 혹은 일대다 비교를 통해 이항분류를 위한 방법을 확장시켜 적용하는 방법과 다항 반응 변수에 직접 적용할 수 있는 방법이 있다. 다항분류를 위한 변수선별 성능을 확인하기 위하여 여러가지 상황-설명변수의 꼬리가 두꺼운 경우, 신호변수와 잡음변수가 서로 연관된 경우, 결합분포상으로 연관되어 있지만 주변분포 상으로는 연관되어 있지 않은 경우, 다범주 반응변수의 분포가 불균형인 경우-을 가정하고 모의실험을 진행하였고, 실제 자료에도 적용해 보았다. 그 결과, 모형 가정을 필요로 하지 않는 방법들이 안정적인 성능을 보이는 것을 확인하였다.

기계번역을 이용한 교차언어 문서 범주화의 분류 성능 분석 (Classification Performance Analysis of Cross-Language Text Categorization using Machine Translation)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제43권1호
    • /
    • pp.313-332
    • /
    • 2009
  • 교차언어 문서 범주화(CLTC)는 다른 언어로 된 학습집단을 이용하여 문헌을 자동 분류할 수 있다. 이 연구는 KTSET으로부터 CLTC에 적합한 실험문헌집단을 추출하고, 기계 번역기를 이용하여 가능한 여러 CLTC 방법의 분류 성능을 비교하였다. 분류기는 SVM 분류기를 이용하였다. 실험 결과, CLTC 중에 다국어 학습방법이 가장 좋은 분류 성능을 보였으며, 학습집단 번역방법, 검증집단 번역방법 순으로 분류 성능이 낮아졌다. 하지만 학습집단 번역방법이 기계번역 측면에서 효율적이며, 일반적인 환경에 쉽게 적용할 수 있고, 비교적 분류 성능이 좋아 CLTC 방법 중에서 가장 높은 이용 가능성을 보였다. 한편 CLTC에서 기계번역을 이용하였을 때 번역과정에서 발생하는 자질축소나 주제적 특성이 없는 자질로의 번역으로 인해 성능 저하를 가져왔다.

인터랙티브 미디어에 적용되는 인터랙션 의미의 범주화 (Theoretical Categorization of the Meanings of Interaction in Interactive Media)

  • 이현정
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2015년도 춘계 종합학술대회 논문집
    • /
    • pp.85-86
    • /
    • 2015
  • 문화콘텐츠 시장에서 주요 화두로서 등장하는 인터랙션이라는 용어는 단어자체 의미의 포괄성으로 인해 미디어 세부 분야마다 각기 다른 해석을 가진다. 이러한 양상은 산업 간 융합 및 다학문적 연구에 어려움을 야기한다. 보다 나은 인터랙티브 관련 기술 및 학문 발전의 토대를 위해, 본 연구에서는 콘텐츠 미디어를 중심으로 인터랙션의 개념에 대한 범주화를 시도하였다. 본 연구에서는 인터랙티브 미디어에서 해석하는 인터랙션 의미에 대한 다양한 관점을 바탕으로 일차적으로 총체적인 분류체계를 만들고, 인터랙션 관련 산학 전문가들과의 FGI를 실시하여 수정 및 보완의 과정을 거치며 분류체계에 따른 의미의 범주화를 완성하였다.

  • PDF

다범주 자료의 다항로짓 모형과 로지스틱 회귀모형 비교;장애연금 특성분석 중심으로 (Comparison of Multinomial Logit and Logistic Regression on Disability Pensioners' Characteristic)

  • 김미정
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.589-602
    • /
    • 2008
  • 순위형 다범주 자료에 있어서 범주값의 증감에 대한 설명변수의 특성분석을 위하여 다항로짓모형을 적합하여 분석하고 로지스틱 회귀모형을 적합하여 분석한 결과와 비교하였다. 이를 통하여 장애연금 수급자자료의 재정추계를 위해 필요한 일곱 가지 요인인 성별, 수급나이, 가입기간, 가입종별, 소득활동여부, 소득수준, 장애원인이 장애등급에 미치는 영향을 파악하였다. 일곱 요인 모두 장애응급에 대한 연관성이 있음을 확인하였고 이 가운데 다섯 요인은 장애등급의 증감에 있어서도 일정한 추세를 보였으나, 장애원인과 소득수준은 장애등급의 증감에는 일정한 추세를 보이지 않음을 확인하였다. 본 연구의 결과는 장애연금 관리방안을 모색하는데 있어서 장애등급에 따른 설명 요인의 특성을 반영하는데 필요한 가이드라인을 제공할 수 있을 것으로 기대한다. 장애등급 분류에 있어서 다중분류의 정분류율은 각각 42.56%와 42.43%로 로지스틱 회귀모형의 경우 다중로짓 모형의 경우보다 다소 높았지만 거의 비슷한 정확도를 보였다.

결혼이주여성 대상 다문화 상담자들의 문화적 역량 관련 경험에 관한 탐색적 연구 (Exploratory Study on Experience in Cultural Competence of Multicultural Counselors Working with Female Immigrants by Marriage)

  • 이현정
    • 디지털융복합연구
    • /
    • 제12권2호
    • /
    • pp.519-530
    • /
    • 2014
  • 본 연구는 다문화적 실천현장의 확대에 따른 다문화화를 배경으로 결혼이주여성 대상 다문화 상담자들의 문화적 역량과 관련된 그들의 경험을 탐색하는데 그 목적이 있다. 본 연구는 상담자들의 문화적 역량과 관련된 그들의 경험을 그들의 관점에서 심도 있게 탐색하고자, 상담자 10명을 대상으로 심층면접을 실시하였고 현상학적 연구방법을 활용하여 자료를 분석하였다. 연구 결과, 문화적 역량 관련 경험은 6개의 주제와 3개의 범주로 분류되었다. 6가지 주제는 언어와 문화의 차이로 인한 어려움, 자신과 자신의 능력에 대한 회의, 나를 돌아봄, 타문화와 문화 집단에 대해 배우려는 노력, 달라진 모습들, 여전한 불안감으로 나타났다. 이러한 주제들은 3개의 범주로 분류되었는데, 어려움, 변화를 위한 노력, 변화와 한계가 도출되었다. 이러한 연구 결과를 바탕으로 결혼이주여성 대상 다문화 상담자들의 문화적 역량을 증진시키기 위한 사회복지적 방안이 논의되었다.

국내 주요 10대 기업에 대한 국민 감성 분석: 다범주 감성사전을 활용한 빅 데이터 접근법 (Public Sentiment Analysis of Korean Top-10 Companies: Big Data Approach Using Multi-categorical Sentiment Lexicon)

  • 김서인;김동성;김종우
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.45-69
    • /
    • 2016
  • 최근에 빅 데이터를 활용하여 감성을 측정하는 시도가 활발히 이루어지고 있다. 통신 매체와 SNS의 발달로 기업은 국민의 감성을 파악하고 즉시 대응해야할 필요성이 생겼다. 우리나라의 경제는 대기업에 대한 의존도가 높기 때문에 10대 기업에 대한 감성분석은 의미가 있다고 할 수 있다. 이러한 측면에서 본 연구는 다 범주를 기준으로 구축한 감성사전을 활용하여 우리나라 10대 기업에 대한 감성을 분석하였다. 빅 데이터를 이용하여 감성을 분석한 기존의 선행연구는 감성을 차원으로 분류하는 경향이 있다. 차원적 감성으로 감성을 분류하는 것은 분류의 기준이 학술적으로 증명되었기에 감성 분석에 주로 사용되어 왔지만 전문가 정도의 지식이 있어야 분류할 수 있어 보편적인 감성을 대변하는 데 비효과적이기에 보완이 필요하다고 할 수 있다. 개별 범주적 감성은 이 점을 보완할 수 있는 분류 방식으로 일정 수준의 주관성이 개입되지만 보편적으로 느낄 수 있는 감성을 측정하는데 효과적이다. 따라서 본 연구는 보편적인 감성의 측정을 위해 감성을 차원으로 분류하지 않고 개별 범주로 분류하여 9가지 영역으로 나누었다. 선행 연구에서 추출한 9가지 범주에 해당하는 감성 단어에 기초하여 감성사전을 구축하였으며 감성 단어가 검출된 빈도를 기준으로 감성을 분석했다. 대상 데이터는 2014년 1월부터 2016년 1월까지 우리나라 10대 기업에 대하여 축적된 뉴스 데이터이다. 대상 데이터에서 검출된 감성 단어의 빈도를 기준으로 각 기업에 대한 감성 순위를 나누고 분포를 확인하였다. 기업에 따라서 감성이 다를 수 있는지, 특정 사건이 각 기업에 대한 감성에 영향을 줄 수 있는지 가설을 세우고 검정하였다. 결론적으로, 다 범주 감성 사전을 활용한 감성 분석은 기업 간 비교와 시점 간 비교에 유의한 것으로 나타났다. 본 연구는 빅 데이터에 산재해있는 감성을 국민의 시각으로 측정하는 하나의 대안으로서 의의가 있다.

교차적 연결과 다계층구조의 유용성에 관한 인지적 연구 : 사이버쇼핑몰의 커스터머 인터페이스를 중심으로 (A Cognitive Study on the Usability of Cross-referencing link ad Multiple hierarchies)

  • 이정원;김진우
    • 인지과학
    • /
    • 제10권1호
    • /
    • pp.25-43
    • /
    • 1999
  • 본 연구는 사이버 공간에서 사용자와 시스템간의 상호작용을 도울 수 있는 구조디자인 설계에 초점을 맞추고 있다. 구조디자인이란 인터페이스를 구성하는 개별화면이 어떻게 분류되며 이에 따라서 화면내의 정보가 어떻게 표현되어야 하는지를 결정하는 것이다. 본 연구에서는 사이버 쇼핑몰 안에서 쇼핑만족과 항해 편리성을 높일 수 있는 구조디자인을 설계하기 위한 방안으로 교차적 연결과 다 계층 구조를 제시하였다. 교차적 연결이란 여러 가지 범주화 기준이 적용된 정보공간 사이를 연결시켜주고 것이고, 다 계층 구조란 동일한 정보공간에 대해서 여러 가지 기준을 가지고 각 기준에서 바라본 관점으로 정보공간을 표현해주는 구조이다. 본 연구에서는 교차적 연결과 다 계층 구조의 유용성 검증을 위한 두 단계의 실험을 사이버 쇼핑몰을 대상으로 실시하였다. 제1단계 실험은 사용자의 특정 정보 공간에 대한 인지적 틀, 즉 상품 정보 공간에 대한 사용자 관점에서의 다양한 범주화 기준을 파악함으로써 사이버 쇼핑몰의 기본 상품분류체계를 개발하였으며, 제2단계 실험은 1단계 실험결과를 바탕으로 교차적 연결과 다 계층 구조를 사용한 쇼핑몰 구조에 대한 유용성을 검증하는 것이었다. 그 검증 결과는 교차적 연결 측면에서는 교차적 연결이 제공되는 쇼핑몰이 제공되지 않는 쇼핑몰 보다 항해 편리성이 높은 것으로 나왔다. 그리고 이 교차적 연결이 다 층 구조상에서 제공되는 것보다는 단일 계층 구조상에서 제공되는 것이 항해 편리성을 높이고 있다. 한편, 계층구조측면에서는 단일 계층 구조가 제공되는 쇼핑몰이 다 계층 구조가 제공되는 쇼핑몰보다 항해만족과 항해 편리성이 높은 것으로 나왔다. 이를 기초로 본 연구는 이러한 결과에 대한 토론 및 쇼핑몰 구축상의 시사점을 제시하였다.

  • PDF