• 제목/요약/키워드: 범주

검색결과 3,907건 처리시간 0.027초

제목의 단어 가중치를 이용한 중등학교 공문서 자동분류시스템 (An Automatic Classification System of Official Documents in Middle Schools Using Term Weighting of Titles)

  • 강현희;진민
    • 정보교육학회논문지
    • /
    • 제7권2호
    • /
    • pp.219-226
    • /
    • 2003
  • 현재 일선 학교와 교육기관의 공문서 분류는 아직도 수작업으로 처리되고 있어 많은 시간이 소요된다. 이러한 문제점을 해결하기 위해 본 논문은 문서 제목의 단어 정보를 이용한 자동 문서 분류 방법을 제안한다. 먼저 기존 문서의 제목 단어 중에서 의미 있는 단어를 추출하여 각 단어에 대해 범주별로 역문헌 빈도(IDF) 가중치를 계산한 후 단어 가중치 사전을 구축한다. 문서의 분류 요구가 들어오면 구축된 단어 가중치 사전을 이용하여 문서 제목에 포함된 단어들의 범주별 가중치 합을 비교하여, 범주별 가중치 합이 최대인 범주로 문서를 분류한다. 실제 중등학교에서의 공문서를 대상으로 제안된 방법의 분류 성능을 평가하였다.

  • PDF

범주형 재무자료에 대한 신용평가모형 검증 비교 (Validation Comparison of Credit Rating Models for Categorized Financial Data)

  • 홍종선;이창혁;김지훈
    • Communications for Statistical Applications and Methods
    • /
    • 제15권4호
    • /
    • pp.615-631
    • /
    • 2008
  • 재무자료에 대한 신용평가모형은 각각의 재무변수를 평활한 예측부도율로 변환하여 사용한다. 본 연구에서는 연속형 재무자료를 변환하여 설정된 신용평가모형의 문제점을 살펴보고, 연속형 재무변수를 다양한 형태로 범주화한 신용평가모형들을 제안한다. 범주형 재무자료를 사용해서 개발한 여러 종류의 신용평가모형들의 성과를 다양한 적합성 검증 방법으로 비교하고, 범주형 재무자료를 이용한 신용평가모형의 유용성을 토론한다.

간세포암종의 재발 위험과 관련된 한 예후인자로서의 종양의 크기의 범주화 (Categorizing tumor size as a prognostic factor for risk of relapse of hepatocellular carcinoma)

  • 김선우;박철근
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.1-8
    • /
    • 2002
  • 예후인자의 범주화는 질병의 진단, 치료법 결정 및 임상시험의 참여기준 설정 등에 매우 유용하다. 예후인자의 범주화 방법으로는 생물학적 이론에 따라 경계값을 정하는 방법, 자료의 그래프를 이용하는 방법, 모든 가능한 경계 값들을 적용해보는 최소 유의확률 방법 등이 있다. 또한 최소 유의확률 방법의 다중검정문제를 보완한 몇 가지 방법들이 있다. 본 연구에서는 우리 나라에서 높은 발생률을 보이는 간세포암종의 절제술을 받은 환자들에 있어서 간 절제술 후 재발위험이 높은 군을 구별하는 한 근거로 종양의 크기를 범주화하기 위한 경계값을 결정하고자 하였다.

미국 소비자들이 지각만 온라인 쇼핑속성과 구매의도와의 관계 (The Relationship between Online Shopping Attributes and Purchase Intention among American Consumers)

  • Kim, Eun-Young;Kim, Youn-Kyung
    • 대한가정학회지
    • /
    • 제40권12호
    • /
    • pp.63-83
    • /
    • 2002
  • 본 연구는 미국 소비자들이 지각한 온라인 쇼핑속성에 대한 차원을 밝히고. 온라인 속성에 대한 중요성과 상품범주별 구매의도와의 관계를 밝혀 상품범주별 마케팅 전략과 인터넷 소비자 관리 및 교육 프로그램 개발에 기여하고자 하였다. 조사대상자는 가정에서 인터넷을 사용하고 있는 미국 소비자 303 명으로 구성되었으며, 질문지법에 의해 자료 수집되었다. 자료분석을 위해 탐색적 요인분석을 실행하였고, LISREL8에 의해 측정모델과 구조적 관계 모델을 동시에 검증하였다. 자료 분석결과를 요약하면 다음과 같다. 첫째, 소비자가 지각한 온라인 쇼핑에 대한 속성은 거래 및 비용, 사이트 디자인, 구매유인 프로그램, 상호 관계성의 4개 차원으로 분류되었다. 둘째, 온라인 상품은 구매의도에 따라 인지적 상품, 경험적 상품, 서비스 3개 범주로 분류되었다. 셋째, 지각된 온라인 쇼핑속성의 중요도와 각상품군 구매의도와의 구조적 관계모델을 추정한 결과,“거래 및 비용”은 3개의 상품군에 대한 구매의도에 모두 유의한 영향을 주었으며,“구매유인 프로그램”은 경험적 상품과 서비스에 대한 구매의도에 유의한 영향을 미쳤다. 따라서, 소비자들에게 중요하게 지각되는 인터넷 특정 속성 즉, 보완, 배달 및 비용을 초점으로한 상품범주별 차별화된 이점을 제시하여 효과적인 마케팅 전략을 수립해야 할 것이다. 또한, 전자 상거래와 관련 보완, 환불정책 등에 관한 소비자 교육과 보호법이 요구되고 있다.

초등학교 5학년 학생들의 넓이 측정과 관련된 지식 상태의 분석

  • 박혜경;김영희;전평국
    • 한국수학교육학회:학술대회논문집
    • /
    • 한국수학교육학회 2006년도 제37회 전국수학교육연구대회 프로시딩
    • /
    • pp.79-90
    • /
    • 2006
  • 새로운 것을 학습할 때 학생들은 자신이 어떤 지식 상태를 갖고 있는지에 따라 상당히 다른 이해의 정도를 나타낸다. 유의미한 이해를 이끌어 내기 위해서 교사들은 학생들의 사전 지식상태를 파악하고 그것에 근거하여 학습과제를 제시할 필요가 있으며, 어떤 단원을 학습한 후에 학생들의 지식상태를 파악해 보는 방법도 모색되어야 할 것이다. 본 연구는 충청북도 C도시 4개 초등학교 5학년 학생 285명에게 수학 5-가 6단원을 학습한 후 넓이 측정과 관련된 지식상태 검사를 실시하고 그 결과를 Doignon & Falmagne(1999)의 지식공간론을 활용하여 분석하였다. 학생들의 답안에서 평면도형의 넓이 측정과 관련된 지식의 상태를 파악하고 세 가지 범주-측정의 의미 파악, 공식 활용, 전략의 사용-에서 지식 상태의 위계도를 작성하였다. 첫 번째 범주인 측정의 의미 파악과 관련하여 학생들은 둘레나 넓이의 속성 파악에서 혼동을 보이거나 직관적으로 넓이를 비교해야 하는 과제에서도 계산을 시도하는 지식 상태가 반 이상인 것으로 드러났다. 두 번째 범주인 공식 활용과 관련해서는 학생들의 상당수가 부적합한 수치를 넣어 무조건 넓이 계산을 시도하고 있었다. 또한 세 번째 범주인 전략 사용에 관해서는 분할이나 등적변형 등의 전략을 알고 있는 학생 중에도 40% 가량은 문제를 표상하는데 어려움이 있어 해결하지 못하는 것으로 드러났다.

  • PDF

문서관리를 위한 자동문서범주화에 대한 이론 및 기법 (An Automatic Text Categorization Theories and Techniques for Text Management)

  • 고영중;서정연
    • 정보관리연구
    • /
    • 제33권2호
    • /
    • pp.19-32
    • /
    • 2002
  • 최근 디지털 도서관이 등장하고 인터넷이 폭 넓게 보급되어 온라인 상에서 얻을 수 있는 텍스트 정보의 양이 급증함에 따라 효율적인 정보 관리 및 검색이 요구되고 있다. 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업으로써 효율적인 정보 관리 및 검색을 가능하게 하는 동시에 방대한 양의 수작업을 감소시키는데 그 목적이 있다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 색인 과정을 통해 표현한다. 또한, 문서 분류기를 통해 문서를 목적에 맞게 분류한다. 본 논문에서는 자동 문서 범주화를 수행하기 위한 각 단계를 소개하고 각 수행 단계에서 사용되는 여러 가지 기법들을 소개하고자 한다.

mRMR과 수정된 입자군집화 방법을 이용한 다범주 분류를 위한 최적유전자집단 구성 (A hybrid method to compose an optimal gene set for multi-class classification using mRMR and modified particle swarm optimization)

  • 이선호
    • 응용통계연구
    • /
    • 제33권6호
    • /
    • pp.683-696
    • /
    • 2020
  • 표본의 다범주 표현형을 예측하는데 사용되는 최적의 유전자집단이란 적은 수의 유전자로 표현형을 정확히 예측할 수 있는 유전자들의 모임이다. 특이발현유전자를 검색하는 통계량은 이미 여러 가지가 있고, K-평균 군집화를 곁들여 중복성이 적은 특이발현유전자들을 선택 가능하다. 이들을 바탕으로 적은 수로 정확하게 다범주 분류가 가능한 유전자집단을 구성할 수 있도록 수정한 입자최적화 방법을 제안한다. 널리 알려진 ALL 248례와 SRBCT 83례를 이용하여 제안된 방법으로 최적유전자집단을 찾을 수 있음을 보였다.

논문 검색 결과의 효과적인 브라우징을 위한 단어 군집화 기반의 결과 내 군집화 기법 (A Search-Result Clustering Method based on Word Clustering for Effective Browsing of the Paper Retrieval Results)

  • 배경만;황재원;고영중;김종훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권3호
    • /
    • pp.214-221
    • /
    • 2010
  • 검색 결과 내 군집화(search-result clustering)는 검색 엔진으로부터 검색된 결과 내에서 비슷한 문서를 자동으로 군집화하는 기법이다. 본 논문에서는 논문 검색 서비스에 전문화된 새로운 결과 내 군집화 기법을 제안한다. 제안하는 시스템은 '범주체계생성기(Category Hierarchy Generation System)'와 '논문군집기(Paper Clustering System)'로 구성되어있다. '범주체계생생기'는 KOSEF의 연구 범주 체계를 이용하여 분야 시소러스라 불리는 범주 체계를 생성하고, K-means 알고리즘을 이용한 단어 군집화 알고리즘을 사용하여 분야 시소러스의 키워드 집합을 확장한다. '논문군집기'는 top-down 방식과 bottom-up 방식을 이용하여 각 논문의 범주를 결정한다. 제안하는 시스템은 논문 검색 서비스와 같은 전문 분야에 대한 검색 서비스에 유용하게 사용될 수 있을 것이다.

k-Modes 분할 알고리즘에 의한 군집의 상관정보 기반 빅데이터 분석 (A Big Data Analysis by Between-Cluster Information using k-Modes Clustering Algorithm)

  • 박인규
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.157-164
    • /
    • 2015
  • 본 논문은 융복합을 위한 범주형 데이터의 부공간에 의한 군집화에 대해서 다룬다. 범주형 데이터는 수치형 데이터에만 국한되지 않기 때문에 기존의 범주형 데이터들의 평가척도들은 순서화(ordering)의 부재와 데이터의 고차원성과 희소성으로 인하여 한계를 가지기 마련이다. 따라서 각각의 군집에 존재하는 범주형 속성들의 상호 유사도을 보다 근접하게 측정할 수 있는 조건부 엔트로피 척도를 제안한다. 또한 군집의 최적화를 위하여 군집내의 발산을 최소화하고, 군집간의 독립성을 향상시킬 수 있는 새로운 목적함수를 제안한다. 제안된 알고리즘의 성능을 4개의 알고리즘과 비교검증하기 위하여 5가지의 데이터에 대하여 실험을 수행하였다. 비교검증을 위한 평가척도는 정확도, f-척도와 적응된 Rand 색인이다. 실험을 통하여 제안된 방법이 평가척도에 의한 결과에서 기존의 방법들보다 좋은 성능을 보였다.

다항판별지수와 검정통계량 제안 (Proposition of polytomous discrimination index and test statistics)

  • 최진수;홍종선
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.337-351
    • /
    • 2016
  • 현실세계의 예측 문제에서 세 범주 이상의 결과로 예측되는 경우가 많다. 이러한 경우에 대한 기존의 문헌연구에서는 부합성을 짝 접근방법으로 활용한 통계량은 범주의 뚜렷한 구분 없이 표현되었다. 최근 새롭게 표현한 평가자료와 이를 바탕으로 부합성을 재표현하여 통계량들을 새롭게 정의함으로써 직관적으로 의미 파악이 가능해졌지만 통계량들의 판단기준이 구체적이지 않은 문제점을 갖고 있다. 또한 이 통계량들은 가능한 부합성의 짝으로 구성되었지만 실제범주들간에서 예측범주들의 부합성을 추가적으로 고려할 수 있기에 이를 포함한 두 가지 통계량을 제안하였다. 제안한 통계량은 선택된 두 범주로부터 모든 가능한 경우들 사이를 판별하는 장점이 있다. 본 연구에서 제안한 두 가지 통계량은 지시함수로 표현되므로 비모수적 통계량으로 변환할 수 있다. 그러므로 부합성 통계량을 가설검정 방법으로 사용할 수 있음을 제안한다.