• 제목/요약/키워드: 자질 선정

검색결과 70건 처리시간 0.033초

문서범주화 성능 향상을 위한 의미기반 자질확장에 관한 연구 (A Semantic-Based Feature Expansion Approach for Improving the Effectiveness of Text Categorization by Using WordNet)

  • 정은경
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.261-278
    • /
    • 2009
  • 기계학습 기반 문서범주화 기법에 있어서 최적의 자질을 구성하는 것이 성능향상에 있어서 중요하다. 본 연구는 학술지 수록 논문의 필수적 구성요소인 저자 제공 키워드와 논문제목을 대상으로 자질확장에 관한 실험을 수행하였다. 자질확장은 기본적으로 선정된 자질에 기반하여 WordNet과 같은 의미기반 사전 도구를 활용하는 것이 일반적이다. 본 연구는 키워드와 논문제목을 대상으로 WordNet 동의어 관계 용어를 활용하여 자질확장을 수행하였으며, 실험 결과 문서범주화 성능이 자질확장을 적용하지 않은 결과와 비교하여 월등히 향상됨을 보여주었다. 이러한 성능향상에 긍정적인 영향을 미치는 요소로 파악된 것은 정제된 자질 기반 및 분류어 기준의 동의어 자질확장이다. 이때 용어의 중의성 해소 적용과 비적용 모두 성능향상에 영향을 미친 것으로 파악되었다. 본 연구의 결과로 키워드와 논문제목을 활용한 분류어 기준 동의어 자질 확장은 문서 범주화 성능향상에 긍정적인 요소라는 것을 제시하였다.

잠재의미색인(LSI) 기법을 이용한 kNN 분류기의 자질 선정에 관한 연구 (Evaluation of the Feature Selection function of Latent Semantic Indexing(LSI) Using a kNN Classifier)

  • 박부영;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.163-166
    • /
    • 2004
  • 텍스트 범주화에 관한 선행연구에서 자주 사용되면서 좋은 성능을 보인 자질 선정 기법은 문헌빈도와 카이제곱 통계량 등이다. 그러나 이들은 단어 자체가 갖고 있는 모호성은 제거하지 못한다는 단점이 있다. 본 연구에서는 kNN 분류기를 이용한 범주화 실험에서 단어간의 상호 관련성이 자동적으로 유도됨으로써 단어 자체 보다는 단어의 개념을 분석하는 잠재의미색인 기법을 자질 선정 방법으로 제안한다.

  • PDF

문헌 빅데이터 분석 기반의 유망주체 선정 (Emerging Agents Discovery based on Big Data Analysis)

  • 김진형;황명권;정도헌;조민희;정한민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.89-91
    • /
    • 2012
  • 유망 주체의 선정은 기업협력 및 경쟁 관계에 있어 매우 중요하며 연구, 정부정책 및 기업전략의 수립에 있어 반드시 필요한 일이나 엄청나게 많은 정보의 양으로 인하여 많은 노력과 시간이 소요된다. 따라서 본 논문에서는 객관적으로 문헌 빅데이터를 분석하고 이를 통해 유망 주체를 선정해 내기 위한 통계적 문헌 분석 기반의 유망주체 선정 모델을 제안한다. 유망주체 선정을 위해서는 다양한 자질값들을 분석하여 기술 및 주체에 대한 통합 자질값을 구하고 이를 유망주체 선정에 활용한다. 또한 유망주체 선정에 세가지 기준(주체의 비전, 실행력, 활동력)을 통계적으로 분석하여 최종적으로 유망주체를 선정한다.

텍스트 분류를 위한 자질 순위화 기법에 관한 연구 (An Experimental Study on Feature Ranking Schemes for Text Classification)

  • 김판준
    • 정보관리학회지
    • /
    • 제40권1호
    • /
    • pp.1-21
    • /
    • 2023
  • 본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.

토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구 (A Study of Research on Methods of Automated Biomedical Document Classification using Topic Modeling and Deep Learning)

  • 육지희;송민
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.63-88
    • /
    • 2018
  • 본 연구는 LDA 토픽 모델과 딥 러닝을 적용한 단어 임베딩 기반의 Doc2Vec 기법을 활용하여 자질을 선정하고 자질집합의 크기와 종류 및 분류 알고리즘에 따른 분류 성능의 차이를 평가하였다. 또한 자질집합의 적절한 크기를 확인하고 문헌의 위치에 따라 종류를 다르게 구성하여 분류에 이용할 때 높은 성능을 나타내는 자질집합이 무엇인지 확인하였다. 마지막으로 딥 러닝을 활용한 실험에서는 학습 횟수와 문맥 추론 정보의 유무에 따른 분류 성능을 비교하였다. 실험문헌집단은 PMC에서 제공하는 생의학 학술문헌을 수집하고 질병 범주 체계에 따라 구분하여 Disease-35083을 구축하였다. 연구를 통하여 가장 높은 성능을 나타낸 자질집합의 종류와 크기를 확인하고 학습 시간에 효율성을 나타냄으로써 자질로의 확장 가능성을 가지는 자질집합을 제시하였다. 또한 딥 러닝과 기존 방법 간의 차이점을 비교하고 분류 환경에 따라 적합한 방법을 제안하였다.

최대 엔트로피 기반 문서 분류기의 학습 (Text Categorization Based on the Maximum Entropy Principle)

  • 장정호;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.57-59
    • /
    • 1999
  • 본 논문에서는 최대 엔트로피 원리에 기반한 문서 분류기의 학습을 제안한다. 최대 엔트로피 기법은 자연언어 처리에서 언어 모델링(Language Modeling), 품사 태깅 (Part-of-Speech Tagging) 등에 널리 사용되는 방법중의 하나이다. 최대 엔트로피 모델의 효율성을 위해서는 자질 선정이 중요한데, 본 논문에서는 자질 집합의 선택을 위한 기준으로 chi-square test, log-likelihood ratio, information gain, mutual information 등의 방법을 이용하여 실험하고, 전체 후보 자질에 대한 실험 결과와 비교해 보았다. 데이터 집합으로는 Reuters-21578을 사용하였으며, 각 클래스에 대한 이진 분류 실험을 수행하였다.

  • PDF

자질선정을 통한 국내 학술지 논문의 자동분류에 관한 연구 (An Experimental Study on the Automatic Classification of Korean Journal Articles through Feature Selection)

  • 김판준
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.69-90
    • /
    • 2022
  • 국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

Anchor Text의 단어 정보를 이용한 자동 문서 범주화 (Automatic Text Categorization Using Term Information of Anchor Text)

  • 허희근;한기덕;정성원;임성신;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.665-668
    • /
    • 2004
  • 최근의 웹 문서는 텍스트뿐만 아니라 이미지, 사운드 등 다른 여러 형태로 표현되고 있어서 텍스트의 비중이 낮아지고 있다. 그래서 문서 내에서 일정량 이상의 단어 추출이 어려운 문서들에 대해서 기존의 단어 정보만을 이용한 문서 범주화 방법은 좋은 성능을 기대할 수 없다. 그래서 본 논문은 Anchor Text 단어 정보의 자질 적합성 판단에 의한 새로운 자동 문서 범주화 모델을 제안한다. 문서 범주화 모델로는 베이지언 확률 모델을 이용하였으며, 카이제곱 통계량을 사용하여 자질을 선정하였다. 문서 내에서 추출된 단어 자질들이 해당 문서를 판단하는데 부족하다고 판단되면 문서의 링크정보를 이용하여 연결된 문서의 단어 자질과 Anchor Text의 단어 자질을 반영함으로써 성능을 향상시킨다.

  • PDF

영재교육 담당교사의 자질 반영을 중심으로 한 교사 연수 프로그램 분석 (An Analysis of Teacher Training Programs focusing on the Reflect Qualities of teachers in Gifted Education)

  • 조규성;정덕호;박경진;김희진;박선옥
    • 영재교육연구
    • /
    • 제24권4호
    • /
    • pp.543-559
    • /
    • 2014
  • 본 연구의 목적은 현재 우리나라에서 실시되고 있는 영재교육 담당교사를 위한 연수 프로그램이 어떤 내용으로 구성되어 있는지 분석하고 연수 프로그램이 영재교육 담당교사의 자질을 충분히 반영하는지 알아보는 데 있다. 이를 위하여 각 지역 교육청, 대학 부설 연수원과 원격연수원에서 실시하고 있는 영재교육 관련 20개의 연수 프로그램을 분석 대상으로 하였다. 분석을 위해 영재교육 담당교사의 자질에 관한 프레임을 선정하였고, 이 자료를 토대로 연수 프로그램을 강의별로 코딩하여 정제한 뒤 분류 작업을 거쳐 언어네트워크 분석을 실시하였다. 연구 결과 교사 연수 프로그램은 '교육과정', '교수법', '교육과정 개발'에 중점을 두어 운영되고 있음을 알 수 있었다. 이것은 교사의 전문적 자질을 중심으로 구성되어있음을 의미한다. 이는 많은 교사연수프로그램이 정의적 자질보다 전문성 및 교수능력 자질과 관련된 내용을 다루고 있다는 것을 보여준다. 그러므로 연수 프로그램을 다양하고 균형 있게 재편할 필요가 있다. 더욱이 교사의 자질을 균등하게 개선하기 위하여 체계적인 연수 프로그램이 요구된다.

유아교육 현장의 원장에 대한 질적 연구 (Qualitative research director for the field of early childhood education)

  • 임난주
    • 한국산학기술학회논문지
    • /
    • 제16권12호
    • /
    • pp.8243-8248
    • /
    • 2015
  • 본 연구의 목적은 유아교육 현장에서 원장이 갖춰야 할 것이 무엇인지 알아보고자 하였다. 이를 위하여 어린이집에서 종사하는 10년 이상의 경력을 지닌 원장 10명을 연구 참여자로 선정하여 그들이 교육현장에서 경험하고 탐구한 원장으로서의 필요한 자질과 역할, 태도와 이미지에는 어떤 것이 있는지 알아보고, 그것이 교사들에게 어떤 영향을 미치는지 밝혀내고자 토론과 심층면담을 실시하였다. 본 연구의 결과는 다음과 같다. 첫째, 유아교육현장에서 요구하는 원장의 자질은 전문가적 자질이나 지도자적 자질보다 인성적 자질이 우선적으로 요구되었다. 둘째, 교사의 역량을 키우고, 교육을 활성화시키는데, 교육에 대한 책임감 있는 자세와 전문가적인 태도는 원장이 갖춰야 할 중요한 요소로 요구되었다. 셋째, 원장의 이미지는 교사의 의사결정과 교육에 영향을 주는 것으로 나타났다.