• Title/Summary/Keyword: 범주분석

Search Result 2,287, Processing Time 0.026 seconds

A Web-Document Categorization System Using the Hierarchical Information of the Concept (의미의 상하위 정보를 이용한 웹문서 분류시스템)

  • Kang, Won-Seog;Hwang, Do-Sam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.36-39
    • /
    • 1999
  • 본 논문에서는 다양성을 가진 웹문서의 범주를 결정짓는 웹문서 분류 시스템을 설계, 구축한다. 웹문서는 일관된 형식과 내용이 없이 만들어지기 때문에 문서의 범주를 결정하는 시스템을 구축하기는 쉬운 일이 아니다. 제안한 웹문서 분류 시스템은 잡음 처리에 적합한 신경망 방식을 적용하여 다양한 내용의 웹문서의 범주를 결정짓는다. 본 시스템은 한국어 문장을 분석하는 한국어 형태소 해석기, 단어의 의미를 획득하는 개념 획득기, 단어의 사용된 의미를 고르는 애매성 해소기, 그리고 문서의 범주를 결정하는 신경망 범주 결정기로 구성된다. 본 시스템은 단어의 의미를 이용하여 문서를 표현하고 분석하는 개념 중심의 문서 분류 시스템이다.

  • PDF

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • Kim, Su-Min;Baek, Dae-Ho;Kim, Sang-Beom;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자연어질의를 입력받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분석단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보 중에서 정답을 추출하기 위해 각 후보단어의 질의어단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용한 것이 성능의 향상을 보였다.

  • PDF

Predicate-based Question Analysis for Korean Question-Answering System (질의응답 시스템을 위한 술어정보 기반 질의분석)

  • Kim, Won-Nam;Shin, Seung-Eun;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.296-300
    • /
    • 2004
  • 질의 응답 시스템이 정확한 정답을 제시하기 위해서는 사용자가 요구하는 정답의 유형을 결정할 필요가 있다. 질의분석의 일반적인 접근법으로는 의문사 정보, 규칙 그리고 통계 정보에 기반한 방법들이 있다. 본 논문에서는 술어정보를 이용한 질의분석을 제안한다. 먼저 의문사 정보를 이용하여 상위정답유형을 결정하고 질의문의 술어 정보와 구문 구조 정보를 이용하여 초점단어(focus word)를 추출한다. 초점단어란 정답유형을 결정하는데 단서가 되는 단어로써, 추출된 초점단어에 의해 75개의 하위정답유형 중 하나가 결정된다. 실험에 앞서 정답 유형별로 6개의 상위범주와 75개의 하위범주를 정의하였으며, 실험에는 학습 데이터의 일부와 일반 Web에서 수집한 테스트 데이터가 사용되었다. 실험결과 상위범주는 97.6%, 하위범주는 77.8%의 정확도를 보였으며 초점단어는 92.5%의 정확도를 보였다.

  • PDF

A Study on a Conceptual Taxonomy of Author Keywords of Humanities, Social Sciences, and Art and Sport in the Korea Citation Index (KCI) by Analysis of its Meaning and Lexical Morpheme (한국학술지인용색인(KCI)의 인문학, 사회과학, 예술체육 분야 저자키워드의 의미적, 형태적 분석에 의한 개념범주 텍사노미 연구)

  • Ko, Young Man;Kim, Bee-Yeon;Min, Hye-Ryoung
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.48 no.4
    • /
    • pp.297-322
    • /
    • 2014
  • The purpose of this study is to analyse the meaning and lexical morpheme of author keywords of humanities, social sciences, and art and sport in the Korea Ciation Index (KCI) and to propose a conceptual taxonomy of the author keywords. Four top-level concept categories such as 'Substance, Abstraction, General/Common, and Object' are replaced by seven more concrete categories such as 'object, action/function, property, theory/method, format/framework, general/common, and Instance'. In the middle and lower-level concept categories, the hierarchical structure is simplified and the unbalance of term distribution is reduced by creating, subdivision, integration, elimination, and movement of the categories. The result of the test based on the STNet shows that the replaced taxonomy of concept categories has the effects of making the term allocation more balanced and properties of terms more detailed.

A Clustering-based Undersampling Method to Prevent Information Loss from Text Data (텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법)

  • Jong-Hwi Kim;Saim Shin;Jin Yea Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

Imputation for Binary or Ordered Categorical Traits Based on the Bayesian Threshold Model (베이지안 분계점 모형에 의한 순서 범주형 변수의 대체)

  • Lee Seung-Chun
    • The Korean Journal of Applied Statistics
    • /
    • v.18 no.3
    • /
    • pp.597-606
    • /
    • 2005
  • The nonresponse in sample survey causes a problem when it comes time to analyze dataset in public-use files where the user has only complete-data methods available and has limited information about the reasons for nonresponse. Recently imputation for nonresponse is becoming a standard approach for handling nonresponse and various imputation methods have been devised . However, most imputation methods concern with continuous traits while many interesting features are measured by binary or ordered categorical scales in sample survey. In this note. an imputation method for ignorable nonresponse in binary or ordered categorical traits is considered.

Ontological Categorizing of High School Students About Rocks and Crust, Plate Tectonics (암석과 지각, 판구조론에 대한 고등학교 학생들의 존재론적 범주화)

  • Jeong, Ku-Song
    • Journal of Science Education
    • /
    • v.33 no.1
    • /
    • pp.56-68
    • /
    • 2009
  • The purpose of this study was to investigate students' ontological categories about rocks and the earth's crust and plate tectonics. A total of 169 high school students in the first grade were involved in the study, and in order to extend the boundary and tendency of the research, structuralized questions and coding frame were generated. Additionally, the results from all students were codified in four levels according to coding frame (matter, transformation, proto-process, and process). Followings are the results. First, the ontological categories of students about the concepts of this research were classified dominantly into a matter and transformation within the boundary of 67% of rocks, and 75% of the crust. The propensity of plate tectonics in terms of ontological category were analyzed by being codified into 68% of process category which proved to have relatively process-oriented perspective. Secondly, the inclination to allocate ontological categories of each students in terms of field concepts were confirmed in 16% and 31% per each student that were codified into process categories and matter categories. Most students that were codified into matter category responded to high tendency to view the world as a combination of simple substances. Moreover, the students had ontological faith that speculates only through a state or an incident in terms of concepts that form a structure of knowledge.

  • PDF

An Analysis of the Characteristics of the Subject-based Classification System (주제어기반 분류의 특성 분석 - 범주화 및 분류체계의 측면을 중심으로 -)

  • Baek, Ji-Won
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.47 no.1
    • /
    • pp.57-79
    • /
    • 2013
  • The aim of this study is to reveal the categorizational and classificatory features of the subject-based classification (SBC) as a subject organization system. For this purpose, 12 SBC schemes of public libraries were selected and a comparative analysis was made between the traditional classification system, such as DDC and SBC in terms of the categorizational aspects, and canons for the classification. As a result, there were significant and considerable differences between the two types of classifications. This study concluded that SBC cannot be clearly explained and understood without a consideration of its essential and distinctive characteristics as a classification scheme.

An Empirical Study on the Contextual Features of the Program Components during the Process of Social Work Program Design in the Social Service Agencies (사회복지 프로그램 구성요소개발활동의 실태 및 구성요소의 동질적인 범주성에 대한 실증적 연구 : 3단계 디자인 활동 중심으로)

  • Seo, In Hae;Kong, Gye Soon
    • Korean Journal of Social Welfare Studies
    • /
    • v.44 no.3
    • /
    • pp.237-269
    • /
    • 2013
  • The purposes of the study are to describe the feature of the program components, and to identify their changes in the process of designing the social work programs in the community service agencies in Korea. In order to achieve these purposes, the researchers constructed an analytical framework including 24 program components derived from the related literatures. Data was collected by questionnaires answered by the social workers who were in charge of the program development and implementation. Descriptive statistics analysis and factor analysis were applied to exam the features of the program components in 195 social service programs developed by the funds from the Community Chest of Korea and a private funding foundation. As the result of the analysis, the three noticeable features are found; (1) the agencies have very actively involved in the designing work in the process of developing practice guideline, however they have less involved in the designing work in the process of implementing program; (2) program components which are low level in design activities are intervention models, staff education, and practical ethics; (3) 8 categories of components derived from the theoretical perspective are reduced to 6 categories in the process for developing practice guidelines, finally to 4 categories in the process for implementing the programs. The implications of major findings were discussed in academic and practical perspectives in Korea, including future research works in the area.

Affective Scale for Textile Image (직물 디자인 강성 이미지 스케일(image scale))

  • 박수진;장준익;정찬섭
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 1998.11a
    • /
    • pp.218-224
    • /
    • 1998
  • 본 연구에서는 직물 디자인과 관련된 감성 어휘 모형과 디자인 요소 분석 체계를 통합하여 직물 디자인 감성 이미지 스케일을 제안하고자 한다. 이를 위해 3차원으로 구성되었던 감성 어휘 모형을 수정하여 2차원-범주 모형으로 만들고 디자인 요소 분석 체계를 이용하여 개별 직물 표본에 대한 디자인 평가가 선행되었다. 두 체계를 토대로 33개의 직물 표본에 대해 76개의 감성 어휘를 사용한 감성 조사가 실시되었다. 직물관련 감성 평가시 개별 감성 어휘를 모두 비교, 판단하는 경우 생길 수 있는 과제의 어려움을 줄이고자 범주 평가 후 범주 내 개별 어휘를 평가하는 방식을 취했다. 설문을 연령대가 다른 일반인과 전문가에게 실시되었으며 설문 결과를 토대로 직물 표본을 2차원-범주 모형에 분포시키고 필수적인 디자인 요소에 대해 확인하였다.

  • PDF