• 제목/요약/키워드: 정보범주

검색결과 1,317건 처리시간 0.025초

용어 가중치와 역범주 빈도에 의한 자동문서 범주화 (Automatic Text Categorization by Term Weighting and Inverted Category Frequency)

  • 이경찬;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

One-class 문서 분류를 위한 긍정 자질과 부정 자질의 결합 (Combining Positive and Negative Features for One-Class Document Classification)

  • 송호진;강인수;나승훈;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-42
    • /
    • 2005
  • 문서 분류에서의 one class 분류 문제는 오직 하나의 범주를 생성하고 새로운 문서가 주어졌을 때 그 문서가 미리 만들어진 하나의 범주에 속하는가를 판별하는 문제이다. 기존의 여러 범주로 이루어진 분류 문제를 해결할 때와는 달리 one class 분류에서는 학습 시에 관심의 대상이 되는 하나의 범주와 관련이 있는 문서들만을 사용하여 학습을 수행하기 때문에 범주의 경계를 정하는 것은 매우 어려운 작업이다. 이에 본 논문에서는 기존의 연구에서 one class 분류 문제를 해결할 때 관심의 대상이 되는 예제의 일부를 부정 예제로 간주하여 one class 문제를 two class 문제로 변환하고 추가적으로 새로운 가상 부정 예제를 설정하여 학습을 수행하였던 방법에서 더 나아가 범주화를 위한 적절한 부정자질을 선택하고 이를 긍정자질과 함께 사용하여 학습을 수행한 후 SVM을 통하여 범주화 성능을 학인 해 보기로 한다.

  • PDF

Roget 범주와 기본정서의 구조 비교 (Structure Comparison of Roget's Categories and Basic Emotions)

  • 양재군;배재학
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.547-549
    • /
    • 2005
  • 본 논문에서는 Roget 범주 시스템과 Plutchik의 기본정서 구조를 서로 비교하였다. 이를 위해서 우선, 8가지 기본정서(Joy, Acceptance, fear, Surprise, Sadness, Disgust, Anger Anticipation) 각각을 Roget 범주에 대응시켰다. 대응한 Roget 범주 간의 참조정보 거리를 토대로 두 구조의 유사성을 가늠하였다. 실험결과, 기본정서에 대응하는 Roget 범주 거리 편차가 일정한 양상을 보이지 않았다(네 개의 정서차원 중에서 두 차원이 Roget 범주구조와 호응함). 본 논문의 실험 결과를 이용하연 Roget 범주와 기본정서 분류를 상호 보완할 수 있을 것이다. 나아가 개연규칙과 Plot Unit에서 사건과 상태의 선호도를 세분화 하는데 이용하고자 한다.

  • PDF

문서 구조 정보에 기반한 웹 페이지 범주화 모델 (A Web Page Categorization Model Based on Document Structural Information)

  • 정성화;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-96
    • /
    • 1998
  • 본 논문에서는 주제범주 체계를 이용한 웹 검색이 가지는 장점을 이용 할 수 있도록 인터넷 웹 페이지들을 주제범주 체계에 따라 자동으로 분류하는 모델을 제시한다. 특히 웹 페이지 작성자들의 의도를 범주화에 반영할 수 있는 방법으로 HTML 태그를 이용한다. 즉 웹 페이지의 표현에 있어서 벡터 스페이스 모델에서의 색인어 빈도 가중치에 태그 가중치를 추가 하여 보다 좋은 성능을 얻도록 하였다. 그리고 주제범주를 표현하는데 사용되는 자질의 선정에는 기대상호정보, 상호정보 척도를, 문서간 유사도 비교에는 최근린법을 사용하였다. 전북대에서 정보탐정용으로 분류한 웹 페이지를 대상으로 실험하였으며, 기본 모델 대비 약 7%의 정확도 향상을 얻을 수 있었다.

  • PDF

오류 학습 문서 제거를 통한 문서 범주화 기법의 성능 향상 (A Text Categorization Method Improved by Removing Noisy Training Documents)

  • 한형동;고영중;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권9호
    • /
    • pp.912-919
    • /
    • 2005
  • 문서 범주화에서 이진 분류를 다중 분류에 적용할 때 일반적으로 '한 범주에 적합-다른 모든 범주에서는 부적합(One-Against-All) 판정 방법'을 사용한다. 하지만, 이러한 '한 범주에 적합-다른 모든 범주에서는 부적합 판정 방법'은 한 가지 문제점을 가지는데, 적합(positive) 집합의 문서들은 사람이 직접범주를 할당한 것이지만 부적합(negative) 집합의 문서들은 사람이 직접 범주를 할당한 것이 아니기 때문에 오류 문서들이 많이 포함될 수 있다는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서 슬라이딩 원도우(sliding window) 기법과 EM 알고리즘을 이진 분류 기반의 문서 범주화에 적용할 것을 제안한다. 제안된 기법은 먼저 슬라이딩 윈도우 기법을 사용하여 오류 문서들을 추출하고 이들을 EM알고리즘을 사용해서 다시 범주를 할당함으로써 이진 분류 기반의 문서 범주화 기법의 성능을 향상시킨다.

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템 (A Stochastic Word-Spacing System Based on Word Category-Pattern)

  • 강미영;정성원;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.965-978
    • /
    • 2006
  • 본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.

문부정과 초점 의존성

  • 최현숙
    • 한국언어정보학회지:언어와정보
    • /
    • 제4권1호
    • /
    • pp.1.2-8
    • /
    • 2000
  • 76) $\ldots$[YP $neg_i\;\ldots\;t_i-[f\ldots*(\gamma)\ldots$] (1)=문부정 이동; (2)‘비선택적 결속’(unselective binding) 77) a. 초점운용자(초점 의존적 불변화사)의 통사적 성격을 동일하나, 형태론적 성격은 다를 수 있다. i. 문부정 - 문부정에 의해 결속되는, 하나 이상의 초점 혹은 의문 초점이나, 하나의 양화사를 포함하는 초점범주 ii. even(초점 의존적 불변화사) - even에 의해 결속되는, 하나 이상의 초점을 포함하는 초점범주 iii. 대조 영운용자 - 초점인 대조표지와 합쳐진 초점범주 b. 초점운용자의 의미는 운용자의 어휘적, 범주적 성격에 의거한다.

  • PDF

정보시스템계획 문제의 영향요인에 관한 연구

  • 정이상
    • 한국정보시스템학회:학술대회논문집
    • /
    • 한국정보시스템학회 1997년도 추계학술대회논문집 기업경쟁력 향상을 위한 정보통신 기술의 활용
    • /
    • pp.217-233
    • /
    • 1997
  • 정보시스템계획을 수립할 때 발생하는 많은 문제들은 성공적인 정보시스템의 구축 에 장애요인이 되고 있다. 본 연구는 정보시스템계획 문제에 영향을 미치는 요인들을 살펴 보고 정보시스템계획과정상의 범주, 정보시스템의 전략적 역할상의 범주로 나누었다. 또한, 각 범주와 관련한 요인들이 정보시스템계획문제를 감소시키는데 있어 어떤 영향을 미치는가 를 살펴보기 위한 이론적 모형을 제시하였으며 이들 요인데 대한 전략적 방안을 제시하기 위해 몇 가지 가설을 제시하여 추후 실증분석을 위한 토대로 마련하였다.

  • PDF

정상인과 명칭성 실어증 환자에게서 보이는 의미적 관련성의 좌우반구 편재화 (Hemispheric Asymmetry in Processing Semantic Relationship Shown in Normals and Aphasic)

  • 채수경;김동휘;편성범;홍성빈;이홍재;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.462-469
    • /
    • 1999
  • 본 연구에서는 시각적으로 제시되는 단어 자극의 의미 관련성의 차이에 따라 좌우반구의 처리가 어떻게 이루어지는지 알아보고자 하였다. 이를 위해서 명칭성 실어증 환자와 정상인 대학생 피험자를 대상으로 점화 어휘판단 과제를 수행하였다. 이 연구의 기본 논리는 명칭성 실어증 환자의 왼쪽 뇌가 손상되어 있기 때문에 어떤 정보처리가 왼쪽 뇌에서 일어나는 것이라면 정상인과 명칭성 실어증환자간의 수행에서 어떤 차이가 나타날 것을 기대되는 반면, 만일에 우뇌에서 처리되는 것이라면 정상인의 과제 수행 형태와 명칭성 실어증 환자의 것이 일치하는 형태를 보일 것이라는 것이다. 실험 1에서는 수직적 범주관련성이 어느 반구에서 정보처리 되는지를 조사하였다. 그 결과 정상인은 좌반구에서 유의미한 점화효과가 있고 우반구에서는 점화효과가 없었던 반면에, 명칭성 실어증 환자는 정상인과 정반대의 점화 효과를 보이고 있다. 이러한 결과는 좌반구가 일차적으로 수직적 범주 관련성 정보처리와 관련이 있음을 시사해 준다. 또한 수평적 범주 관련성에 따른 실험 은 정상인과 환자 두 집단 모두 수평적 범주관련성이 우반구에서 처리되는 유사한 패턴을 보여주었다. 실험2에서는 연합적 범주관련성에 따른 두 집단간의 점화 효과를 비교하였다. 정상인 집단과 환자 모두 좌우반구에 점화효과를 보여주고 있지만, 정상인 집단의 경우에는 우반구에서, 환자는 좌반구에서 점화량이 더 컸다. 연합관련 정보처리는 좌우반구 모두에서 일어난다고 하는 기존의 견해와 관련하여 볼 때 연합관련 정보처리는 좌우반구에서 일어난다고 해석할 수 있을 것이다. 명칭 실어증 환자의 정보처리는 정상인과 다르게 이루어지므로 이러한 좌우반구에서의 차이가 난 것으로 볼 수 있다. 이상의 실험1과 2의 결과를 종합해 보면, 시각적으로 제시되는 단어의 범주적 관련성이 주는 어휘정보 처리는 반구에 따라 처리하는 기능이 다르다고 결론 내릴 수 있다. 즉, 좌반구는 수직적 범주 관련성을 담당하고 우반구는 수평적 관련성을 담당하며, 연합적 관련성은 좌우반구 모두에서 정보처리 된다는 것이다.

  • PDF

시소러스범주정보를 이용한 질의응답시스템 (A Question Answering System Using the Information of the Category Information of Thesaurus)

  • 김수민;백대호;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자연어질의를 입력받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분석단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보 중에서 정답을 추출하기 위해 각 후보단어의 질의어단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용한 것이 성능의 향상을 보였다.

  • PDF