• 제목/요약/키워드: term weighting method

검색결과 66건 처리시간 0.021초

피벗 역문헌빈도 가중치 기법에 대한 연구 (A Study on the Pivoted Inverse Document Frequency Weighting Method)

  • 이재윤
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.233-248
    • /
    • 2003
  • 역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌번도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과, 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

문서 분류를 위한 용어 가중치 기법 비교 (Comparison of term weighting schemes for document classification)

  • 정호영;신상민;최용석
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.265-276
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝에서 분석하고자 하는 개체 정보를 가지고 있는 일반적인 자료 형태이다. 본 연구에서 문서 분류를 위해 문서-용어 빈도행렬에 적용되는 기존의 용어 가중치인 TF-IDF를 소개한다. 추가하여 최근에 알려진 용어 가중치인 TF-IDF-ICSDF와 TF-IGM의 정의와 장단점을 소개하고 비교한다. 또한 문서 분류 분석의 질을 높이기 위해 핵심어를 추출하는 방법을 제시하고자 한다. 추출된 핵심어를 바탕으로 문서 분류에 있어서 가장 많이 활용된 기계학습 알고리즘 중에서 서포트 벡터 머신을 이용하였다. 본 연구에서 소개한 용어 가중치들의 성능을 비교하기 위하여 정확률, 재현율, F1-점수와 같은 성능 지표들을 이용하였다. 그 결과 TF-IGM 방법이 모두 높은 성능 지표를 보였고, 텍스트를 분류하는데 있어 최적화 된 방법으로 나타났다.

전역적 특성과 거리가중치를 이용한 영상 인페인팅 (An Image Inpainting Method using Global Information and Distance Weighting)

  • 김창기;김백섭
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권8호
    • /
    • pp.629-640
    • /
    • 2010
  • 영상에서 일부분을 제거하거나 훼손된 영상에서 훼손된 부분을 복원하기위해 예제기반 인페인팅 방법이 주로 사용되고 있다. 예제 기반 인페인팅은 데이터 항 계산, 신뢰도 항 계산, 그리고 복사할 패치 선택 등 세가지 부분으로 구성되어 있는데 본 논문에서는 이들 각각 부분을 개선하여 기존의 예제기반 인페인팅 방법의 성능을 향상하는 방법을 제안한다. 기존에는 데이터 항을 계산하는데 편미방을 이용해서 국부적인 기울기를 구하기 때문에 잡음에 민감한 문제가 있어 이를 16개의 방향성 마스크를 사용하여 전역적 기울기를 구하도록 하여 잡음에 강건하도록 개선하였다. 신뢰도 항을 계산하는 과정에서 복원할 영역 내부에서 신뢰도 값이 매우 작아지는 문제를 개선하기 복원할 영역의 내부에서 신뢰도 항이 천천히 감소하도록 하는 방법을 제안하였다. 또한 복원할 영역에서 가까운 패치에 가중치를 주도록 패치 선택 방법을 개선하였다. 여러 가지 영상에 대한 실험한 결과 제안된 방법을 통한 인페인팅이 기존의 예제 기반 인페인팅보다 자연스럽게 복원함을 알 수 있었으며 훼손된 영상을 복원하는 경우에도 제안된 방법이 기존 방법보다 오차가 줄어듦을 알 수 있었다.

감정 기반 블로그 문서 분류를 위한 부정어 처리 및 단어 가중치 적용 기법의 효과에 대한 연구 (A Study on Negation Handling and Term Weighting Schemes and Their Effects on Mood-based Text Classification)

  • 정유철;최윤정;맹성현
    • 인지과학
    • /
    • 제19권4호
    • /
    • pp.477-497
    • /
    • 2008
  • 일상생활에서 많이 쓰이는 블로그 문서를 분석하는 것은 다양한 웹 응용서비스를 연결할 수 있는 중요한 단초를 제시하므로, 블로그 문서에 담긴 감정을 파악하는 것을 매우 유용한 일이다. 본 논문에서는 블로그 문서에 존재하는 감정을 보다 정확하게 분류하기 위해 부정어 처리와 새로운 단어 가중치의 적용이 성능에 미치는 영향에 대해 탐구한다. 특히, 감정단서(clue)가 내재된 정규화된 부정어 n-gram을 통해 부정어 처리를 고도화하고 말뭉치기반 단어 가중치 계산법(Corpus-specific Term Weighting, CSTW)을 통해 감정 분류 성능향상을 살펴보기로 한다. 검증을 위해 블로그 문서들로 정답 말뭉치를 구축하고 감정 흐름 분석(Enhanced Mood Flow Analysis, EMFA)과 지지벡터기계기반 감정 분류(Support Vector Machine based Mood Classification, SVMMC)의 두 가지 분류기법에 대해 실험을 하였다. 정규화된 부정어 n-gram의 적용은 EMFA에서 점진적인 감정 분류 성능 향상을 보여주었으며, CSTW의 적용은 TF*IDF나 TF에 비해 보다 높은 감정 분류 성능을 나타내었다.

  • PDF

지식 분류의 자동화를 위한 클러스터링 모형 연구 (Development of a Clustering Model for Automatic Knowledge Classification)

  • 정영미;이재윤
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.203-230
    • /
    • 2001
  • 본 연구에서는 문헌을 기반으로 한 지식의 자동분류를 위해 최적의 클러스터링 모형을 제시하고자 하였다. 클러스터링 실험을 위해서 신문기사 실험집단과 학술논문 초록 실험집단을 구축하였고, 분류 성능 평가 척도인 WACS를 개발하였다. 분류자질로 사용한 용어의 집합은 다양한 자질 축소 기준을 적용하여 생성하였으며, 다양한 용어 가중치를 사용하였다. 유사계수 공식으로는 코사인 계수와 자카드 계수를 적용하였으며, 클러스터링 알고리즘으로는 비계층적 기법인 완전연결 기법과 계층적 기법인 K-means기법을 각각 사용하였다. 실험 결과 신문기사 원문 집단에서의 성능이 좋았으며, 완전연결 기법의 성능이 K-means 기법보다 높게 나타났다. 역문헌빈도의 적용은 완전연결 클러스터링에서는 긍정적인 효과가 나타났으나, K-means 클러스터링에서는 그렇지 못했다. 분류자질은 전체의 7.66%만 사용하였을 경우에도 성능 저하가 크지 않았으며, K-means 클러스터링에서는 오히려 성능 향상 효과가 있었다.

  • PDF

코드북 기반 음성향상 기법을 위한 게인 보상 방법 (Gain Compensation Method for Codebook-Based Speech Enhancement)

  • 정승모;김무영
    • 전자공학회논문지
    • /
    • 제51권9호
    • /
    • pp.165-170
    • /
    • 2014
  • 음성 인식을 위한 전처리기로 주변 잡음을 제거해 주는 음성향상 기법이 강조되고 있다. 다양한 음성향상 기법들 중 코드북 기반 음성향상 기법은 nonstationary 잡음 환경에서도 효율적으로 동작한다. 하지만, 기존 코드북 기반 음성향상 기법에서는 입력 신호와 음성 및 잡음 코드벡터 간에 미스매치가 발생하여 부정확한 게인이 추정되는 문제가 있다. 본 논문에서는 부정확한 게인을 보상하기 위해 long-term 잡음 추정 알고리즘을 사용하여 매 프레임 별로 신호 대 잡음비기반의 Normalized Weighting Factor (NWF)를 구하고, 이것을 기존 게인에 보상하는 방식을 제안한다. 제안된 코드북 기반 음성향상 기법은 기존 코드북 기반 음성향상 기법에 비해 향상된 성능을 보였다.

단어 중의성 해소를 위한 SVM 분류기 최적화에 관한 연구 (A Study on Optimization of Support Vector Machine Classifier for Word Sense Disambiguation)

  • 이용구
    • 정보관리연구
    • /
    • 제42권2호
    • /
    • pp.193-210
    • /
    • 2011
  • 이 연구는 단어 중의성 해소를 위해 SVM 분류기가 최적의 성능을 가져오는 문맥창의 크기와 다양한 가중치 방법을 파악하고자 하였다. 실험집단으로 한글 신문기사를 적용하였다. 문맥창의 크기로 지역 문맥은 좌우 3단어, 한 문장, 그리고 좌우 50바이트 크기를 사용하였으며, 전역문맥으로 신문기사 전체를 대상으로 하였다. 가중치 부여 기법으로는 단순빈도인 이진 단어빈도와 단순 단어빈도를, 정규화 빈도로 단순 또는 로그를 취한 단어빈도 ${\times}$ 역문헌빈도를 사용하였다. 실험 결과 문맥창의 크기는 좌우 50 바이트가 가장 좋은 성능을 보였으며, 가중치 부여 방법은 이진 단어빈도가 가장 좋은 성능을 보였다.

용어의 문맥활용을 통한 문헌 자동 분류의 성능 향상에 관한 연구 (A Study on Improving the Performance of Document Classification Using the Context of Terms)

  • 송성전;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.205-224
    • /
    • 2012
  • 자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

전자기록의 장기보존을 위한 위험평가 방법의 제안 (A Risk Assessment Method for the Long-term Preservation of Electronic Records)

  • 차현철;최주호
    • 한국멀티미디어학회논문지
    • /
    • 제22권1호
    • /
    • pp.79-87
    • /
    • 2019
  • Appropriate strategies are needed to ensure long-term preservation of various types of electronic records. For proper preservation of electronic records, it is necessary of decision-making processes for risk assessment, notification and implementation of conservation measures. To do this, the task of assessing various risk factors that impede the long-term preservation and utilization of electronic records should be done first. In this study, since electronic records are mostly stored in file form, risk assessment for electronic records of file type is performed. The risk factors required for the risk assessment of the file format are derived, and the algorithms are developed to devise a calculation method of the weighting factor and the risk factor index for evaluating the risk based on the proposed risk factors. In addition, the proposed methods are applied to the file formats used in Korea and risk assessment is performed and the results are analyzed.

문서필터링을 위한 질의어 확장과 가중치 부여 기법 (Query Expansion and Term Weighting Method for Document Filtering)

  • 신승은;강유환;오효정;장명길;박상규;이재성;서영훈
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.743-750
    • /
    • 2003
  • 본 논문에서는 문서 필터링을 위한 질의어 확장과 가중치 부여 기법을 제안한다. 문서 필터링은 웹 검색 엔진들에 대한 검색 결과의 정확률 향상을 목적으로 한다. 문서 필터링을 위한 질의어 확장은 개념망, 백과사전, 유사도 상위 10% 문서를 이용하며, 각각의 확장 질의어에 가중치를 부쳐하여 질의어와 문서들간의 유사도를 계산한다. 첫 번째 단계에서 개념망과 백과사전을 이용하여 초기 질의어에 대한 1차 확장 질의어를 생성하고, 1차 확장 질의엉 가중치를 부여하여 질의어와 문서들간의 유사도를 계산한다. 다음 단계에서는 높은 유사도를 갖는 상위 10% 문서들을 이용하여 2타 확장 질의어를 생성하고, 2차 확장 질의어에 가중치를 부쳐하여 질의어와 문서들간의 유사도를 계산한다. 다음으로 1차 유사도와 2차 유사도를 결합하여 문서들을 재순위화하고, 임계치보다 낮은 유사도를 갖는 문서들을 필터링함으로써 웹 검색 엔진들의 검색 결과 정확률을 향상시킨다. 실험에서 이러한 문서 필터링을 위한 질의어 확장과 가중치 부여 기법은 정확률-재현율과 F-measure를 이용하여 성능 평가를 할 때 정보 검색 효율성에서 주목할 만한 성능 향상을 보였다.