• Title/Summary/Keyword: 용어빈도

검색결과 211건 처리시간 0.031초

정규화 용어빈도가중치에 의한 자동문서분류 (Automatic Text Categorization by using Normalized Term Frequency Weighting)

  • 김수진;김민수;백장선;박혁로
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.510-512
    • /
    • 2003
  • 본 논문에서는 문서의 자동 분류를 위한 용어 빈도 가중치 계산 방법으로 Box-Cox변환기법을 응용한 정규화 용어빈도 가중치를 정의하고, 이를 문서 분류에 적응하였다. 여기서 Box-Cox 변환기법이란 자료를 정규분포화 할 때 적용하는 통계적인 변환방법으로서, 본 논문에서는 이를 응용하여 새로운 용어빈도가중치 계산법을 제안한다. 문서에서 등장한 용어 빈도는 너무 많거나 적게 등장할 경우, 중요도가 떨어지게 되는데, 이는 용어의 중요도가 빈도에 따른 정규분포로 모델링 될 수 있다는 것을 의미한다. 또한 정규화 가중치 계산방법은 기존의 용어빈도 가중치 공식과 비교할 때, 용어마다 계산방법이 달라져, 로그나 루트와 같은 고정된 가중치 방법보다는 좀더 일반적인 방법이라 할 수 있다. 신문기사 8000건을 대상으로 4개의 그룹으로 나누어 실험 한 결과, 정규화 용어빈도가중치 계산방법이 모두 우위의 분류 정확도롤 가져, 본 논문에서 제안한 방법이 타당함을 알 수 있다.

  • PDF

환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교 (Comparison of Term-Weighting Schemes for Environmental Big Data Analysis)

  • 김정진;정한석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정 (Query Term Expansion and Reweighting by Fuzzy Infernce)

  • 김주연;김병만;신윤식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.336-338
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정보를 결합하여 후보 용어들의 가중치를 산정 하였다.

  • PDF

용어 가중치와 역범주 빈도에 의한 자동문서 범주화 (Automatic Text Categorization by Term Weighting and Inverted Category Frequency)

  • 이경찬;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

구조적 학술용어사전 구축에 있어서 인문사회분야 복합명사의 한자어 접미사 형태분석에 의한 용어의 개념화에 관한 연구 (A Study on the Conceptualization of Terminology for Construction of Structured Glossary - A Morphological Analysis of Sino-Korean Suffixes of Compound Noun in Humanities & Social Sciences)

  • 박성은;신유정
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.123-128
    • /
    • 2013
  • 본 연구는 한자어 접미사를 가진 학술용어 복합명사의 형태를 분석하고, 한자어 접미사를 가진 복합 명사의 범주화를 위한 알고리즘을 제시하는 것을 목적으로 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련하여 용어의 효율적인 개념화 방법론을 개발하는 것이다. 연구 목적을 이루기 위해 한자어 접미사를 가진 인문사회분야 복합명사의 형태를 분석하여, 출현 빈도가 10회 이상인 한자어 접미사를 각 분야별로 14개씩 추출하였다. 그리고 각 한자어 접미사가 배정된 개념범주와 개념범주 배정 빈도를 분석한 결과, 동음이의 한자어 접미사를 가진 경우 개념범주가 다양하게 배정될 수 있지만, 동음동형 한자어 접미사를 가진 경우에는 그렇지 않다는 특징을 파악하였다. 또한 특정 한자어 접미사가 하나의 개념범주에 배정된 빈도가 높고 그 외의 개념범주에 배정된 빈도는 현저히 낮을 경우 빈도가 높은 개념범주에 배정되는 것이 더 타당한 것으로 분석되었다.

  • PDF

교육학 분야 국내 학술 논문 저자키워드 출현 순서에 따른 빈도가 저자키워드의 논문 제목 출현 빈도에 미치는 영향에 관한 연구 (A Study on the Effects of the Appearance Sequence of Author Keyword on the Appearance Frequency of Article Title in the Education)

  • 윤은빈
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2014년도 제21회 학술대회 논문집
    • /
    • pp.119-122
    • /
    • 2014
  • 본 연구는 교육학 분야에서 국내 학술 논문 저자키워드 출현 순서에 의미가 있는지 알아보기 위하여 저자키워드 출현 순서별로 빈도를 조사하고 동 저자 키워드가 제목에 출현하는지를 살펴본 후, 학술논문 저자키워드 출현 순서에 따른 빈도가 저자키워드의 논문 제목 출현 빈도에 미치는 영향에 대해 연구하고자 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련해서 효율적인 용어 선정이나 용어 분류 방법을 찾는 것이다. 연구의 목적을 위해 교육학 분야 저자키워드의 출현 빈도수가 1인 것을 제외하고 고빈도 순으로 400개 용어를 추출하였다. 저자키워드의 몇 번째 출현 순서가 저자키워드의 제목 출현에 가장 큰 영향을 미치는지 알아본 결과, 저자키워드의 첫 번째 출현이 아닌 두 번째 출현이 가장 큰 영향을 미친다는 것을 알 수 있었다.

  • PDF

자모 빈도에 의한 통신 언어의 특성 연구 (A Study on the Features of Communicative Languages by Frequency Information)

  • 강승식;김보영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.501-504
    • /
    • 2003
  • 인터넷 채팅과 문자 메시지 등 통신 환경에서 사용되는 어휘들은 일정한 규칙성과 방향성을 가지고 있을 것으로 추정된다. 통신 용어의 생성 규칙과 음운론적 변형 현상을 규명하기 위하여 통신 용어의 사용 빈도의 분석과 언어학적 접근 방법을 통하여 통신 언어의 생성 원인을 분석한다 통신 환경에서 변형되어 사용되는 어휘들의 표준어와 통신상에서 사용되는 어휘 형태에 대해 각각 초성, 중성, 종성 빈도를 계산하고 통신 용어와 표준의 자모 사용 비율 변화를 분석하여 통신 용어가 생성되는 원인을 분석하였다.

  • PDF

전문용어사전 구축을 위한 전문용어 추출 및 순위화 (Term Extraction and Ranking for Building Term Dictionary)

  • 구희관;정한민;이병희;성원경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.745-748
    • /
    • 2005
  • 전문용어는 특정 분야의 전문가 사이에서 통용되는 표현 매체이며, 일반용어에 비해 생성과 소멸의 주기가 짧은 특징을 가지고 있다. 이런 특징 때문에 일반용어 사전구축과 달리 전문용어 사전을 구축하기 위해서는 신속한 대응전략이 필요하다. 이를 위해 본 논문에서는 전문용어 사전 구축을 위한 다음과 같은 두 단계의 과정을 제안한다. 우선 형태소 후처리와 결합규칙을 이용하여 1,200만 어절의 신문 말뭉치로부터 단일어 10만과 복합어 30만의 용어후보를 추출하고, 고빈도 용어 후보 6만개를 선별해 용어지배지수(Term Dominance Value)라는 개념을 도입하여 전문용어를 선정한다. 실험을 통해 용어지배지수 순위와 누적빈도순위 및 최근연도 순위를 비교한 결과 본 논문에서 제안한 용어지배지수가 전문용어 활용도를 나타내는 훌륭한 지표역할을 할 수 있음을 확인할 수 있었다.

  • PDF

구조적 학술용어사전 데이터베이스 구축에 있어서 용어의 의미관계 형성에 영향을 미치는 요인에 관한 연구 (A Study on the Factors Influencing Semantic Relation in Building a Structured Glossary)

  • 권선영
    • 한국문헌정보학회지
    • /
    • 제48권2호
    • /
    • pp.353-378
    • /
    • 2014
  • 본 연구는 구조적 정의에 의한 학술 용어 사전 데이터베이스 구축을 위해 학술용어의 의미관계 형성에 미치는 요인이 무엇인지를 찾아내고 이러한 요인이 어떠한 영향을 미치고 있는지를 밝히고자 하였다. 이를 위해 2007년부터 2011년 사이에 한국연구재단 등재학술지에 등재된 학술논문에서 학술논문 주제어를 추출하여 이를 대상으로 주제복합성, 언어 네트워크 특성, 출현빈도, 출현패턴을 분석하고 구축된 STNet의 의미관계 형성정도인 용어의 의미적 연결관계 노드의 수와 유형의 수와의 영향 관계를 살펴보았다. 가설 검증을 통해 구조적 학술용어사전의 구축에 있어 의미관계 형성정도에 주요한 영향을 미치는 요인으로 매개 중심성, 출현빈도, 구조적 공백성의 효과크기라는 것을 알 수 있었다. 그리고 용어의 중요성은 일반적으로 알려진 출현빈도를 통한 방법 외에도 연결정도 중심성, 근접 중심성, 매개 중심성, 위세 중심성과 같은 측정방법에 따라서도 판단할 수 있음을 확인하였다. 또한 주제복합성은 직접적으로 의미관계 형성정도에 영향을 미치지는 않지만 용어의 근접 중심성에 영향을 미치기 때문에 크게 4가지의 요인을 고려하여 용어를 선정할 경우 의미관계 형성정도는 높아질 수 있는 것으로 파악 되었다. 본 연구의 결과는 지금까지 용어를 선정하는 프로세스의 주된 방법론인 용어의 출현빈도를 활용하는 방법 이외에도 용어 네트워크상에서의 용어의 위치나 주제복합성 같은 방법론을 적용하여 용어를 선정할 수 있다는 것을 보여준다. 따라서 전문용어 사전을 구축할 때 용어의 네트워크에서의 매개 중심성, 출현빈도, 구조적 공백성의 효과크기, 용어의 주제복합성을 면밀히 판단하여 다각도로 용어를 선정할 경우 전문용어 사전의 질적인 향상과 완성도가 높아질 것을 기대할 수 있다.

용어 발생 유사도와 퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정 (Query Term Expansion and Reweighting using Term Co-Occurrence Similarity and Fuzzy Inference)

  • 김주연;김병만
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권9호
    • /
    • pp.961-972
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의어로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의어에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정도를 결합하여 후보 용어들의 가중치를 산정 하였다. 본 논문에서는 성능을 평가하기 위하여 KT-set 1.0과 KT-set 2.0을 사용하였으며, 성능의 상대적인 평가를 위하여 Dec-Hi 방법, 용어 분포 유사도를 이용한 방법, 퍼지 추론을 이용한 방법들을 정확률-재현률을 사용하여 평가하였다.

  • PDF