• 제목/요약/키워드: 카이제곱

검색결과 428건 처리시간 0.023초

카이제곱 통계량을 이용한 이슈 단어 추출 (Issue Word Extraction Using Chi-square Statistics)

  • 신준수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.225-227
    • /
    • 2014
  • 최근 온라인 뉴스는 대중의 관심사 및 트렌드에 따라서 다양한 종류의 기사들이 작성된다. 이러한 관심사 및 트렌드는 시간의 흐름에 따라 계속 변한다. 본 논문에서는 온라인 뉴스의 기사 제목을 이용하여 시간에 따라 변하는 관심사 및 트렌드와 관련된 단어를 추출하는 방법을 제안한다. 특정 기간 별 출현하는 뉴스들을 하나의 카테고리로 가정하고 자질 선택 방법에서 널리 사용되는 카이제곱 통계량을 이용하여 각 카테고리의 주요 단어를 추출한다. 실험 결과 특정 기간 별 관심사 및 트렌드와 관련된 단어들이 출현하는 것을 확인하였다.

  • PDF

A Monte Carlo Comparison of the Small Sample Behavior of Disparity Measures

  • 홍종선;정동빈;박용석
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.149-150
    • /
    • 2003
  • 소표본 분할표 자료에서 적합도 검정통계량들의 카이제곱 근사 적용 가능에 대하여 많은 연구가 진행되었다. 소표본에서 세 가지 검정 통계량(피어슨 카이제곱 $X^{2}$, 일반화 가능도비 $G^{2}$, 그리고 역발산 I(2/3) 검정통계량)에 관하여 비교한 Rudas(1986)의 연구를 확장하여, 최근에 제안된 차이측도(BWHD(1/9), BWCS(1/3), NED(4/3) 검정통계량)를 포함시켜 비교 분석하였다. 독립모형의 이차원 분할표, 조건부 독립모형과 한 변수 독립 모형을 따르는 삼차원 분할표에 대한 모의실험을 통하여 생성된 90과 95 백분위수와 이에 대응하는 95% 신뢰구간을 살펴보고 실제 백분위수와 비교하였다. 그 결과 $X^{2}$, I(2/3), 그리고 BWHD(1/9) 검정통계량이 유사한 결과를 나타내었고 이 통계량들이 기존에 제안된 검정통계량들보다 적은 표본크기에서도 카이제곱 근사방법에 적용 가능함을 발견하였다.

  • PDF

주변값이 주어진 이원분할표에 대한 카이제곱 검정통계량의 소표본 분포 및 대표본 분포와의 일치성 연구 (On the Small Sample Distribution and its Consistency with the Large Sample Distribution of the Chi-Squared Test Statistic for a Two-Way Contigency Table with Fixed Margins)

  • 박철용;최재성;김용곤
    • Journal of the Korean Data and Information Science Society
    • /
    • 제11권1호
    • /
    • pp.83-90
    • /
    • 2000
  • 이원분할표의 두 범주형 변수에 대한 독립성을 검정할 때 흔히 카이제곱 검정통계량이 사용된다. 표본추출 모형이 다항이나 곱다항인 경우 이 검정통계량이 독립성 가정하에서 근사적으로 카이제곱 분포를 따르게 되는 것은 잘 알려진 사실이다. 두 주변값이 모두 주어진 경우 독립성 가정하에서 표본추출 모형은 다중 초기하분포가 되며 앞의 모형과 마찬가지로 카이제곱 통계량에 근거한 검정을 사용할 수 있다. 이 연구에서는 주변값이 주어진 경우에 카이제곱 통계량의 소표본 분포를 대표본 분포인 카이제곱 분포와 비교하고자 한다. 표본크기가 작은 몇 개의 경우에 대해 카이제곱 통계량의 소표본 분포를 직접 계산해보았다. 표본크기가 큰 몇 개의 경우는 간단한 몬테칼로 알고리듬을 통해 소표본 분포를 생성하고 카이제곱 확률도와 콜모고로브-스미노브 단일표본 검정을 이용하여 대표본 분포와의 일치성을 알아보았다.

  • PDF

카이제곱 NHPP에 의한 소프트웨어 신뢰성 모형에 관한 연구 (The Study for NHPP Software Reliability Model based on Chi-Square Distribution)

  • 김희철
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.45-53
    • /
    • 2006
  • 유한고장수를 가진 비동질적인 포아송 과정에 기초한 모형들에서 잔존 결함 1개당 고장 발생률은 일반적으로 상수, 혹은 단조증가 및 단조 감소 추세를 가지고 있다. 본 논문에서는 기존의 소프트웨어 신뢰성 모형인 Goel-Okumoto 모형과 Yamada-Ohba-Osaki 모형을 재조명하고 잔존 결함 1개당 고장 발생률이 증가추세를 가진 카이제곱 분포를 이용한 카이제곱 모형을 제안하였다. 고장 간격시간으로 구성된 자료를 이용한 모수추정 방법은 최우추정법과 일반적인 수치해석 방법인 이분법을 사용하여 모수 추정을 실시하고 효율적인 모형 선택은 편차자승합, AIC 통계량 및 콜모고로프 거리를 적용하여 모형들에 대한 효율성 입증방법을 설명하였다. 소프트웨어 고장 자료 분석에서는 카이제곱 모형에 대한 자유도를 형상모수의 척도로 간주하여 고장수가 비교적 큰 실측 자료(고장수가 86)인 Allen P.Nikora 와 Michael R.Lyu가 인용한 SYS2 자료을 통하여 분석하였다. 이 자료들에서 카이제곱 모형의 비교를 위하여 산술적 및 라플라스 검정, Kolmogorov검정 등을 이용하였다.

  • PDF

윈저화 $x^2$의 양태에 대하여 (On the behavior od Winsorized $x^2$)

  • 성내경
    • 응용통계연구
    • /
    • 제7권2호
    • /
    • pp.1-7
    • /
    • 1994
  • 몬테칼로 모의실험 기법을 사용하여 모집단이 정규분포를 따를 때 g-g 대칭 윈저화 제곱합에 기초를 둔 윈저화 카이제곱 통계량의 경험적 분포가 자유도 (n-3g-1)의 통상적인 카이제곱 분포에 만족할만하게 근사되어짐을 보였다. 여기서 n은 표본 크기, g는 한쪽 꼬리 부분에서 윈저화가 적용되는 양이다. 산출된 경험적 분포의 일부를 수록하였다. 윈저화 카이제곱 통계량의 적용 사례의 한 예로써 단일 표본에서 분산 검증을 다룬다. 이 연구는 Tukey와 Mclaughlin (1963), Yuen과 Dixon (1973) 등의 연구 성과를 확대하는 것으로, 긴꼬리 분포에서 도출되는 자료 해석을 단순화하는 실용성을 위주로 한다.

  • PDF

임의로 관측중단된 두 표본 자료에 대한 카이제곱 검정방법 (Two-sample chi-square test for randomly censored data)

  • 김주한;김정란
    • 응용통계연구
    • /
    • 제8권2호
    • /
    • pp.109-119
    • /
    • 1995
  • 두 모집단에서 임의로 관측중단도니 두 표본을 얻었을 때, 두 모집단의 분포가 같다는 가설을 검정하기 위한 카이제곱 검정방법이 제안되었다. 여기서 제안된 통계량은 대립가설이 두 모집단의 분포가 같지 않다는 양측가설일 때 쓰일 수 있다. 귀무가설이 사실일 때 제안된 통계량의 극한분포는 카이제곱 분포가 된다. 두 가지 형태의 카이제곱 검정통계량이 제안되었는데, 하나는 product-limit 추정치로부터 얻은 관측된 칸(cell) 확률의 차이들의 벡터의 이차형식으로 표현된 것이고, 다른 하나는 간단한 합의 모양으로 표현된 것이다. 두 형태의 검정통계량을 사용하여 암치료를 위한 화학요법 실험으로부터 얻은 자료를 분석하여 보았다.

  • PDF

카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터 (Spam Filter by Using X2 Statistics and Support Vector Machines)

  • 이성욱
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.249-254
    • /
    • 2010
  • 본 논문은 지지벡터기계를 이용하여 스팸메일을 자동으로 분류하는 시스템을 제안한다. 이메일에 포함된 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이제곱 통계량을 이용하여 자질을 선택한 후 각각의 자질을 TF, TF-IDF, 이진 가중치 등으로 표현하여 실험하였다. 카이제곱 통계량을 이용하여 선택된 자질들을 이용하여 SVM을 학습한 후, SVM분류기는 각각의 이메일의 스팸 여부를 결정한다. 실험 결과, 선택되어진 자질들이 성능향상을 가져왔으며, TREC05-p1 스팸 말뭉치에 대해 약 98.9%의 정확도를 얻었다.

소표본에서 차이측도 통계량의 비교연구 (A Monte Carlo Comparison of the Small Sample Behavior of Disparity Measures)

  • 홍종선;정동빈;박용석
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.455-467
    • /
    • 2003
  • 소표본 분할표 자료에서 적합도 검정통계량들의 카이제곱 근사 적용 가능에 대하여 많은 연구가 진행되었다. 소표본에서 세 가지 검정 통계량(피어슨 카이제곱 Χ$^2$, 일반화 가능도비 G$^2$, 그리고 역발산 Ι(2/3) 검정통계량)에 관하여 비교한 Rudas(1986)의 연구를 확장하여, 최근에 제안된 차이측도(BWHD(1/9), BWCS(1/3), NED(4/3) 검정통계량)를 포함시켜 비교 분석하였다. 독립모형의 이차원 분할표, 조건부 독립모형과 한 변수 독립 모형을 따르는 삼차원 분할표에 대한 모의실험을 통하여 생성된 90과 95 백분위수와 이에 대응하는 95% 신뢰구간을 살펴보고 실제 백분위수와 비교하였다. 그 결과 Χ$^2$, Ι(2/3), 그리고 BWHD(1/9) 검정통계량이 유사한 결과를 나타내었고 이 통계량들이 기존에 제안된 검정통계량들보다 적은 표본크기에서도 카이제곱 근사방법에 적용 가능함을 발견하였다.

보완된 카이-제곱 기법을 이용한 단백질 기능 예측 기법 (Fucntional Prediction Method for Proteins by using Modified Chi-square Measure)

  • 강태호;유재수;김학용
    • 한국콘텐츠학회논문지
    • /
    • 제9권5호
    • /
    • pp.332-336
    • /
    • 2009
  • 유전체 분석에서 중요한 부분 중 하나는 기능이 알려지지 않은 미지 단백질에 대한 기능 예측이다. 단백질-단백질 상호작용 네트워크를 분석하는 것은 미지 단백질에 대한 기능을 보다 쉽게 예측할 수 있게 한다. 단백질-단백질 상호작용 네트워크로부터 미지 단백질의 기능을 예측하기 위한 다양한 연구들이 시도되어 왔다. 카이-제곱(Chi-square) 방식은 단백질-단백질 상호작용 네트워크를 통해 기능을 예측하고자 하는 연구 중 대표적인 방식이다. 하지만 카이-제곱 방식은 네트워크의 토폴로지를 반영하지 않아 네트워크 크기에 따라 예측의 정확성이 떨어지는 문제점이 있다. 따라서 본 논문에서는 카이-제곱 방식을 보완하여 정확성을 높인 새로운 기능 예측 방법을 제안한다 이를 위해 MIPS, DIP 그리고 SGD와 같은 공개된 단백질 상호작용 데이터베이스들로부터 데이터를 수집하여 분석하였다. 그리고 제안된 방식의 우수성을 입증하기 위해 각 데이터베이스들에 대해 카이-제곱방식과 제안하는 보완된 카이-제곱(Modified Chi-square)방식으로 예측해보고 이들의 정확성을 평가하였다.

카이제곱 통계량을 이용한 문서분류 자질 자동추출 방법 (Text Categorization Features Automatic Extraction Method Using Chi-squared Statistic)

  • 박종현;박소영;장준호;길태숙
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 추계학술대회
    • /
    • pp.695-697
    • /
    • 2010
  • 문서에 포함되는 어휘는 문서 분류의 정보를 가지므로 문서를 분석하여 유용한 단어를 추출하는 것은 다양한 서비스와 연계되어 사용될 수 있어 매우 유용한 일이다. 문서 자동 분류에서는 분류자질 선정 방식에 따라 분류정확도가 서로 달라질 수 있으며, 문서에서 추출되는 유용한 단어에 따라 인지되는 분야가 달라질 수 있다. 이에 본 논문에서는 각 문서에 포함되는 단어에 대한 카이제곱 통계량 점수를 사용하여 단어별 문서 분류에 대한 단어의 자질을 평가하고 문서의 분류별 유용한 단어를 자동 추출하는 방법을 제안하고 개발한다.

  • PDF