• 제목/요약/키워드: 통계방법

검색결과 9,375건 처리시간 0.035초

언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법 (Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments)

  • 김민호;김경식;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2015
  • 문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

  • PDF

국내외 문헌정보학분야 연구에서 추론통계 사용에 관한 연구 (A Study on the Use of Inferential Statistics in Library and Information Science Research)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제40권1호
    • /
    • pp.119-138
    • /
    • 2006
  • 본 연구는 국내외 문헌정보학분야의 대표적인 10개 학술지에서 2001부터 2004까지 발표된 1,768편의 연구논문을 대상으로 통계사용을 비교하였고, 그 중 추론통계를 사용한 345편의 논문에서 사용된 추론통계기법을 국내외, 학술지 주제영역별, 논문의 연구주제별, 연구방법별, 저자의 전공별로 분석하였다. 2001년 이후 기술통계와 추론통계의 사용은 증가하였으나, 외국에 비하여 국내에서의 사용률은 유의하게 낮은 차이를 보였다. 추론통계를 사용한 345편의 논문은 국내외, 학술지 주제영역별, 연구주제별, 연구방법별, 저자의 전공별 차이가 있었다. 사용된 추론통계기법은 국내외 간에, 학술지 주제영역 간에 차이가 있었다. 전체적으로 다변량분석이 가장 많이 사용되었다. 추론통계를 사용하는데는 가설 설정에서부터 가설을 검정하고, 검정통계량과 유의확률을 제시하고, 모형의 적합성을 해석하는데 보다 주의깊은 논의가 필요한 것으로 분석되었다.

데이터마이닝을 위한 혼합 데이터베이스에서의 속성선택

  • 차운옥;허문열
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.103-108
    • /
    • 2003
  • 데이터마이닝을 위한 대용량 데이터베이스를 축소시키는 방법 중에 속성선택 방법이 많이 사용되고 있다. 본 논문에서는 세 가지 속성선택 방법을 사용하여 조건속성 수를 60%이상 축소시켜 결정나무와 로지스틱 회귀모형에 적용시켜보고 이들의 효율을 비교해 본다. 세 가지 속성선택 방법은 MDI, 정보획득, ReliefF 방법이다. 결정나무 방법은 QUEST, CART, C4.5를 사용하였다. 속성선택 방법들의 분류 정확성은 UCI 데이터베이스에 주어진 Credit 승인 데이터베이스와 German Credit 데이터베이스를 사용하여 10층-교차확인 방법으로 평가하였다.

  • PDF

다중 점진적 중도절단에서 지수분포의 적합도 검정 (Goodness of Fit Tests for the Exponential Distribution based on Multiply Progressive Censored Data)

  • 윤혜정;이경준
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2813-2827
    • /
    • 2018
  • 최근에 중도절단 방법 중 점진적 중도절단과 관련한 연구가 활발히 이루어지고 있다. 하지만 점진적 중도절단 상황에서 관측되는 시점의 자료들 사이에는 관측원의 실수 혹은 관측 기계의 오류로 인하여 또 다른 중도절단이 발생할 수 있다. 따라서 이러한 기계적 오류 등을 고려하기 위하여 다중 점진적 중도절단이 새롭게 제안되었다. 따라서 본 논문에서는 다중 점진적 중도절단 상황에서 지수분포의 최대우도추정량을 계산하고 다중 점진적 중도절단 순서통계량을 이용한 적합도 검정 통계량과 로렌츠 곡선을 이용한 적합도 검정 통계량을 제안하였다. 몬테카를로 모의실험을 통하여 순서통계량을 이용한 적합도 검정 통계량과 로렌츠 곡선을 이용한 적합도 검정 통계량을 비교하고 더 우수한 적합도 검정 통계량을 확인하고, 실제 사례 자료를 활용하여 적합도 검정을 실시하였다. 그 결과 와이블분포와 카이제곱 분포의 경우 로렌츠 곡선을 이용한 방법이 더 우수한 결과가 나타났고, 로그 정규분포의 경우 순서통계량을 이용한 방법이 더 우수한 결과가 나타났다.

일반화가법모형에서 축소방법의 적용연구 (A Study on Applying Shrinkage Method in Generalized Additive Model)

  • 기승도;강기훈
    • 응용통계연구
    • /
    • 제23권1호
    • /
    • pp.207-218
    • /
    • 2010
  • 일반화가법모형은 기존 선형회귀모형의 문제점을 대부분 해결한 통계모형이지만 의미있는 독립변수의 수를 줄이는 방법이 적용되지 않을 경우 과대적합 문제가 발생할 수 있다. 그러므로 일반화가법모형에서 변수 축소방법을 적용하는 연구가 필요하다. 회귀분석에서 변수 축소방법으로 최근에는 Lasso 계열의 접근법이 연구되고 있다. 본 연구에서는 활용성이 높은 통계모형인 일반화가법모형에 Lasso 계열의 모형 중에서 Group Lasso와 Elastic net 모형을 적용하는 방법을 제시하고 이들의 해를 구하는 절차를 제안하였다. 그리고 제안된 방법을 모의실험과 실제자료인 회계년도 2005년 자동차보혐 자료에 적용을 통해 비교하여 보았다. 그 결과 본 논문에서 제안한 Group Lasso와 Elastic net을 이용하여 변수 축소를 통한 일반화가법모형이 기존의 방법보다 더 나은 결과를 제공하는 것으로 분석 되었다.

공간 데이터 분포와 질의 크기를 고려한 선택률 추정 (Selectivity Estimation for Spacial Data Distribution and Query Size)

  • 문현수;이미란;황환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.77-79
    • /
    • 2000
  • 공간 데이터베이스에서의 질의에 대한 선택률 추정에 대해서는 많은 연구가 있었지만 공간 데이터베이스에서의 공간 질의에 대한 선택률 추정이 매우 중요함에도 불구하고 이에 대한 연구는 아직 미흡한 상태이다. 이 논문에서는 공간 검색 조건의 정확한 선택률 추정을 위해 공간 데이터 분포를 통계 데이터로 저장하고 이를 이용하여 선택률을 추정하는 방법을 제안하고 구현하였다. 공간 질의에 대한 선택률 추정을 위해서 기존의 통계 데이터를 작성하는 방법으로 균등 분할 방법과 비균등 분할 방법이 사용되고 있지만 보다 정확한 선택률을 추정하기 위해서 본 논문에서는 새로운 통계 데이터 작성 방법인 크기별 분할 방법을 제안하였다. 각 방법의 성능은 다양한 파라미터에 대한 선택률 오차를 산출하여 평가하였다.

  • PDF

격자 기반의 통계정보 표현을 위한 데이터 변환 방법 (A Data Transformation Method for Visualizing the Statistical Information based on the Grid)

  • 김문수;이지영
    • Spatial Information Research
    • /
    • 제23권5호
    • /
    • pp.31-40
    • /
    • 2015
  • 본 논문에서는 다양한 형태로 존재하는 통계정보를 일정한 모양과 크기를 갖는 격자로 표현하기 위해 필요한 데이터 변환 방법론에 대하여 제시한다. 격자는 기존 통계지도 서비스에서 활용하고 있는 통계공간단위인 행정구역과 집계구와 비교하였을 때 모양과 크기가 일정하여 통계정보를 객관적으로 파악할 수 있게 하며, 지도 축척 변화에 유연하게 적용될 수 있는 특징이 있다. 한편, 기존 통계지도 서비스에서는 면 보간법을 활용하여 통계공간단위로 변환하고 있는데, 이것을 다양한 형태로 존재하는 통계정보에 적용시키기 위해서는 추가적인 프로세스가 필요하다. 이에 따라, 본 논문에서는 다양한 형태로 존재하는 통계정보의 격자 변환을 위해 1)지오코딩을 통한 공간데이터로의 변환, 2)공간 관계 정의를 통한 위치정보 변환, 3)데이터 척도를 고려한 속성정보 변환을 수행하는 방법론을 정리하였다. 제시한 방법론은 서울시 A지역의 인구 밀도 통계정보를 격자로 변환하기 위해 적용하였다. 특히, 동일한 통계정보를 표현하는 참조데이터가 서로 다르더라도 유사한 격자 표현이 가능해야 함을 검증하기 위해 공간 자기상관성을 통해 분석하였다. 그 결과, 집계구와 건물을 통해 표현되는 인구 밀도를 각각 격자로 변환하였을 때, 두 데이터 모두 유사한 격자 분포를 표현함을 파악할 수 있었다. 이러한 결과를 통해 본 연구에서 제안하는 방법론은 일관된 결과를 표현할 수 있음을 확인하였다.

이항 모수의 Blyth-Still 신뢰구간에 대한 소고

  • 유성모
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2002년도 추계 학술발표회 논문집
    • /
    • pp.227-230
    • /
    • 2002
  • 표본의 크기가 작을 경우에 이항분포의 모수에 대한 신뢰구간을 구하는 대표적인 방법으로는 Clopper-Pearson 방법과 Blyth-Still 방법이 있다. Clopper-Pearson 방법에 의한 신뢰구간은 이항 모수가 포함되는 커버리지 확률이 목표로 하는 신뢰수준보다 상대적으로 크다는 문제점이 있다. Blyth-Still 방법은 이러한 문제점을 개선시켰다. 그러나, Blyth-Still에 의해서 표로 보고된 신뢰구간을 적용할 경우 표본의 크기와 이항 모수의 값에 따라서 커버리지 확률이 목표하는 신뢰수준보다 작은 경우가 발생한다. 그러나, 이는 Blyth-Still 방법 자체의 문제점이 아니며 단지 보고된 표의 유의한 소수점 자릿수와 관계가 있다. 본 논문은 Blyth-Still 방법에 의한 좀 더 정확한 신뢰구간을 제시한다.

  • PDF

다차원 층화에서 선형계획법을 이용한 표본배정 방법

  • 최재혁;남궁평
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 추계 학술발표회 논문집
    • /
    • pp.91-96
    • /
    • 2005
  • 다차원층화에서 선형계획법을 이용한 표본배정 방법은 Winkler(1990, 2001), Sitter와 Skinner(1994, 2002)가 제안하였다. 이 방법들은 표본크기가 층 개수보다 크지 않는 경우에 공통적으로 선형계획법을 이용하여 표본배정을 실시하였다. 반복 비율 적합방법(IPF), 일반화 반복 비율 적합(GIFP), SS 방법을 통해 셀 값을 결정하고 선형계획법을 이용하여 표본의 배정확률을 통해 표본배정을 실시한다. 이 3가지 방법들로 표본을 배정하고 평균 및 분산추정량을 비교한다.

  • PDF