• 제목/요약/키워드: 일반화된 선형모형

검색결과 148건 처리시간 0.021초

말뭉치를 이용한 한국어 단어 개수 추정 (Estimating the Number of Korean Words Based on Corpus)

  • 김성기;한근식
    • 한국정보처리학회논문지
    • /
    • 제5권7호
    • /
    • pp.1774-1782
    • /
    • 1998
  • 한 언어에서 사용된느 단어의 총 개수를 추정하는 것은 매우 어려운 작업이다. 최근 한 언어를 대표하는 것으로 생각되는 원문, 발화, 또는 기타 표본들의 뭉치인 말뭉치가 대규모로 구축됨으로 말뭉치를 기반으로 하여 한 언어의 총 단어 개수를 추정할 수 있게 되었다. 본 논문에서는 한국어 말뭉치에 나타난 단얼르 기반으로한국어 단어의 총 개수를 추정하는 방법을 제시하고 한국어 단어의 총 개수를 추정한다. 이와 더불어 한국어에서 가장 많은 수의 고유명사를 차지하는 한국사람 이름의 총 개수도 함께 추정한다. 단어 개수와 이름 개수의 추정방법은 빈도를 이용한 일반화된 선형모형을 적용하였다. 1000만 어절의 말뭉치를 이용하여 한국어의 총 단어를 추정한 결과 1,062,392개로 추정되었으며 한국사람 이름의 개수는 1,493,003개로 추정되었다.

  • PDF

선형 점자료에 있어서의 시.공 복합 군집의 탐색 (Detecting Space-Time Clusters in Linear Point Data)

  • 홍상기
    • 대한지리학회지
    • /
    • 제33권2호
    • /
    • pp.325-338
    • /
    • 1998
  • 본 연구에서는 시.공 복합적인 선형 점 자료를 대상으로 시간과 공간을 함께 고려했을 때 자료 내에 군집(cluster)-시.공 복합 군집(space-time cluster)-이 존재하는 가를 검증하는 방법에 대해 논의하고, 실제 교통사고지점의 분포자료를 분석하여 군집의 유무를 통계적으로 검증하였다. 통계 분석의 결과 다음과 같은 사실이 확인되었다. 첫째, Knox의 분할표 방법과 Mantel의 역수 변환을 이용한 일반화된 회귀분석방법 모두 임계 거리 및 임계 시간 간격의 선택이 분석결과에 영향을 미친다. 둘째, 이러한 임의성을 극복하기 위해 다양한 임계 거리 및 임계 시간 간격(혹은 부가 상수)에 대해 반복 실험한 결과, 일부 임계값의 조합에서 시간과 공간이 서로 독립적이라는 귀무가설을 기각할 수 있는 증거가 발견되었다. 셋째, 시.공 복합 군집의 파악에 가장 적합한 임계 거리와 임계 시간 간격은 공간적으로는 7000m, 시간적으로는 14일 혹은 21일이다. 마지막으로, 통계 분석과정에서 자료에 존재하는 중복 기록 사고들의 존재가 밝혀짐으로써 시.공 복합군집 검증이 탐험적 자료 분석(exploratory data analysis)의 도구로서 가지는 가치를 확인할 수 있었다.

  • PDF

언더라이팅 시스템 구축을 위한 일반화가법부분선형모형의 활용 (Using Generalized Additive Partial Linear Model for Constructing Underwriting System)

  • 기승도;강기훈
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1215-1227
    • /
    • 2009
  • 보험회사가 보험가입자의 정확한 위험도를 측정하여, 현재 보험료 수준으로 해당 가입자를 보험에 가입하도록 허용하는 것이 보험회사에게 손해인지 여부를 판정하는 보험회사의 활동을 언더라이팅이라 한다. 언더라이팅 시스템을 구축하는 방법으로는 기존 전통적 방법과 통계모형을 활용하는 방법이 있다. 기존의 요율산출방법에 따라 위험집단의 위험도 수준을 정하고, 해당 위험집단에 속한 가입자의 위험도를 기계적으로 계산하는 전통적인 방법은 모형의 이해가 용이하고, 사용이 편리하나 통계적으로 부합된 모형이라고 할 수는 없다. 본 연구에서는 우리나라 자동차보험 분야에서 언더라이팅 기준을 구축하기 위해 통계모형을 활용하는 방법으로 일반화가법모형을 활용하는 방안을 제시하고 분석하였다. 본 연구의 결과는 현재 자동차보험 요율산출에 사용되고 있는 변수들의 유의성을 판단하는 데에도 활용될 수 있을 것이다.

이중 다단계 일반화 선형모형 적합을 위한 SRC-stat의 사용 (SRC-Stat Package for Fitting Double Hierarchical Generalized Linear Models)

  • 노맹석;하일도;이영조;임요한;이재용;오희석;신동완;이상구;서진욱;박용태;조성준;박종헌;김유경;유경상
    • 응용통계연구
    • /
    • 제28권2호
    • /
    • pp.343-351
    • /
    • 2015
  • 본 논문에서는 SRC-Stat 통계패키지를 이용하여 변량효과를 적합하는 방법에 대해서 소개하고자 한다. 본 패키지를 통하여 단변량 평균 뿐만 아나리 산포 및 분산에도 변량효과를 고려하는 이중 다단계 일반화 선형모형을 적합할 수 있다. 고정효과 및 변량효과의 추정치는 다단계 우도 방법을 이용하고 있으며, 실제 자료 적합을 통해 패키지의 사용법에 대해서 설명하고자 한다.

Improved Confidence Intervals on Total Variance in a Regression Model with Unbalanced Nested Error Structure

  • 박동준;이수진
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2004년도 학술발표논문집
    • /
    • pp.265-270
    • /
    • 2004
  • 불균형중첩오차구조를 갖는 단순선형회귀모형에서 나타나는 두 분산의 합에 대한 신뢰구간을 구하기 위하여 Ting et al.(1990) 방법과 Graybill and Wang(1980) 방법과 Tsui and Weerahandi(1989)가 제안한 일반화 축량(generalized pivotal quantity)방법을 이용한 두 가지 방법 등 모두 네 가지 신뢰구간을 제안한다. 신뢰구간의 적절성을 판단하기 위하여 여러 가지 불균형 설계에 대하여 SAS/IML로 시뮬레이션을 실행하고 신뢰계수와 신뢰구간의 평균 길이를 비교한다. 불균형중첩오차구조를 갖는 단순선형회귀모형의 두 분산의 합에 대한 네 가지 신뢰구간들이 주샘플링 단위의 변화에 따라 어느 방법이 적절한 신뢰구간을 구축하는지 추천하고, 실제 예제를 적용하여 시뮬레이션의 결과와 일관성이 있는지를 확인한다.

  • PDF

일반화 쌍곡분포 기반 선형 포트폴리오 위험측도에 대한 안장점근사 (Saddlepoint approximations for the risk measures of linear portfolios based on generalized hyperbolic distributions)

  • 나종화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.959-967
    • /
    • 2016
  • 자산의 수익에 대한 분포 가정은 파생 상품의 가치 평가에 매우 중요한 역할을 한다. Elberlein과 Keller (1995)는 오랜 기간에 걸친 주식 자료를 바탕으로 혼합 자산의 분포에 대한 다양한 검정을 수행한 결과, 정규성 가정이 만족되지 않음을 확인한 바 있으며, 일반화 쌍곡분포가 보다 현실을 잘 반영하는 모형임을 확인하였다. 또한, Hu와 Kercheval (2007)은 6년간의 S&P500 지수의 분석에서 정규분포는 VaR (value at risk)을 과소 추정하는 반면, 일반화 쌍곡분포는 잘 적합함을 확인하였다. 일반화 쌍곡분포는, Barndorff-Nielsen (1977)이 처음 소개한 분포로, 첨도가 큰 특징을 가지는 금융 자료의 적합에 유용한 분포이다. 본 연구에서는 일반화 쌍곡분포를 모분포로 하는 선형 포트폴리오의 위험측도를 추정한다. 위험측도로는 VaR과 ES (expected shortfall)를 고려하였으며, 추정 방법으로는 안장점근사를 사용하였다. 안장점근사는 소표본에서도 정확한 근사를 제공하는 근사법으로 알려져 있다. 모의실험을 통해 위험측도에 대한 안장점근사의 정도가 매우 우수함을 확인하였다.

TAR-GARCH 모형을 이용한 국내 주가 자료 분석 (TAR-GARCH processes as Alternative Models for Korea Stock Prices Data)

  • 황선영;김은주
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.437-445
    • /
    • 2000
  • 국내 주가시계열을 분석하기 위해 기존의 비선형시계열모형인 분계점을 가진 자기외귀모형(TAR)과 일반화 이분산자기회귀모형(GARCH)을 비교 분석한 후, 이 두가지 모형을 결합시킨 새로운 모형 TAT-GARCH모형을 제안하였다. 이 모형은 그 자체로도 이론적인 관삼의 대상이 되어 연관된 모수추정 기법을 제시하였고 국내 개별 주가시계열 자료의 분석에 있어서 제안된 모형이 기존의 모형들 보다 상대적으로 더 좋은 예측치를 제공할 수 있음을 특정 9개 회사의 주가분석을 통해 알아보았다.

  • PDF

일반화선형모형과 헤크먼모형을 활용한 성별 자동차사고 위험도 분석 (An Analysis on the Gender Differences in the Level of Accident Risk using Generalized Linear and Heckman Methods)

  • 김대환;박화규
    • 응용통계연구
    • /
    • 제27권1호
    • /
    • pp.147-157
    • /
    • 2014
  • 최근 여성의 사회적 참여와 지위가 상승함에 따라 여성운전자도 급격히 증가해왔다. 이에 주요국에서는 성별 자동차사고 위험도를 분석하고, 성별 위험도 차이의 원인을 규명하려는 연구가 활발히 진행되고 있다. 본 연구는 국내 모든 운전자 중 50만 명을 무작위로 추출하여 성별 자동차사고 위험도를 분석하였다. 종속변수로 사고심도와 사고빈도를 활용하였는데, 사고심도 변수에는 헤크먼모형(Heckman Method)을, 사고빈도 변수에는 일반화선형모형(Generalized Linear Method)을 적용하였다. 분석결과 남성은 교통사고가 발생할 경우 사고피해액이 여성보다 8.3% 높은 것으로 추정되었으며, 반대로 사고빈도의 경우에는 여성의 위험도를 1로 설정할 경우 남성의 위험도는 0.88로 남성의 위험도가 오히려 낮은 것으로 분석되었다. 향후 성별로 상이한 자동차사고 위험도의 원인이 규명된다면 좀 더 실효성 높은 정책을 통해 자동차사고를 경감시킬 수 있을 것이다.

Hub-and-spoke 운송전략을 고려한 철도화물서비스 네트워크디자인모형의 개발 (A Service Network Design Model for Rail Freight Transportation with Hub-and-spoke Strategy)

  • 정승주
    • 대한교통학회지
    • /
    • 제22권3호
    • /
    • pp.167-177
    • /
    • 2004
  • Hub-and-spoke운송은 교통분야에서 널리 이용되고 있는 운송전략의 대표적 개념이다. 화물의 컨테이너화와 환적기술의 발달로 최근 유럽을 중심으로 철도화물운송부문에서도 이 운송전략의 적용사례가 나타나고 있다. 이에 본 연구는 Hub-and-spoke운송전략을 구현하는 철도화물서비스네트워크 디자인모형을 제시하고, 대규모 운송망에도 적용이 가능한 효율적 알고리즘을 개발하였다. 개발되는 모형이 전략적 수준의 계획모형임에도 불구하고 모형에서는 일반화된 운영비용 외에 열차속도, 서비스빈도, 터미널에서의 화물처리속도 등에 따른 시간지체비용도 고려되었다. 시간지체비용의 고려에 따라 야기되는 목적함수의 비선형성은 빈도별 서비스결정변수의 설정을 통해 선형최적화문제로 표현되었다. 규모가 큰 네트워크의 경우 해도출의 어려움 때문에 본 논문은 전체문제의 분할(decomposition)에 기초한 휴리스틱방법((heuristic method)으로 문제를 해결하고자 하였다. 해도출의 효율성을 높이기 위해 서비스빈도개선과 관련하여 3개의 알고리즘이 개발되었고, 개발된 알고리즘은 유럽의 실제네트워크를 기초로 도출한 4개의 테스트문제를 대상으로 해의 정확도와 해 도출의 효율성이 비교 평가되었다.

다변량 다수준 이항자료에 대한 일반화선형혼합모형 (Generalized Linear Mixed Model for Multivariate Multilevel Binomial Data)

  • 임화경;송석헌;송주원;전수영
    • 응용통계연구
    • /
    • 제21권6호
    • /
    • pp.923-932
    • /
    • 2008
  • 우리는 자명하지 않은 상관 구조를 갖는 복잡한 다변량 자료에 직면하는 경우가 있다. 예를 들어 군집 구조 자료의 경우 생략된 변수들이 한 개 이상의 관측값에 동시적으로 영향을 줄 수 있기 때문에 결과들 간에 상관 구조를 모형화하는 것은 추정량의 효율성과 정확한 표준오차의 계산 등의 타당한 추론을 위해서 중요하다 관측값들 간에 종속성을 두는 표준 방법으로는 관측 값들이 관찰되지 않은 어떤 변수를 공유한다고 가정하는 것인데, 이러한 가정에 대해 본 연구에서는 다수준 모형을 고려한 상관된 임의효과 모형을 적합시켰다. 추정은 준모수적 접근방법으로 임의계수 분포에 대한 모수적 가정 없이 유한혼합 EM-알고리즘을 통하여 수행되었다.