• 제목, 요약, 키워드: Distributional Hypothesis

검색결과 10건 처리시간 0.031초

익산원광한의원 내원환자의 체질분포에 관한 통계적 분석 (A Statistical Analysis of the Distribution of Sasang Constitutions in Iksan Wonkwang Oriental Medicine)

  • 김종열;김홍기
    • 대한한의학회지
    • /
    • v.24 no.3
    • /
    • pp.118-129
    • /
    • 2003
  • Objective : To learn the distributional characteristics of Sasang constitutions, Methods : We statistically analyzed those 1338 patients who had been treated at Iksan Wonkwang Oriental Medicine during the period of three years from 2000 to 2002. The data were obtained through the electronic chart developed by Kim Jong- Yeol, and analyzed using the statistical Package SPSS. Results : The distributional ratio of Soeumin : Soyangin : Taeumin was 22.8 : 29.2 : 47.8. Thus the hypothesis : 'the distributional ratio of Soeumin : Soyangin : Taeumin is 2 : 3 : 5' was barely rejected by $x^2$ test for goodness-of-fit at the significance level of 5 %. When $x^2$ test for homogeneity was applied, the distributional characteristics between women and men were different and the distributional characteristics among several age groups were different under significance level of 5%. Conclusion : Though the hypothesis: 'the distributional ratio of Soeumin : Soyangin : Taeumin is 2 : 3 : 5' was rejected by $x^2$ test at the significance level of 5%, the observed distributional ratio was not so far away from the hypothesis.

  • PDF

Application of Bootstrap Method for Change Point Test based on Kernel Density Estimator

  • Kim, Dae-Hak
    • Journal of the Korean Data and Information Science Society
    • /
    • v.15 no.1
    • /
    • pp.107-117
    • /
    • 2004
  • Change point testing problem is considered. Kernel density estimators are used for constructing proposed change point test statistics. The proposed method can be used to the hypothesis testing of not only parameter change but also distributional change. Bootstrap method is applied to get the sampling distribution of proposed test statistic. Small sample Monte Carlo Simulation were also conducted in order to show the performance of proposed method.

  • PDF

벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집 (Word Sense Similarity Clustering Based on Vector Space Model and HAL)

  • 김동성
    • 인지과학
    • /
    • v.23 no.3
    • /
    • pp.295-322
    • /
    • 2012
  • 본 연구에서는 벡터 공간 모델과 HAL (Hyperspace Analog to Language)을 적용해서 단어 의미 유사성을 군집한다. 일정한 크기의 문맥을 통해서 단어 간의 상관성을 측정하는 HAL을 도입하고(Lund and Burgess 1996), 상관성 측정에서 고빈도와 저빈도에 다르게 측정되는 왜곡을 줄이기 위해서 벡터 공간 모델을 적용해서 단어 쌍의 코사인 유사도를 측정하였다(Salton et al. 1975, Widdows 2004). HAL과 벡터 공간 모델로 만들어지는 공간은 다차원이므로, 차원을 축소하기 위해서 PCA (Principal Component Analysis)와 SVD (Singular Value Decomposition)를 적용하였다. 유사성 군집을 위해서 비감독 방식과 감독 방식을 적용하였는데, 비감독 방식에는 클러스터링을 감독 방식에는 SVM (Support Vector Machine), 나이브 베이즈 구분자(Naive Bayes Classifier), 최대 엔트로피(Maximum Entropy) 방식을 적용하였다. 이 연구는 언어학적 측면에서 Harris (1954), Firth (1957)의 분포 가설(Distributional Hypothesis)을 활용한 의미 유사도를 측정하였으며, 심리언어학적 측면에서 의미 기억을 설명하기 위한 모델로 벡터 공간 모델과 HAL을 결합하였으며, 전산적 언어 처리 관점에서 기계학습 방식 중 감독 기반과 비감독 기반을 적용하였다.

  • PDF

Deep Neural Network 언어모델을 위한 Continuous Word Vector 기반의 입력 차원 감소 (Input Dimension Reduction based on Continuous Word Vector for Deep Neural Network Language Model)

  • 김광호;이동현;임민규;김지환
    • 말소리와 음성과학
    • /
    • v.7 no.4
    • /
    • pp.3-8
    • /
    • 2015
  • In this paper, we investigate an input dimension reduction method using continuous word vector in deep neural network language model. In the proposed method, continuous word vectors were generated by using Google's Word2Vec from a large training corpus to satisfy distributional hypothesis. 1-of-${\left|V\right|}$ coding discrete word vectors were replaced with their corresponding continuous word vectors. In our implementation, the input dimension was successfully reduced from 20,000 to 600 when a tri-gram language model is used with a vocabulary of 20,000 words. The total amount of time in training was reduced from 30 days to 14 days for Wall Street Journal training corpus (corpus length: 37M words).

대구시 도시근린공원의 접근성에 따른 환경적 형평성 분석 (Environmental Equity Analysis of the Accessibility of Urban Neighborhood Parks in Daegu City)

  • 서현진;전병운
    • 한국지리정보학회지
    • /
    • v.14 no.4
    • /
    • pp.221-237
    • /
    • 2011
  • 본 연구는 환경정의 관점에서 도시근린공원의 접근성에 따른 형평성을 대구시를 사례로 분석하였다. 이를 위해 근린공원의 공간통계학적 분포 특성을 살펴 본 후, 최소거리 및 커버리지 접근 방법을 이용하여 접근성을 측정하였다. 여기에서 도출된 접근성에 따른 사회 경제적 특성을 비교하기 위해 근접비율, 맨 휘트니 U 검정, 로지스틱 회귀분석 등과 같은 기술적 추론적 통계를 이용하여 분석하였다. 최소거리 분석에서는 자치구 중 달서구가 근린공원에 대한 접근성이 가장 양호하며, 동구가 가장 불량한 것으로 나타났다. 커버리지 분석에서는 500m와 1,000m 모두 접근성이 가장 양호한 자치구는 달서구, 가장 불량한 자치구는 동구와 남구로 분석되었다. 환경적 형평성 분석 결과 구시가지는 대부분 고령자비율에서 환경적 형평성이 있는 것으로 나타났고, 인구밀도 및 미성년자 비율에서 불형평성이 나타났다. 신시가지는 대부분 인구밀도 및 미성년자 비율에서 환경적 형평성이 있는 것으로 나타났고, 고령자비율과 기초생활수급자비율 및 무상주택비율에서 불형평성이 나타났다. 이러한 결과는 정량적인 도시공원정책에 의한 대구시 도시공원의 조성과정 및 도시개발과정과 영구임대주택의 입지패턴과 밀접한 연관성을 가지고 있었다. 본 연구는 기존의 유해시설과 관련된 환경정의 연구의 주제를 확장하였으며, 도출된 분석결과는 대구시에서 사회 경제적 특성을 반영한 도시공원정책을 수립할 때 기초자료로 활용될 수 있다.

직관 실험 및 코퍼스를 바탕으로 한 의미 중의성 해소 계산 모형 연구 (A Study on the Computational Model of Word Sense Disambiguation, based on Corpora and Experiments on Native Speaker's Intuition)

  • 김동성;최재웅
    • 인지과학
    • /
    • v.17 no.4
    • /
    • pp.303-321
    • /
    • 2006
  • 본 논문은 의미 중의성 해소에 대한 화자의 직관의 계산 모형에 대한 연구로 Harris (1964)의 '분포가설'에 근거하여 핵심어와 공기하는 어휘들에 대한 분포적 정규성을 포착하는 언어 직관의 계산 모형을 제안한다. 이를 위해 분포적 정규성에 대한 화자의 처리 계산 모형을 파악하기 위하여 심리언어학적 실험을 실시하고 그 결과를 분석한다. 계산 모형으로는 논리 모형, 확률 모형, 그리고 확률 추론 모형의 세가지 모형이 설정되었다. 실험은 두 가지로 구성되었다. 첫 번째는 100만 어절 코퍼스에서 추출된 문장을 화자 직관으로 의미를 식별하는 실험이었다. 이 실험에서는 응답간 일치도가 98%로 나왔다. 두 번째 실험은, 제한된 환경에서 실험자의 반응을 관찰하기 위한 것으로, 분열문이라는 환경을 통해 핵심어와 공기어사이의 의미 관계를 살펴보았다. 또한 100만 어절 코퍼스에서 관찰된 수치와 실험에서 관찰된 관찰치사이의 상관성을 피어슨의 상관계수로 측정하였다. 그러한 측정 결과 실제 코퍼스에서 관찰되는 현상은 논리모형과 상관성이 있었고, 제한된 환경에서 실시한 결과는 확률 모형과 상관성이 있었다. 이 실험결과는 논리 모형이 우선적으로 의미 분류에 관여하나, 만약 논리 모형이 적용되지 않을 경우 확률 모형이 관여함을 보여 준다. 아울러 의미 결정 모형의 관점에서는 논리 모형이 정확하게 직관모형을 예측할 수 있었고, 확률추론 모형도 직관모형을 근사치에 가깝게 예측할 수 있었다.

  • PDF

The Effect of Organizational Justice on Information Security-Related Role Stress and Negative Behaviors

  • Hwang, Inho;Ahn, SangJoon
    • 한국컴퓨터정보학회논문지
    • /
    • v.24 no.11
    • /
    • pp.87-98
    • /
    • 2019
  • 최근 많은 조직들은 정보보안 기술에 투자를 통해, 그들의 정보자원 관리 및 보호를 위한 노력을 하고 있다. 그러나, 조직 내부자에 의한 정보보안 위협 요인은 줄지 않고 있다. 본 연구는 내부자들의 정보보안 부정적 행동에 영향을 미치는 요인을 찾는다. 세부적으로, 연구는 정보보안 관련 업무스트레스와 부정적 행동간의 관계를 찾고, 조직공정성이 업무스트레스를 완화하는 것을 제시한다. 즉, 연구 목적은 조직공정성, 정보보안관련 업무스트레스, 부정적 행동간의 연계 매커니즘을 제시하는 것이다. 매커니즘 요인 구성은 정보보안 및 인사조직 관련 선행연구를 통해 도출되었다. 부정적행동은 회피행동과 이탈행동으로 구성하였으며, 보안관련 업무스트레스는 업무갈등과 업무스트레스로 구성된다. 그리고 조직공정성은 분배공정성, 절차공정성, 그리고 정보 공정성으로 구성된다. 연구 모델 검증은 구조방정식 모델링을 통해 실시하였다. 연구모델과 가설을 설립한 이후, 본 연구는 설문항목을 개발하고 정보보안 정책을 보유한 기업에 다니는 조직원 383명의 표본을 확보하였다. 연구 결과는 정보보안 관련 업무스트레스가 조직원들의 부정적 행동을 높이는 것을 증명하였으며, 조직공정성이 조직원에게 발생하는 업무스트레스를 완화하는 것을 제시하였다. 분석 결과는 내부자의 정보보안관련 부정적 행동을 최소화하기 위한 조직적 전략 수립 방향을 제시한다.

함평만 갯벌의 저서규조류 분포 특성 (Distribution of Benthic Diatoms in Tidal Flats of Hampyeong Bay, Korea)

  • 이학영;정명화
    • 환경생물
    • /
    • v.29 no.1
    • /
    • pp.17-22
    • /
    • 2011
  • 함평만 갯벌에 출현한 저서규조류는 총 45종이었으며 Paralia sulcata가 가장 우점하는 것으로 나타났다. 출현종 분포에서는 전 지점에서 4월에 가장 다양했고 1월에 가장 단순한 종조성을 나타냈으나 큰 차이가 없는 것으로 나타나 고온기의 높은 다양도는 볼 수 없었다. 표층 퇴적물 시료의 chlorophyll a 농도는 19.7~35.2 mg $m^{-2}$이었고 평균 28.7 mg $m^{-2}$로 나타났다. 표층 퇴적물 내 pheopigment의 농도 범위는 25.3~45.2 mg $m^{-2}$이었고 평균 36.2 mg $m^{-2}$로 다른 지역의 결과와 차이가 없었다. 저서규조류 단위면적당 출현 개체수는 지점별, 조사시기 별 큰 차이를 보여주었다. 전 조사지점에서 4월에 가장 많은 개체수 밀도를 나타냈고 1월, 2월, 10월에 상대적으로 낮은 출현개체 밀도를 나타냈다. 생물량의 분포는 개체수 밀도의 분포와 유사한 양상을 나타냈다. 생물량은 4월에 함평만 갯벌의 전 조사지점에서 가장 높게 나타났고 1월과 2월, 그리고 10월의 조사에서 상대적으로 낮게 나타냈으며, 4월 이후에는 뚜렷한 감소의 경향을 나타냈다. 생물량과 출현종 다양도는 온도와 2차원의 회귀에 적합한 상관성을 보였으며 중간교란가설 (intermediate disturbance hypothesis)과 유사한 모델로 나타났다. 그러나 함평만 갯벌 저서규조류의 분포가 온도에 의존적이며 중간교란가설의 패턴을 따른다고 판단할 수는 없었다.

면내삽법이 환경적 형평성 분석에 미치는 영향 (Effects of Areal Interpolation Methods on Environmental Equity Analysis)

  • 전병운
    • 한국지역지리학회지
    • /
    • v.14 no.6
    • /
    • pp.736-751
    • /
    • 2008
  • 다수의 연구들이 환경적 형평성 분석에 있어서 환경위험의 영향권 내에 있는 인구를 추산하기 위하여 흔히 단순면가중내삽법을 사용하고 있지만, 그 도출된 결과치는 불가피하게 부정확하다. 왜냐하면, 단순면가중치법은 인구가 원시구역 내에서 균등하게 분포되어 있다는 것을 비현실적으로 전제하고 있기 때문이다. 두 개의 대안적인 면가중치법, 즉 지능형 면가중치법과 회귀법은 주택의 위치에 관한 추가적인 지리적 정보를 이용함으로써 환경위험의 영향권 내에 있는 인구를 추정하는데 있어서 분포적인 편차를 설명할 수 있다. 본 연구는 환경적 형평성 분석에 있어서 환경위험의 영향권 내에 있는 인구를 추정하기 위한 다섯 개의 면내갑법을 탐색하고, 상이한 면내삽법에 대한 환경적 형평성의 민감도를 분석하고자 한다. 본 연구는 면내삽 과정에서 원시구역과 목표구역에 위성영상으로부터 추출된 토지피복의 분포와 같은 추가적인 지리정보를 제공하기 위하여 GIS 기법을 사용하였다. 독립표본 t-test통계량은 환경적 형평성 가설을 검정하기 위하여 사용되었다. 또한, 편재계수는 상이한 면내삽법에 따른 인구추정치의 상대적 변이성을 비교하기 위하여 계산되었다. 본 연구는 사례지역에서 환경적 형평성 분석의 결과는 환경위험의 영향권 내에 있는 인구를 추정하기 위해서 사용된 면내삽법에 민감하지는 않았지만, 상이한 면내삽법들이 사용됨에 따라 그 추정치는 대개 변동적 이었다는 것을 규명하였다. 이것은 환경적 형평성에 대한 통계적 분석결과는 어떤 면내삽법을 사용하느냐에 따라서 어느 정도까지는 변할 수 있다는 것을 암시한다.

  • PDF

통계적 개념 발달에 관한 인식론적 고찰 (An Epistemological Inquiry on the Development of Statistical Concepts)

  • 이영하;남주현
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • v.44 no.3
    • /
    • pp.457-475
    • /
    • 2005
  • We have inquired on what the statistical classes of the secondary schools had been aiming to, say the epistermlogical objects. And we now appreciate that the main obstacle to the systematic articulation is the lack of anticipation on what the statistical concepts are. This study focuses on the ingredients of the statistical concepts. Those are to be the ground of the systematic articulation of statistic courses, especially of the one for the school kids. Thus we required that those ingredients must satisfy the followings. i) directly related to the contents of statistics ii) psychologically developing iii) mutually exclusive each other as much as possible iv) exhaustive enough to cover all statistical concepts We examined what and how statisticians had been doing and the various previous views on these. After all we suggest the following three concepts are the core of conceptual developments of statistic, say the concept of distributions, the summarizing ability and the concept of samples. By the concepts of distributions we mean the frequency views on each random categories and that is developing from the count through the probability along ages. Summarizing ability is another important resources to embed his probe with the data set. It is not only viewed as a number but also to be anticipated as one reflecting a random phenomena. Inductive generalization is one of the most hazardous thing. Statistical induction is a scientific way of challenging this and this starts from distinguishing the chance with the inevitable consequences. One's inductive logic grows up along with one's deductive arguments, nevertheless they are different. The concept of samples reflects' one's view on the sample data and the way of compounding one's logic with the data within one's hypothesis. With these three in mind we observed Korean Statistic Curriculum from K to 12. Distributional concepts are dealt with throughout but not sequenced well. The way of summarization has been introduced in the 1 st, 5th, 7th and the 10th grade as a numerical value only. One activity on the concept of sample is given at the 6th grade. And it jumps into the statistical reasoning at the selective courses of ' Mathematics I ' or of ' Probability and Statistics ' in the grades of 11-12. We want to suggest further studies on the developing stages of these three conceptual features so as to obtain a firm basis of successive statistical articulation.

  • PDF