• 제목/요약/키워드: information entropy

검색결과 886건 처리시간 0.028초

Maximum Entropy 모델을 이용한 나열 및 병렬형 인식 (Syntax Analysis of Enumeration type and Parallel Type Using Maximum Entropy Model)

  • 임수종;이창기;허정;장명길
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1240-1245
    • /
    • 2006
  • 한국어 문장을 구조 분석할 때에 모호성을 발생시키는 유형 중의 하나가 나열 및 병렬형이다. 문장 구조 복잡도를 증가시키는 나열 및 병렬형을 구조 분석 전에 미리 하나의 단위로 묶어서 처리하는 것이 문장 구조 분석의 정확도를 높이는데 중요하다. 본 연구에서는 형태소 태그를 이용한 기본 규칙으로 문장을 청크 단위로 분할하고 분할된 청크 중에서 나열형을 인식하여 해당되는 청크들을 하나의 나열 청크로 통합하여 청크의 개수를 줄인다. 병렬형에 대해서는 반복되는 병렬 청크의 범위와 생략된 용언을 복원한다. 이러한 인식은 첫 단계로 기호(symbol)를 중심으로 구축된 간단한 규칙으로 인식을 하고 이러한 규칙에 해당되지 않는 형태의 나열 및 병렬형은 Maximum Entropy 모델을 이용하여 적용한다. ME모델은 어휘자질, 형태소 품사 자질, 거리 자질, 의미자질, 구 단위 태그 자질(NP:명사구, VP:동사구, AP:형용사구), BIO 태그(Begin, Inside, Outside) 자질에 대한 ME(Maximum Entropy) 모델을 이용하여 구축되었다.

  • PDF

Shannon의 정보이론과 문헌정보 (Shannon's Information Theory and Document Indexing)

  • 정영미
    • 한국문헌정보학회지
    • /
    • 제6권
    • /
    • pp.87-103
    • /
    • 1979
  • Information storage and retrieval is a part of general communication process. In the Shannon's information theory, information contained in a message is a measure of -uncertainty about information source and the amount of information is measured by entropy. Indexing is a process of reducing entropy of information source since document collection is divided into many smaller groups according to the subjects documents deal with. Significant concepts contained in every document are mapped into the set of all sets of index terms. Thus index itself is formed by paired sets of index terms and documents. Without indexing the entropy of document collection consisting of N documents is $log_2\;N$, whereas the average entropy of smaller groups $(W_1,\;W_2,...W_m)$ is as small $(as\;(\sum\limits^m_{i=1}\;H(W_i))/m$. Retrieval efficiency is a measure of information system's performance, which is largely affected by goodness of index. If all and only documents evaluated relevant to user's query can be retrieved, the information system is said $100\%$ efficient. Document file W may be potentially classified into two sets of relevant documents and non-relevant documents to a specific query. After retrieval, the document file W' is reclassified into four sets of relevant-retrieved, relevant-not retrieved, non-relevant-retrieved and non-relevant-not retrieved. It is shown in the paper that the difference in two entropies of document file Wand document file W' is a proper measure of retrieval efficiency.

  • PDF

베이지언 정보엔트로피에 의한 불완전 의사결정 시스템의 불확실성 향상 (Uncertainty Improvement of Incomplete Decision System using Bayesian Conditional Information Entropy)

  • 최규석;박인규
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.47-54
    • /
    • 2014
  • 러프집합을 구성하는 식별불가능 관계를 표현하는 정보시스템에서 데이터의 중복이나 비일관성은 피할 수 없기 때문에 속성의 감축은 매우 중요하다. 러프집합이론에 있어서 일관적인 정보시스템과 비일관적인 정보시스템의 속성감축의 차이를 극복하고 자, 본 연구에서는 조건 및 결정속성에 대한 상관분석에 베이지언 사후확률을 적용한 새로운 불확실성 척도와 속성감축 알고리즘을 제안한다. 정보시스템의 불확실성에 대하여 제안된 척도와 기존의 조건부 정보엔트로피 척도를 비교해 본 결과, 정보시스템의 조건속성과 결정속성의 상호정보를 이용하여 속성간의 불확실성을 측정하는데 있어 제안된 방법이 조건부 정보엔트로피에 의한 방법보다 정확성이 있음을 보여준다.

변형된 샤논 엔트로피식을 이용한 온실가스 농도변화량 예측 (Estimation for the Variation of the Concentration of Greenhouse Gases with Modified Shannon Entropy)

  • 김상목;이도행;최얼;고미솔;양재규
    • 한국환경과학회지
    • /
    • 제22권11호
    • /
    • pp.1473-1479
    • /
    • 2013
  • Entropy is a measure of disorder or uncertainty. This terminology is qualitatively used in the understanding of its correlation to pollution in the environmental area. In this research, three different entropies were defined and characterized in order to quantify the qualitative entropy previously used in the environmental science. We are dealing with newly defined distinct entropies $E_1$, $E_2$, and $E_3$ originated from Shannon entropy in the information theory, reflecting concentration of three major green house gases $CO_2$, $N_2O$ and $CH_4$ represented as the probability variables. First, $E_1$ is to evaluate the total amount of entropy from concentration difference of each green house gas with respect to three periods, due to industrial revolution, post-industrial revolution, and information revolution, respectively. Next, $E_2$ is to evaluate the entropy reflecting the increasing of the logarithm base along with the accumulated time unit. Lastly, $E_3$ is to evaluate the entropy with a fixed logarithm base by 2 depending on the time. Analytical results are as follows. $E_1$ shows the degree of prediction reliability with respect to variation of green house gases. As $E_1$ increased, the concentration variation becomes stabilized, so that it follows from linear correlation. $E_2$ is a valid indicator for the mutual comparison of those green house gases. Although $E_3$ locally varies within specific periods, it eventually follows a logarithmic curve like a similar pattern observed in thermodynamic entropy.

엔트로피 가중치 및 SVD를 이용한 군집 특징 선택 (Cluster Feature Selection using Entropy Weighting and SVD)

  • 이영석;이수원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.248-257
    • /
    • 2002
  • 군집화는 객체들의 특성을 분석하여 유사한 성질을 갖고 있는 객체들을 동일한 집단으로 분류하는 방법이다. 전자 상거래 자료처럼 차원 수가 많고 누락 값이 많은 자료의 경우 입력 자료의 차원축약, 잡음제거를 목적으로 SVD를 사용하여 군집화를 수행하는 것이 효과적이지만, SVD를 통해 변환된 자료는 원래의 속성 정보를 상실하기 때문에 군집 결과분석에서 원본 속성의 가치 해석이 어렵다. 따라서 본 연구는 군집화 수행 후 엔트로피 가중치 및 SVD를 이용하여 군집의 중요한 속성을 발견하기 위한 군집 특징 선택 기법 ENTROPY-SVD를 제안한다. ENTROPY-SVD는 자료의 속성들과 유사객체 군과의 묵시적인 은닉 구조를 활용하기 위하여 SVD를 이용하고 유사객체 군에 포함된 응집도가 높은 속성들을 발견하기 위하여 엔트로피 가중치를 사용한다. 또한 ENTROPY-SVD를 적용한 모델 기반의 협력적 여과기법의 추천 시스템 CFS-CF를 제안하고 그 효용성 및 효과를 평가한다.

멀티코어 환경에서 효율적인 엔트로피 원의 설계 기법 (An Approach to Constructing an Efficient Entropy Source on Multicore Processor)

  • 김성겸;이승준;강형철;홍득조;성재철;홍석희
    • 정보보호학회논문지
    • /
    • 제28권1호
    • /
    • pp.61-71
    • /
    • 2018
  • 다양한 장비의 인터넷 연결을 지향하고 있는 사물인터넷시대에서 암호기술의 사용을 위해 암호학적으로 안전한 난수생성은 중요 요구사항이다. 특히, 생성된 난수의 안전성과 연관된 엔트로피 원은 예측하기 어려운 잡음원을 위해 부가적인 하드웨어 로직을 사용하기도 한다. 비록 성능 측면에서 좋은 결과를 나타낼 수 있으나, 부가적인 리소스의 사용에 기인한 추가적인 전력 소비 및 면적문제 때문에 기존 자원을 최대한 활용하는 엔트로피 수집방법이 요구된다. 본 논문에서 제시하는 엔트로피 원은 멀티쓰레드 프로그램을 지원하는 환경에서 부가적인 장치 없이 공통적으로 사용 가능하므로 암호기술 구현에 있어 경량화의 어려움을 완화시킬 수 있다. 또한, 제안하는 엔트로피 원이 NIST SP 800-90B에서 제시한 난수발생기를 위한 엔트로피 입력원 테스트에서 높은 보안강도를 갖는 것으로 평가 되었다.

ESTIMATION OF SCALE PARAMETER FROM RAYLEIGH DISTRIBUTION UNDER ENTROPY LOSS

  • Chung, Youn-Shik
    • Journal of applied mathematics & informatics
    • /
    • 제2권1호
    • /
    • pp.33-40
    • /
    • 1995
  • Entropy loss is derived by the scale parameter of Rayleigh distribution. Under this entropy loss we obtain the best invariant estimators and the Bayes estimators of the scale parameter. Also we compare MLE with the proposed estimators.

Effect of Nonlinear Transformations on Entropy of Hidden Nodes

  • Oh, Sang-Hoon
    • International Journal of Contents
    • /
    • 제10권1호
    • /
    • pp.18-22
    • /
    • 2014
  • Hidden nodes have a key role in the information processing of feed-forward neural networks in which inputs are processed through a series of weighted sums and nonlinear activation functions. In order to understand the role of hidden nodes, we must analyze the effect of the nonlinear activation functions on the weighted sums to hidden nodes. In this paper, we focus on the effect of nonlinear functions in a viewpoint of information theory. Under the assumption that the nonlinear activation function can be approximated piece-wise linearly, we prove that the entropy of weighted sums to hidden nodes decreases after piece-wise linear functions. Therefore, we argue that the nonlinear activation function decreases the uncertainty among hidden nodes. Furthermore, the more the hidden nodes are saturated, the more the entropy of hidden nodes decreases. Based on this result, we can say that, after successful training of feed-forward neural networks, hidden nodes tend not to be in linear regions but to be in saturated regions of activation function with the effect of uncertainty reduction.

TOPOLOGICAL ENTROPY OF A SEQUENCE OF MONOTONE MAPS ON CIRCLES

  • Zhu Yuhun;Zhang Jinlian;He Lianfa
    • 대한수학회지
    • /
    • 제43권2호
    • /
    • pp.373-382
    • /
    • 2006
  • In this paper, we prove that the topological entropy of a sequence of equi-continuous monotone maps $f_{1,\infty}={f_i}\;\infty\limits_{i=1}$on circles is $h(f_{1,\infty})={\frac{lim\;sup}{n{\rightarrow}\infty}}\;\frac 1 n \;log\;{\prod}\limits_{i=1}^n|deg\;f_i|$. As applications, we give the estimation of the entropies for some skew products on annular and torus. We also show that a diffeomorphism f on a smooth 2-dimensional closed manifold and its extension on the unit tangent bundle have the same entropy.

한국어 음절의 Entropy에 관한 연구 (Statistical Measurement of Monsyllable Entropy for Korean Language)

  • 이주근;최흥문
    • 대한전자공학회논문지
    • /
    • 제11권3호
    • /
    • pp.15-21
    • /
    • 1974
  • 이 논문은 한국어의 3성음의 조직을 방정식화하고 그로부터 조직약적 상태 graph를 유도하여 정보원의 성질을 구명하고 나아가서 기본 요소의 통계량에 대한 Entropy와 Redundancy를 측정하여 서구어와 비교검토 하였다. 특히 한국어에서 정보원의 성질을 구명하기 위한 syllable의 상태 graph는 단일화된다는 것을 명시함으로서 타언어에서 볼 수 없는 특이한 현상이 나타난다는 것을 지적하였다.

  • PDF