• Title/Summary/Keyword: 출현빈도

Search Result 986, Processing Time 0.044 seconds

Automatic Text Categorization by Term Weighting and Inverted Category Frequency (용어 가중치와 역범주 빈도에 의한 자동문서 범주화)

  • Lee, Kyung-Chan;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

A Study on the Correlation between the Appearance Frequency of Author Keyword and the Number of Citation in the Humanities and Social Science Journal Articles of the Korea Citation Index (KCI) (인문학 및 사회과학 분야 국내 학술논문의 저자키워드 출현빈도와 피인용횟수의 상관관계 연구)

  • Ko, Young Man;Song, Min-Sun;Kim, Bee-Yeon;Min, Hye-Ryoung
    • Journal of the Korean Society for information Management
    • /
    • v.30 no.2
    • /
    • pp.227-243
    • /
    • 2013
  • The purpose of this study is to verify the correlation between the appearance frequency of author keyword and the number of citation in journal articles. In this study, we were trying to develop a methodology that can select the term having semantic relation with other terms and higher utilization to build a structured scientific glossary. In order to achieve this purpose, we analyzed the number of citation and the author keyword of the humanities and social science journal articles of the Korea Citation Index (KCI) from 2007 to 2011. This study found a correlation between appearance frequency of author keyword and the number of citation of the journal articles, with higher appearance frequency of author keyword of the journal articles being more cited.

Statistical Survey of Vocabulary in Korean Textbook for Elementary School 6th-Grade (초등학교 6학년 국어교과서의 어휘 통계조사)

  • Kim, Jong-Young;Kim, Cheol-Su
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.5
    • /
    • pp.515-524
    • /
    • 2012
  • This paper studied the statistics such as the total number of syllables, the kinds of syllables, the frequency of syllables, the number of eojeols(word phrases unique in Korean language), the kinds of eojeols, average length of eojeols, the frequency of eojeols and the parts of speech in four different Korean textbooks for 6th-grade students(6-1 Korean Reading, 6-1 Korean Speaking Listening Writing, 6-2 Korean Reading and 6-2 Korean Speaking Listening Writing). The results of the statistical survey are as follows: the number of Hangul syllables was 194,683; the kinds of syllables were 1,290; the average frequency of syllables was 150.9; the number of eojeol was 70,185; the kinds of eojeol were 22,647; the average frequency of eojeol was 3.1; the average length of eojeols was 2.8 syllables, the longest one consist of 10 syllables. In parts of speech, nouns are used more in the Korean Reading textbook, and verbs are used more in Korean Speaking Listening Writing.

A Frequency Level Preference Index of the Association Measures (연관성 척도의 빈도수준 선호지수 개발)

  • Lee, Jae-Yun
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2004.08a
    • /
    • pp.17-22
    • /
    • 2004
  • 연관성 척도값은 연관성 분석 대상이 고빈도인지 저빈도인지 여부에 따른 영향을 받는데, 연관성 척도마다 주로 높은 연관성으로 판정하는 대상의 빈도수준이 다양하게 나타난다. 이런 연관성 척도의 빈도수준 선호경향을 수치로 나타낼 수 있다면 연관성 척도를 사용하는 실험이나 분석에서 시행착오나 시간낭비를 줄일 수 있을 것이다. 이를 위해서 연관성 척도의 빈도수준 선호지수(FLPI)를 개발하였다. 개발된 빈도수준 선호지수는 연관성 척도와 출현빈도 사이의 상관성을 이용하는 것으로서 연관성 척도를 적용하는 실험이나 분석의 효율을 높이는데 기여할 것으로 기대된다.

  • PDF

Inverse Document Frequency Weighting Revisited (역문헌빈도 가중치의 재검토)

  • 이재윤
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2003.08a
    • /
    • pp.253-261
    • /
    • 2003
  • 역문헌빈도 가중치는 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 이 연구에서는 역문헌빈도 가중치의 가정에 의문을 제기하고, 이를 보완하는 새로운 문헌빈도 가중치 공식을 제안하였다. 제안한 가중치 공식은 저빈도어가 아닌 중간빈도어가 더 중요하다는 가정에 근거한 것으로서 역시 문헌빈도를 이용한 함수이다. 문헌빈도에 의한 가중치를 문헌의 색인어에 부여하는 경우와 질의어에 부여하는 경우로 나누어서 실험을 수행하고, 두 경우의 차이점을 논하였다.

  • PDF

Optimization of spatial zoning for topographical analysis of ecological characteristics in forest (산림생태계 특성의 지형학적 분석을 위한 공간구획의 최적화)

  • Kim, Tae-Min;Choi, Hyun-Ah
    • Proceedings of the KSRS Conference
    • /
    • 2008.03a
    • /
    • pp.201-206
    • /
    • 2008
  • 방위, 경사, 고도 와 같은 지형인자는 생태현상에 영향을 미치는 대표적인 환경인자로, 생태현상을 파악 및 예측하기 위해서는 이들 지형인자의 분석이 필요하다. 또한 지형인자 분석에 앞서 이용자료의 격자크기를 결정해야한다. 본 연구는 소나무의 공간분포와 출현패턴을 생태학적으로 잘 설명하기 위한 DEM의 최적 격자크기를 제안하고, 궁극적으로는 생태적으로 중요한 최적의 공간구획방법을 찾고자하였다. 그 결과, 200m의 격자크기를 갖는 DEM은 주능선에 의해 방위를 동, 서, 남으로만 구분한 반면, 1m 격자크기의 DEM은 작은 부능선들에 의해 방위를 동, 서, 남, 북으로 구분하였다. 일정규모 이하의 격자크기에서 소나무는 모든 방위에 나타났지만, 격자크기가 증가함에 따라 북쪽과 남쪽 사면에서의 출현빈도는 점차 감소하였다. 또한, 200m 격자크기에서의 빈도분석은 육안분석에서처럼 소나무가 주로 서쪽과 동쪽 사면에 출현한다는 것을 보였다. 능선으로부터의 거리에 따른 소나무 출현빈도는 60m이상의 거리를 두고 분석하였을 때, 육안분석과 같이 소나무가 능선주변에 주로 분포하는 것으로 나타났다.

  • PDF

The Researches on the Korean Population Genetics: Studies on the frequencies and distributions of some human enzyme deficient traits

  • Lee, Chung-Choo
    • The Korean Journal of Zoology
    • /
    • v.17 no.4
    • /
    • pp.145-158
    • /
    • 1974
  • The present paper is concerned with the frequencies of G-6-PD deficiency acetylator phenotypes, hypocatalasemia and acatalasemia among Korean populations. The examination was carried out in the rural (Kyodong island, Moonmak Myeon and Yangyang Eup)and urban (Seoul) areas. The average frequency of G-6-PD deficiency in the total male population was 1.33%. A significant difference was observed among four areas. Tests on the color-blindness were performed in order to compara the two populations(Kyodong island and Seoul) and to obtain relationship between the color-blindness and G-6-PD deficiency. The frequency of color-blindness was 5.76% in the male rural population, and this rate was nearly consistant with that of the urban. The frequencies of the slow acetylator phenotype were 12.96% in Kyodong island, 10.36% in Seoul and 11.05% in Moonmak Myeon. Of the 3,004 persons investigated, no one has acatalasemia, but 10 cases of hypocatalasemia were found. The overall frequency was 0.33% which is slightly different from one area to another; 0.29% in Seoul, 0.27% in Kyodong island, and 1.15% in Moonmak Myeon.

  • PDF

Applying the Weight for Query Length and the Frequency of Query Term to Information Retrieval (정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용)

  • Kang, Seung-Shik;Chun, Young-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.763-766
    • /
    • 2005
  • 정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

  • PDF

Frequency of B-chromosomes in Rye (Secale cereale) Cultivated in Paldang (팔당산 호밀(Secale cereale) B 염색체의 출현빈도에 대하여)

  • 이웅직
    • Journal of Plant Biology
    • /
    • v.24 no.4
    • /
    • pp.181-190
    • /
    • 1981
  • Rye in Paldang was investigated with regard to the occurrence of B-chromosomes from 1963 through 1977, and frequencies of B-chromosomes were as follows; 2% (1963), 8% (1964), 8% (1965), 15% (1966), 11.5% (1968), 11.7% (1969), 20% (1975), 19.6% (1976), and 12.8% (1977). The result of the chi-square test showed statistically no significant difference between the frequency of B-chromosomes each year. The analysis revealed that distribution of B-chromosomes seemed to be relatively uniform in the rye field. With regard to the sample size 50 plants were quite enough to estimate the frequency of B-chromosomes in rye population. Quadrivalent due to translocation heterozygote were observed in the population of Paldang rye from 1966 through 1977, their frequencies being 1 to 7%. Numerical increase of B-chromosomes in rye due to non-disjunction process in the pollen as well as in the ovules was well-known phenomenon, whereas B-chromosomes tended to be eliminated in meiosis and seed fertility of rye was reduced in the individuals with B-chromosomes. The mechanism of gain or loss for B-chromosomes might support the equilibrium of B-chromosomes in Paldang rye population.

  • PDF

An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences (DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘)

  • Jeong In-Seon;Park Kyoung-Wook;Lim Hyeong-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF