• 제목/요약/키워드: Zipf's Law

검색결과 20건 처리시간 0.036초

한글 문헌에 있어서 Zipfian 현상에 관한 연구 (A Study of Zipfian Phenomena in Hangul Literaure)

  • 신강현;이두영
    • 정보관리학회지
    • /
    • 제5권2호
    • /
    • pp.53-98
    • /
    • 1988
  • 본 연구는 Zipf가 최초에 유도한 공식이 한글 문헌에 있어서도 그 타당성이 성립하 는지의 여부를 조사 연구 하였다. 그 결과 한글 문헌에 있어서도 단어의 수록 빈도와 등급 사이에 일정한 통계적인 법칙성이 존재하며 이 현상은 Zipf가 유도한 공식과 일치하는 것으 로 나타났다. 한편 Zipf의 제2법칙은 한글 문헌에 적용되지 않았기 때문에 본 연구에서는 이 에 적합한 공식을 유도하였다.

  • PDF

인터넷웹상의 숫자들과 벤포드법칙 (Numbers in the Internet Web and Benford's Law)

  • 장대흥
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.553-568
    • /
    • 2009
  • 인터넷 상의 웹페이지에 나타나는 숫자들의 빈도수를 조사한 후 이러한 숫자들이 이루는 집합체의 성질을 알아보고 이러한 자료들이 각 종 법칙들(거듭곱 법칙, 지프 법칙, 벤포드 법칙)이 성립하는 지를 살펴보았다.

하이퍼네트워크에서 본 단어간 긴밀성과 다양성 (Affinity and Variety between Words in the Framework of Hypernetwork)

  • 김준식;박찬훈;이은석;장병탁
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권4호
    • /
    • pp.166-171
    • /
    • 2008
  • 전체문서(Corpus)에서의 두 단어 간 연결 상태를 파악하여 앞 단어 다음에 오는 단어의 빈도수를 기반으로 여러 형태의 그룹을 분류하여 단어 간 다양성과 긴밀성을 살펴보았다. 기존의 연구에서 Zipf's Power Law는 Chinese Restaurant Process로 설명되었고 Scale Free Network에서는 edged의 수에 따른 노드의 profile을 조사하여 hub들을 찾는 연구가 수행되었다. 본 연구에서는 단어 간 연결의 유일성과 다양성을 조사하여 Zipf's Power Law와 hub profile을 동시에 살펴보았다. 데이타 분석 결과 단어 간 연결의 긴밀성과 다양성 사이에서 대칭성으로 함축되는 유의한 결과를 얻었으며 이는 소위 'exploitation'과 'exploration'의 관점에서 설명될 수 있다. 또한 분석 자료인 TIPSTER에서 관찰된 약간의 대칭성 깨짐(symmetry breaking)에 대해서도 논한다.

검색엔진에서 일간질의 어분포의 정상성에 관한 연구 (On Regularity of Daily Distribution of Queries in Search Engine)

  • 박상규;이찬규;윤경현;김성희;이준호
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.255-265
    • /
    • 2007
  • 하루에도 수백만 건 이상의 방대한 질의어가 입력되는 검색엔진을 통해 인터넷 검색 패턴을 분석하는데 활용될 수 있는 질의어 분포의 정상성을, Pareto 분포와 Zipf 모형을 이용해 검토하였다. 실제2주일간의 일간 검색어 분포를 Pareto 모형으로 적합 시킨 결과, 그 기울기가 1.33에서 1.34 정도로 일관되게 측정되고 있어 Pareto 분포를 이용해 일간질의어 분포의 정상성을 평가할수 있음을 제시하였다. 이런 연구결과는 사회적 관심사와 그 변동 흐름을 해석하는데 보다 객관적이며, 효율적인 자료를 제공해 줄 수 있을 것이다.

서비스 거부 공격에 대응한 웹서버 가용성 향상을 위한 운용 정책 방안 (Operation Policy for Enhancing Availability of a Web Server against DoS Attacks)

  • 백남균;정수환
    • 한국통신학회논문지
    • /
    • 제33권8B호
    • /
    • pp.735-744
    • /
    • 2008
  • 본 연구에서는 네트워크 기반 서비스거부공격에 대응하여 웹서버의 가용성을 향상 시킬 수 있는 보안노드를 설계하고자, 과부하 상태에서 문서의 인기도에 기반 하여 신규 세션 허용을 제어할 수 있는 동적 서비스 메커니즘을 품질 향상방안으로 제안하였다. 그 결과, 과부하가 지속될수록 기존 방식에 비해 웹서비스 요청 세션에 대한 연결접속률과 연결완성률이 크게 향상됨을 알 수 있었다.

우리나라 공공도서관의 규모에 나타나는 복잡계 현상에 관한 연구 (A Study on the Behaviors of Complex System Revealed in the Sizes of Public Libraries in Korea)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제44권4호
    • /
    • pp.399-419
    • /
    • 2013
  • 이 연구는 우리나라 공공도서관의 규모를 나타내는 8가지 변인을 대상으로 2011년도 통계데이터를 적용한 분포에서 어떤 독특한 특성이 나타나는지를 실증적으로 분석하였다. 그 결과 8가지 규모변인들 모두에서 멱함수 법칙이 나타나는 복잡계 현상이 발견되었다. 우리나라 공공도서관의 규모에서 양극화가 발생한 것이다. 특히 연면적, 직원수, 도서수, 예산의 변인에서는 지프의 법칙이 나타났다. 그리고 등록회원수, 자료실 이용자수, 대출자수, 대출권수의 변인에서는 지프의 법칙보다 더 심하게 불균등한 분포가 나타났다. 따라서 우리나라 공공도서관 규모의 양극화 현상을 해소할 수 있는 정책의 개발이 요구된다.

Building Hybrid Stop-Words Technique with Normalization for Pre-Processing Arabic Text

  • Atwan, Jaffar
    • International Journal of Computer Science & Network Security
    • /
    • 제22권7호
    • /
    • pp.65-74
    • /
    • 2022
  • In natural language processing, commonly used words such as prepositions are referred to as stop-words; they have no inherent meaning and are therefore ignored in indexing and retrieval tasks. The removal of stop-words from Arabic text has a significant impact in terms of reducing the size of a cor- pus text, which leads to an improvement in the effectiveness and performance of Arabic-language processing systems. This study investigated the effectiveness of applying a stop-word lists elimination with normalization as a preprocessing step. The idea was to merge statistical method with the linguistic method to attain the best efficacy, and comparing the effects of this two-pronged approach in reducing corpus size for Ara- bic natural language processing systems. Three stop-word lists were considered: an Arabic Text Lookup Stop-list, Frequency- based Stop-list using Zipf's law, and Combined Stop-list. An experiment was conducted using a selected file from the Arabic Newswire data set. In the experiment, the size of the cor- pus was compared after removing the words contained in each list. The results showed that the best reduction in size was achieved by using the Combined Stop-list with normalization, with a word count reduction of 452930 and a compression rate of 30%.

모바일 장치와 공용 디스플레이 장치를 포함하는 환경에서 사용자의 특성에 기반한 Adaptive UI 설계 방안 (Method for Designing Adaptive UI Based on User's Context in the Environment Including Mobile Device and Public Display Device)

  • 강승수;고현;윤희용
    • 한국IT서비스학회지
    • /
    • 제11권4호
    • /
    • pp.181-194
    • /
    • 2012
  • The one of the most meaningful change in the recent ubiquitous environment is the omnipresence of public digital display device for providing ubiquitous information. It is the important issue to provide publicity as well as adaptive information to each user in the field of the public digital display device. This research proposes the idea ensuring fast response speed by the selection of user preference function. The preference function is selected by statistics using Zipf distribution in the system comprising mobile device and digital display device based on NFC (Near Field Communication). The idea is proved by CPM-GOMS model and the improvement of user response can be achieved.

도서관/정보학적 측에서 본 계량서지학의 가치와 중요성 및 연구방향 제시 (Values and Future Research Issues In Bibliometrics)

  • 정동열
    • 한국문헌정보학회지
    • /
    • 제19권
    • /
    • pp.243-261
    • /
    • 1990
  • 계량서지학이 도서관 정보학 분야에 응용된 지 20년이 지난 지금, 이론 및 실무에 남긴 발전적 기여를 고찰함과 동시에, 컴퓨터를 비롯한 정보기술의 발달로 계량서지학의 가치와 중요성은 한층 더 폭넓게 인지되고 있다. 본 연구는 계량서지학의 개념 정리와 그 특성을 분석함으로써 다양한 이론적 근거 및 장$\cdot$단점을 파악하여 향후 연구방향 설정에 기초를 제시함을 그 목적으로 한다. 문헌구조를 분석하는 군집분석(cluster analysis), 동시인용분석(co-citation analysis), 인용문맥분석 (citation context analysis), 다차원축적기법(multidimensional scaling technique) 등에 대한 최근의 연구 동향 및 추이를 분석함으로써 도서관 실무 혹은 정보시스팀에 계량서지학의 실제 응용을 제시하였다. 아울러, 계량서지학의 3대법칙-Lotka's law, Brandford's law, Zipf's law-의 발달 단계, 상관관계 및 응용분야를 연구함으로써 전반적인 도서관 관리와 이론정보학의 연구방향을 설정하고 있다.

  • PDF

유전 알고리즘을 이용한 음란사이트 식별 (Genetic Algorithm for Lewdness Web Site Detection)

  • 한수경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.211-213
    • /
    • 2004
  • 오늘날 인터넷은 의식주와 더불어 삶에 유용한 다양한 정보를 제공하늘 생활 필수품이다. 의식주가 인간의 육체적인 건강을 담당한다면, 인터넷은 정신적인 삶의 질을 담당한다. 그런데 음란사이트는 아직 정신적으로 미숙한 청소년들에게 선별 없이 개방되고 쉽게 노출될 수 있다. 이 논문에서는 웹사이트의 문서가 음란 문서인지 비음란 문서인지를 바르게 판정하기 위하여 유전 알고리즘을 이용하여 단어에 가중치를 배정하는 문제에 대하여 연구한다. 실험 결과 이렇게 배정된 가중치를 이용하여 평균 93.84%의 인식률로 음란 문서와 비음란 문서를 식별할 수 있었다. 여기서 문서의 음란여부를 판정하기 위하여 가중치를 배정하는 단어는 Zipf's law에 기반 하여 선정하였다.

  • PDF