• Title/Summary/Keyword: 위키피디아 사용 데이터 분석

Search Result 8, Processing Time 0.02 seconds

An Ontology-based Analysis of Wikipedia Usage Data for Measuring degree-of-interest in Country (국가별 관심도 측정을 위한 온톨로지 기반 위키피디아 사용 데이터 분석)

  • Kim, Hyon Hee;Jo, Jinnam;Kim, Donggeon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.4
    • /
    • pp.43-53
    • /
    • 2014
  • In this paper, we propose an ontology-based approach to measuring degree-of-interest in country by analyzing wikipedia usage data. First, we developed the degree-of-interest ontology called DOI ontology by extracting concept hierarchies from wikipedia categories. Second, we map the title of frequently edited articles into DOI ontology, and we measure degree-of-interest based on DOI ontology by analyzing wikipedia page views. Finally, we perform chi-square test of independence to figure out if interesting fields are independent or not by country. This approach shows interesting fields are closely related to each country, and provides degree of interests by country timely and flexibly as compared with conventional questionnaire survey analysis.

An Approach to Automatically Generating Infobox for Wikipedia in Cross-languages through Translation and Webgraph (번역과 웹그래프를 활용한 언어 간 위키피디아 인포박스 자동생성 기법)

  • Kim, Eun-Kyung;Choi, DongHyun;Go, Eun-Bi;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.9-15
    • /
    • 2011
  • 여러 언어로 작성되는 위키피디아의 경우 언어 간에 등록되어 있는 정보의 양과 내용이 달라 언어 간 정보를 상호 추출하고 서로 통합하는 연구에 대한 관심이 증가하고 있다. 특히, 위키피디아의 요약본으로써 의미가 있는 인포박스는 위키피디아 아티클에 존재하는 구조화된 정보 중 가장 근간이 되는 정보로, 본 논문에서는 위키피디아에 존재하는 인포박스를 1)소스 언어 자원으로부터 획득하여 타겟 언어로 번역하고, 2)번역된 결과물과 웹그래프를 이용하여 타겟 언어 데이터에서 획득하는 정보와 결합하는 과정을 통해 자동으로 인포박스를 생성하는 기법에 대하여 설명한다. 웹그래프는 위키피디아에 존재하는 링크 구조를 통해 서로 다른 두 용어간의 관련도를 측정하여 인포박스에 추가될 내용을 파악하는데 사용한다. 본 논문의 기법은 언어 간 인포박스를 생성하는 측면에서, 영어 인포박스 데이터를 입력으로 하여 한국어 인포박스 데이터를 생성하는 방식으로 진행하였다. 평가를 위하여 기존 한국어에 실제 존재하는 인포박스 데이터와 비교 실험하는 방식을 사용하여 평균적으로 40%의 정확률과 83%의 재현율을 나타내었다. 하지만, 기존 한국어에 존재하는 인포박스 데이터의 내용이 인포박스에 포함될 완전한 데이터를 모두 포함했다고 볼 수 없으므로 본 논문에서 제안하는 수행한 실험의 정확률이 상대적으로 낮게 나온 것으로 분석되었다. 실제 사람이 수작업으로 새롭게 생성된 인포박스 데이터의 적합성을 판별한 경우 평균 76%의 정확률과 91%의 재현율을 나타내었다.

  • PDF

Automated Development of Rank-Based Concept Hierarchical Structures using Wikipedia Links (위키피디아 링크를 이용한 랭크 기반 개념 계층구조의 자동 구축)

  • Lee, Ga-hee;Kim, Han-joon
    • The Journal of Society for e-Business Studies
    • /
    • v.20 no.4
    • /
    • pp.61-76
    • /
    • 2015
  • In general, we have utilized the hierarchical concept tree as a crucial data structure for indexing huge amount of textual data. This paper proposes a generality rank-based method that can automatically develop hierarchical concept structures with the Wikipedia data. The goal of the method is to regard each of Wikipedia articles as a concept and to generate hierarchical relationships among concepts. In order to estimate the generality of concepts, we have devised a special ranking function that mainly uses the number of hyperlinks among Wikipedia articles. The ranking function is effectively used for computing the probabilistic subsumption among concepts, which allows to generate relatively more stable hierarchical structures. Eventually, a set of concept pairs with hierarchical relationship is visualized as a DAG (directed acyclic graph). Through the empirical analysis using the concept hierarchy of Open Directory Project, we proved that the proposed method outperforms a representative baseline method and it can automatically extract concept hierarchies with high accuracy.

An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia (개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여)

  • Kang, In-Su
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.25 no.2
    • /
    • pp.111-118
    • /
    • 2015
  • Entity linking is to link entity's name mentions occurring in text to corresponding entities within knowledge bases. Since the same entity mention may refer to different entities according to their context, entity linking needs to deal with entity disambiguation. Most recent works on entity disambiguation focus on semantic relatedness between entities and attempt to integrate semantic relatedness with entity prior probabilities and term co-occurrence. To the best of my knowledge, however, it is hard to find studies that analyze and present the pure effects of semantic relatedness on entity disambiguation. From the experimentation on Korean Wikipedia data set, this article empirically evaluates entity disambiguation approaches using semantic relatedness in terms of the following aspects: (1) the difference among semantic relatedness measures such as NGD, PMI, Jaccard, Dice, Simpson, (2) the influence of ambiguities in co-occurring entity mentions' set, and (3) the difference between individual and collective disambiguation approaches.

A study on the nation images of the big three exporting countries in East Asia shown in Wikipedia English-Edition (영어 위키피디아 페이지뷰를 통한 한중일 국가 인지도 비교)

  • Lee, Youngwhan;Chun, Heuiju;Sawng, Youngwha
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.5
    • /
    • pp.1071-1085
    • /
    • 2015
  • The researchers attempted to develop a way to extract a near real-time online nation image using social media. Referring to previous studies about nation images and the categories defined in Wikipedia, an ontology considering the characteristics of nation image was constructed. Separately, data sets from various social media were compared and the click view of Wikipedia English-edition was selected. The ontology was applied to the recent six years of the data extracted of the three big exporting countries of the east Asia, China, Japan, and Korea. To compare the nation images, correspondence analysis was employed to show images in the area of politics, society, culture, and economy. The nation images extracted are indeed the reasonable representation of them. The researchers verified them to a few known government policies and confirmed that it could be used to help government officers to make foreign policies to boost nation's export and to employ as a key performance index for them.

집단지성에 대한 신뢰가 실용적 특성 UCC웹사이트의 지속사용에 미치는 영향

  • Hong, Tae-Ho;Kim, Kwang-Mo
    • 한국경영정보학회:학술대회논문집
    • /
    • 2008.06a
    • /
    • pp.1014-1022
    • /
    • 2008
  • 최근 들어 WWW(World WideWeb) 환경은 데이터의 소유자나 독점자 없이 누구나 손쉽게 데이터를 생산하고 인터넷에서 공유할 수 있도록 한 사용자 참여 중심의 인터넷 환경인 Web 2.0 시대를 맞이하고 있다.Web 2.0 관련 기술이 발달함에 따라 UCC(User Created Contents) 웹사이트의 사용자 수는 폭발적으로 증가하고 있다. 이에 따라 여럿의 중지를 모아 만들어지는 집단지성의 중요성이 부각되고 있고, UCC 웹사이트는 고품질의 집단지성을 제공하려고 다양한 서비스 및 상품의 개발을 하고 있다. 또한, UCC 웹사이트들은 자신들이 제공하는 집단지성을 사용자들이 채택하도록 많은 노력을 기울이고 있다. 본 연구는 대표적인 UCC 웹사이트인 위키피디아(www.wikipedia.org), 네이버 지식인 (kin.naver.com), 윙버스 (www.wingbus.com) 를 비롯한 실용적 특성 UCC 웹사이트를 대상으로 집단지성에 대한 신뢰가 실용적 특성 UCC 웹사이트의 지속사용에 미치는 영향을 분석하였다. 구조방정식 모형을 개발하여 실증분석을 한 결과 집단지성에 대한 신뢰가 사용자 만족을 통해 지속사용에 영향을 주는 것으로 분석되다.

  • PDF

GMLP for Korean natural language processing and its quantitative comparison with BERT (GMLP를 이용한 한국어 자연어처리 및 BERT와 정량적 비교)

  • Lee, Sung-Min;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.540-543
    • /
    • 2021
  • 본 논문에서는 Multi-Head Attention 대신 Spatial Gating Unit을 사용하는 GMLP[1]에 작은 Attention 신경망을 추가한 모델을 구성하여 뉴스와 위키피디아 데이터로 사전학습을 실시하고 한국어 다운스트림 테스크(감성분석, 개체명 인식)에 적용해 본다. 그 결과, 감성분석에서 Multilingual BERT보다 0.27%높은 Accuracy인 87.70%를 보였으며, 개체명 인식에서는 1.6%높은 85.82%의 F1 Score를 나타내었다. 따라서 GMLP가 기존 Transformer Encoder의 Multi-head Attention[2]없이 SGU와 작은 Attention만으로도 BERT[3]와 견줄만한 성능을 보일 수 있음을 확인할 수 있었다. 또한 BERT와 추론 속도를 비교 실험했을 때 배치사이즈가 20보다 작을 때 BERT보다 1에서 6배 정도 빠르다는 것을 확인할 수 있었다.

  • PDF

Towards Carbon-Neutralization: Deep Learning-Based Server Management Method for Efficient Energy Operation in Data Centers (탄소중립을 향하여: 데이터 센터에서의 효율적인 에너지 운영을 위한 딥러닝 기반 서버 관리 방안)

  • Sang-Gyun Ma;Jaehyun Park;Yeong-Seok Seo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.4
    • /
    • pp.149-158
    • /
    • 2023
  • As data utilization is becoming more important recently, the importance of data centers is also increasing. However, the data center is a problem in terms of environment and economy because it is a massive power-consuming facility that runs 24 hours a day. Recently, studies using deep learning techniques to reduce power used in data centers or servers or predict traffic have been conducted from various perspectives. However, the amount of traffic data processed by the server is anomalous, which makes it difficult to manage the server. In addition, many studies on dynamic server management techniques are still required. Therefore, in this paper, we propose a dynamic server management technique based on Long-Term Short Memory (LSTM), which is robust to time series data prediction. The proposed model allows servers to be managed more reliably and efficiently in the field environment than before, and reduces power used by servers more effectively. For verification of the proposed model, we collect transmission and reception traffic data from six of Wikipedia's data centers, and then analyze and experiment with statistical-based analysis on the relationship of each traffic data. Experimental results show that the proposed model is helpful for reliably and efficiently running servers.