• 제목/요약/키워드: 위키피디아 사용 데이터 분석

검색결과 8건 처리시간 0.023초

국가별 관심도 측정을 위한 온톨로지 기반 위키피디아 사용 데이터 분석 (An Ontology-based Analysis of Wikipedia Usage Data for Measuring degree-of-interest in Country)

  • 김현희;조진남;김동건
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.43-53
    • /
    • 2014
  • 본 논문에서는 위키피디아 사용 데이터를 분석하여 국가별 관심도를 측정하는 기법을 제시하였다. 먼저 해당 국가에 대한 분야별 관심도를 측정하기 위해서 위키피디아 카테고리로부터 개념 계층 구조를 추출하여 관심도 온톨로지를 구축하였다. 관심도 온톨로지는 국가에 대한 관심 분야를 정치, 경제, 사회, 그리고 문화로 분류하고 각 대분류에 대해 다시 세부 분야으로 분류하였다. 다음으로, 특정 국가의 페이지에서 자주 편집된 기사들의 제목을 관심도 온톨로지에 매핑하여 분야별 페이지 뷰를 분석하였다. 마지막으로 한국, 중국, 그리고 일본에 대한 국가별 관심도를 측정하고 국가별로 위키피디아 사용자들의 관심 분야가 다른지 판별하기 위해서 카이 제곱 독립성 검정을 실시하였다. 실험 결과는 위키피디아 사용자들의 관심 분야가 각 국가와 연관성이 있음을 보여준다. 본 연구는 기존의 설문조사 방식으로 국가 이미지를 측정하는 경우보다 적시에 그리고 유연하게 분야별 관심도를 측정할 수 있는 방안을 제시하며, 위키피디아 사용 데이터 분석 결과를 국가 이미지 개선을 위해 분야별로 재고할 방향을 제시한다.

번역과 웹그래프를 활용한 언어 간 위키피디아 인포박스 자동생성 기법 (An Approach to Automatically Generating Infobox for Wikipedia in Cross-languages through Translation and Webgraph)

  • 김은경;최동현;고은비;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-15
    • /
    • 2011
  • 여러 언어로 작성되는 위키피디아의 경우 언어 간에 등록되어 있는 정보의 양과 내용이 달라 언어 간 정보를 상호 추출하고 서로 통합하는 연구에 대한 관심이 증가하고 있다. 특히, 위키피디아의 요약본으로써 의미가 있는 인포박스는 위키피디아 아티클에 존재하는 구조화된 정보 중 가장 근간이 되는 정보로, 본 논문에서는 위키피디아에 존재하는 인포박스를 1)소스 언어 자원으로부터 획득하여 타겟 언어로 번역하고, 2)번역된 결과물과 웹그래프를 이용하여 타겟 언어 데이터에서 획득하는 정보와 결합하는 과정을 통해 자동으로 인포박스를 생성하는 기법에 대하여 설명한다. 웹그래프는 위키피디아에 존재하는 링크 구조를 통해 서로 다른 두 용어간의 관련도를 측정하여 인포박스에 추가될 내용을 파악하는데 사용한다. 본 논문의 기법은 언어 간 인포박스를 생성하는 측면에서, 영어 인포박스 데이터를 입력으로 하여 한국어 인포박스 데이터를 생성하는 방식으로 진행하였다. 평가를 위하여 기존 한국어에 실제 존재하는 인포박스 데이터와 비교 실험하는 방식을 사용하여 평균적으로 40%의 정확률과 83%의 재현율을 나타내었다. 하지만, 기존 한국어에 존재하는 인포박스 데이터의 내용이 인포박스에 포함될 완전한 데이터를 모두 포함했다고 볼 수 없으므로 본 논문에서 제안하는 수행한 실험의 정확률이 상대적으로 낮게 나온 것으로 분석되었다. 실제 사람이 수작업으로 새롭게 생성된 인포박스 데이터의 적합성을 판별한 경우 평균 76%의 정확률과 91%의 재현율을 나타내었다.

  • PDF

위키피디아 링크를 이용한 랭크 기반 개념 계층구조의 자동 구축 (Automated Development of Rank-Based Concept Hierarchical Structures using Wikipedia Links)

  • 이가희;김한준
    • 한국전자거래학회지
    • /
    • 제20권4호
    • /
    • pp.61-76
    • /
    • 2015
  • 흔히 대용량 텍스트 데이터의 분류를 위한 인덱싱 데이터 구조로서 계층 개념 트리가 활용된다. 본 논문은 개념 계층구조를 자동적으로 구축하기 위해 위키피디아를 이용한 일반성 랭크 기반 기법을 제안한다. 이것의 목적은 위키피디아 문서를 하나의 개념으로 정의하여 이들 간의 계층적 위상관계를 생성하는 것이다. 이를 위해 위키피디아 문서들 간의 링크 개수를 주요 인자로 하여 개념 일반성을 가늠하는 랭킹함수를 고안하였으며, 이를 활용하여 개념 간 확률적 포함관계를 산출함으로써 안정적인 개념 간 계층 구조를 생성한다. 결과적으로 계층적 관계를 담은 개념쌍은 DAG 구조로 시각화 된다. Open Directory Project 계층구조를 사용한 성능 분석을 통해 제안 기법이 기준 기법에 비해 성능이 우수하며 고품질 계층 관계를 안정적으로 추출할 수 있음을 확인하였다.

개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여 (An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia)

  • 강인수
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.111-118
    • /
    • 2015
  • 개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다. 그러나 의미관련도의 왕성한 활용에도 불구하고 의미관련도 기반 방법이 개체중의성해소에 미치는 순수 효과를 분석 제시한 연구는 찾기 힘들다. 이 연구는 NGD, PMI, Jaccard, Dice, Simpson 등 서로 다른 의미관련도 지표의 차이, 공기개체집합 내 중의성 정도의 차이, 개별적/집단적 중의성해소 방식의 차이의 세 가지 관점에서 의미관련도 기반 개체중의성해소 방법들을 한국어 위키피디아 데이터를 사용하여 실험적으로 평가한 결과를 제시한다.

영어 위키피디아 페이지뷰를 통한 한중일 국가 인지도 비교 (A study on the nation images of the big three exporting countries in East Asia shown in Wikipedia English-Edition)

  • 이영환;전희주;송영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1071-1085
    • /
    • 2015
  • 본 연구에서 우리는 인터넷 상에서 경쟁국과의 경쟁력을 제고 할 수 있는 국가정책 수립이나 국가정책 수행 평가 등에 사용할 수 있는 실시간으로 국가이미지를 추출하고자 하였다. 이를 위하여 여러 선행연구와 위키피디아에 정의된 카테고리를 참고하여 온라인 특성을 고려한 국가이미지에 대한 온톨로지 구축하였다. 이렇게 구축된 온톨로지는 국가이미지를 위한 소셜미디어를 장단점을 고려하여 선택된 영어판 위키피디아 상에서 최근 6년간 한중일 삼국의 국가이미지를 추출하는데 적용되었다. 추출된 삼국의 국가이미지의 차이를 시각화하여 분석하기 위하여 대응분석 (correspondence analysis)으로 한 중 일 3국 간의 정치, 사회, 문화, 경제 인지도 간의 상대적인 관련성을 표현하고 분석하였다. 삼국의 이미지 분석 결과는 다음과 같다. 대응분석을 이용한 삼국의 이미지 분석 결과 각 나라를 대표하는 이미지가 합리적으로 도출되었음이 확인되었다. 또한 과거 정책의 변화와 이미지 변화를 검증한 결과 정책의 변화의 성공과 실패를 검증할 수 있음을 확인하였다. 따라서 국가정책 수립이나 수행평가 등에 사용할 수 있음을 확인하였다.

집단지성에 대한 신뢰가 실용적 특성 UCC웹사이트의 지속사용에 미치는 영향

  • 홍태호;김광모
    • 한국경영정보학회:학술대회논문집
    • /
    • 한국경영정보학회 2008년도 춘계학술대회
    • /
    • pp.1014-1022
    • /
    • 2008
  • 최근 들어 WWW(World WideWeb) 환경은 데이터의 소유자나 독점자 없이 누구나 손쉽게 데이터를 생산하고 인터넷에서 공유할 수 있도록 한 사용자 참여 중심의 인터넷 환경인 Web 2.0 시대를 맞이하고 있다.Web 2.0 관련 기술이 발달함에 따라 UCC(User Created Contents) 웹사이트의 사용자 수는 폭발적으로 증가하고 있다. 이에 따라 여럿의 중지를 모아 만들어지는 집단지성의 중요성이 부각되고 있고, UCC 웹사이트는 고품질의 집단지성을 제공하려고 다양한 서비스 및 상품의 개발을 하고 있다. 또한, UCC 웹사이트들은 자신들이 제공하는 집단지성을 사용자들이 채택하도록 많은 노력을 기울이고 있다. 본 연구는 대표적인 UCC 웹사이트인 위키피디아(www.wikipedia.org), 네이버 지식인 (kin.naver.com), 윙버스 (www.wingbus.com) 를 비롯한 실용적 특성 UCC 웹사이트를 대상으로 집단지성에 대한 신뢰가 실용적 특성 UCC 웹사이트의 지속사용에 미치는 영향을 분석하였다. 구조방정식 모형을 개발하여 실증분석을 한 결과 집단지성에 대한 신뢰가 사용자 만족을 통해 지속사용에 영향을 주는 것으로 분석되다.

  • PDF

GMLP를 이용한 한국어 자연어처리 및 BERT와 정량적 비교 (GMLP for Korean natural language processing and its quantitative comparison with BERT)

  • 이성민;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.540-543
    • /
    • 2021
  • 본 논문에서는 Multi-Head Attention 대신 Spatial Gating Unit을 사용하는 GMLP[1]에 작은 Attention 신경망을 추가한 모델을 구성하여 뉴스와 위키피디아 데이터로 사전학습을 실시하고 한국어 다운스트림 테스크(감성분석, 개체명 인식)에 적용해 본다. 그 결과, 감성분석에서 Multilingual BERT보다 0.27%높은 Accuracy인 87.70%를 보였으며, 개체명 인식에서는 1.6%높은 85.82%의 F1 Score를 나타내었다. 따라서 GMLP가 기존 Transformer Encoder의 Multi-head Attention[2]없이 SGU와 작은 Attention만으로도 BERT[3]와 견줄만한 성능을 보일 수 있음을 확인할 수 있었다. 또한 BERT와 추론 속도를 비교 실험했을 때 배치사이즈가 20보다 작을 때 BERT보다 1에서 6배 정도 빠르다는 것을 확인할 수 있었다.

  • PDF

탄소중립을 향하여: 데이터 센터에서의 효율적인 에너지 운영을 위한 딥러닝 기반 서버 관리 방안 (Towards Carbon-Neutralization: Deep Learning-Based Server Management Method for Efficient Energy Operation in Data Centers)

  • 마상균;박재현;서영석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.149-158
    • /
    • 2023
  • 최근 데이터 활용이 중요해짐에 따라 데이터 센터의 중요도도 함께 높아지고 있다. 하지만 데이터 센터는 막대한 전력을 소모함과 동시에 24시간 가동되는 시설이기 때문에 환경적, 경제적 측면에서 문제가 되고 있다. 최근 딥러닝 기법들을 사용하여 트래픽을 예측하거나, 데이터 센터나 서버에서 사용되는 전력을 줄이는 연구들이 다양한 관점에서 이루어지고 있다. 그러나 서버에서 처리되는 트래픽 데이터양은 변칙적이며 이는 서버를 관리하기 어렵게 만든다. 또한, 서버 상황에 따라 서버를 가변적으로 관리하는 기법에 대한 연구들이 여전히 많이 요구되고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 시계열 데이터 예측에 강세를 보이는 장단기 기억 신경망 (Long-Term Short Memory, LSTM)을 기반으로 한 가변적인 서버 관리 기법을 제안한다. 제안된 모델을 통해 서버에서 사용되는 전력을 보다 효과적으로 줄일 수 있게 되며, 현업환경에서 이전보다 안정적이고 효율적으로 서버를 관리할 수 있게 된다. 제안된 모델의 검증을 위해 위키피디아 (Wikipedia)의 데이터 센터 중 6개의 데이터 센터의 전송 및 수신 트래픽 데이터를 수집한 뒤 통계기반 분석을 통해 각 트래픽 데이터의 관계를 분석 및 실험을 수행하였다. 실험 결과 본 논문에서 제안된 모델의 유의미한 성능을 통계적으로 검증하였으며 서버 관리를 안정적이고 효율적으로 수행할 수 있음을 보여주었다.