• Title/Summary/Keyword: 그래프 데이터 셋

Search Result 50, Processing Time 0.022 seconds

Constructing a Graph-Based arXiv Dataset By Reflecting the Research Trend in Computer Science (컴퓨터 과학 연구 동향을 반영한 그래프 기반의 arXiv 데이터셋 구축)

  • Juhyun Jeon;David Y. Kang;Sang-Wook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.524-526
    • /
    • 2024
  • 컴퓨터 과학(CS) 분야는 다른 학문 분야에 비해 연구 동향이 빠르게 변하는 특성을 가지고 있다. 그래프 마이닝에서 활발히 사용되는 CS 분야 논문 데이터셋를(e.g., Cora, Citeseer, DBLP)은 오래된 논문을 중심으로 구성되어 있어 이러한 특성을 제대로 반영하지 못하는 한계가 있다. 따라서 본논문에서는 CS 분야의 최신 트렌드를 반영하는 논문 데이터셋을 제안한다. 이를 위해, 우리는 CS 분야 논문을 활발히 공개하는 플랫폼인 arXiv 에서 2007 년부터 2023 년까지 해당 플랫폼에서 공개된 논문들을 수집하고, 이를 기반으로 공저자 그래프 및 인용 그래프로 구축한다. 해당 데이터셋을 대상으로 폭넓은 분석을 통해, 우리가 구축한 데이터셋이 실세계 그래프 네트워크 특성을 잘 반영하고 있음을 보인다. 또한, 향휴에 해당 데이터셋을 사용하려는 연구자들을 위해, 해당 데이터셋에서의 기존 그래프 기반 응용들의 노드 분류 성능을 제시한다.

Evaluating the Performance of Hypergraph Embedding Methods According to Hypergraph Sparsity (하이퍼그래프 희소성에 따른 하이퍼그래프 임베딩 방법 성능 평가)

  • So-Bin Jung;David Y. Kang;Sang-Wook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.641-643
    • /
    • 2024
  • 실세계에서는 두개 이상의 객체들이 서로 관계를 맺고있다. 단 두 객체 간의 관계만 표현하는 그래프와는 달리 여러 객체들 간의 관계를 표현하는 하이퍼그래프는 그룹 상호작용을 잘 표현할 수 있다. 이러한 강점으로 하이퍼그래프를 활용한 응용들이 많이 제안되고 있다. 하이퍼그래프 임베딩은 하이퍼그래프의 구조를 이용하여 노드를 저차원 벡터로 표현하는 방법이다. 이렇게 표현된 벡터들은 노드 분류, 커뮤니티 탐지, 링크예측 등 광범위한 응용에 활용된다. 하지만 하이퍼그래프는 그래프보다 희소성 문제가 훨씬 더 심해 데이터 셋의 희소성이 하이퍼그래프 임베딩 방법의 성능에 큰 영향을 미칠 수 있다. 따라서, 본 논문에서는 희소성에 따른 하이퍼그래프 임베딩 방법들의 성능을 분석하고자 한다. 우리는 8 개의 실세계 데이터셋을 이용한 실험을 통해 데이터가 희소할수록 하이퍼그래프 임베딩 방법들의 성능이 감소하는 것을 확인하였다.

User Interaction-based Graph Query Formulation and Processing (사용자 상호작용에 기반한 그래프질의 생성 및 처리)

  • Jung, Sung-Jae;Kim, Taehong;Lee, Seungwoo;Lee, Hwasik;Jung, Hanmin
    • Journal of KIISE:Databases
    • /
    • v.41 no.4
    • /
    • pp.242-248
    • /
    • 2014
  • With the rapidly growing amount of information represented in RDF format, efficient querying of RDF graph has become a fundamental challenge. SPARQL is one of the most widely used query languages for retrieving information from RDF dataset. SPARQL is not only simple in its syntax but also powerful in representation of graph pattern queries. However, users need to make a lot of efforts to understand the ontology schema of a dataset in order to compose a relevant SPARQL query. In this paper, we propose a graph query formulation and processing scheme based on ontology schema information which can be obtained by summarizing RDF graph. In the context of the proposed querying scheme, a user can interactively formulate the graph queries on the graphic user interface without making efforts to understand the ontology schema and even without learning SPARQL syntax. The graph query formulated by a user is transformed into a set of class paths, which are stored in a relational database and used as the constraint for search space reduction when the relational database executes the graph search operation. By executing the LUBM query 2, 8, and 9 over LUBM (10,0), it is shown that the proposed querying scheme returns the complete result set.

The Automated Scoring of Kinematics Graph Answers through the Design and Application of a Convolutional Neural Network-Based Scoring Model (합성곱 신경망 기반 채점 모델 설계 및 적용을 통한 운동학 그래프 답안 자동 채점)

  • Jae-Sang Han;Hyun-Joo Kim
    • Journal of The Korean Association For Science Education
    • /
    • v.43 no.3
    • /
    • pp.237-251
    • /
    • 2023
  • This study explores the possibility of automated scoring for scientific graph answers by designing an automated scoring model using convolutional neural networks and applying it to students' kinematics graph answers. The researchers prepared 2,200 answers, which were divided into 2,000 training data and 200 validation data. Additionally, 202 student answers were divided into 100 training data and 102 test data. First, in the process of designing an automated scoring model and validating its performance, the automated scoring model was optimized for graph image classification using the answer dataset prepared by the researchers. Next, the automated scoring model was trained using various types of training datasets, and it was used to score the student test dataset. The performance of the automated scoring model has been improved as the amount of training data increased in amount and diversity. Finally, compared to human scoring, the accuracy was 97.06%, the kappa coefficient was 0.957, and the weighted kappa coefficient was 0.968. On the other hand, in the case of answer types that were not included in the training data, the s coring was almos t identical among human s corers however, the automated scoring model performed inaccurately.

Integrating Transition-based and Graph-based Dependency Parsers using Dual Decomposition (Dual Decomposition을 이용한 전이기반 및 그래프 기반 의존 파서 통합 모델)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.25-29
    • /
    • 2019
  • 딥러닝을 이용한 한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식으로 나뉘어 연구되어 왔다. 전이 기반 방식은 입력 버퍼와 스택으로부터 자질을 추출하여 모델을 통해 액션을 결정하고 액션에 따라 파스트리를 생성해 나가는 상향식(Botton-Up)의 지역적 모델이고 그래프 기반 방식은 문장 내의 모든 단어에 대해 지배소, 의존소가 될 수 있는 점수를 딥러닝 모델을 통해 점수화하여 트리를 생성하는 전역적 모델이다. 본 논문에서는 Dual Decomposition을 이용하여 하이브리드 방식으로 전이 기반 파서와 그래프 기반 파서를 결합하는 방법을 제안하고 BERT 언어 모델을 반영하여 세종 데이터 셋에서 UAS 94.47%, LAS 92.58% 그리고 SPMRL '14 데이터 셋에서 UAS 94.74%, UAS 94.20%의 성능을 보여 기존 그래프 기반 파서의 성능을 더욱 개선하였다.

  • PDF

Deep Learning-based Time Series Data Prediction Research for Performance Enhancement in Cloud Monitoring Systems (클라우드 모니터링 시스템의 성능 향상을 위한 딥러닝을 이용한 시계열 데이터 예측 연구)

  • 김동완;홍두표;신용태
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.342-344
    • /
    • 2023
  • 클라우드 시장의 성장과 마이크로 서비스 접근식이 제기됨에 따라 IT인프라를 관리하기 위한 연구가 최근 활발히 이루어지고 있다. 하지만 고도화 및 분산된 환경에서 관찰 가능성 응용을 확보하기 어렵다는 문제점을 가지고 있다. 따라서 본 연구에서는 모니터링 시스템을 통한 데이터 분석 중 수집한 데이터의 분석이 난해하다는 문제를 해결하기 위한 방법을 제안한다. 제안된 방법은 NAB 데이터셋을 대상으로 STUMPY를 이용하여 데이터를 시각화하고, CNN을 이용하여 분류 작업을 수행한다. 분류를 수행한 데이터셋은 이상치 데이터와 이상 전조 데이터, 정상 데이터셋으로 분류하여 데이터셋을 구성한다. 구성한 학습 데이터셋에 대해 훈련을 마친 딥러닝 모델은 부하 테스트 환경에서 수집한 데이터에 대한 그래프 패턴을 분석하여 이상치 데이터와 이상 전조 데이터를 탐지한다.

Graph Convolutional Networks for Collective Entity Linking (Graph Convolutional Network 기반 집합적 개체 연결)

  • Lee, Young-Hoon;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.170-172
    • /
    • 2019
  • 개체명 연결이란 주어진 문장에 출현한 단어를 위키피디아와 같은 지식 기반 상의 하나의 개체에 연결하는 것을 의미한다. 문장에 나타나는 개체들은 주로 동일한 주제를 가지게 되는데 본 논문에서는 이러한 특징을 활용하기 위해서 개체들을 그래프상의 노드로 표현하고, 그래프 신경망을 이용하여 주변 노드의 정보를 통해 노드 표상을 업데이트한다. 한국어 위키피디아 링크 데이터를 사용하여 실험을 진행한 결과 개발 셋에서 82.09%, 평가 셋에서 81.87%의 성능을 보였다.

  • PDF

Korean Fake News Detection with User Graph (사용자 그래프 기반 한국어 가짜뉴스 판별 방법)

  • Kang, MyungHoon;Seo, Jaehyung;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.97-102
    • /
    • 2021
  • 최근 급격한 정보기술의 발달로 가짜뉴스가 사회문제로 대두되고 있다. 한국어 가짜뉴스 문제를 딥러닝으로 해결하기 위해서 기존의 연구들은 본문 기반의 가짜뉴스 탐지를 진행하였으며 최근에는 기사 본문 외의 보조적 정보를 활용하는 방법으로 연구가 진행되고 있다. 그러나 기존의 방식과 개선된 방식들 모두 적절한 가짜뉴스 탐지 방법을 제시하지 못하여 모델이 산출한 가짜뉴스 표현 벡터의 품질을 보장할 수 없었다. 또한 한국어 가짜뉴스 문제를 해결함에 있어서 적절한 공개 데이터셋 또한 제공되지 않았다. 따라서 본 논문은 한국어 가짜뉴스 탐지 문제에서 독자 반응정보를 추가하여 효과적인 학습을 할 수 있는 '사용자 그래프 기반 한국어 가짜뉴스 판별 방법'과 해당 모델이 적절히 학습할 수 있는 간이 데이터셋 구축 방법을 제안한다.

  • PDF

A Comparative Study on the Performance of Graph Based Collaborative Filtering Using PyTorch Geometric (PyTorch Geometric을 이용한 그래프 기반 협업 필터링 성능 비교 연구)

  • Gyoung-Tae Kim;Hee-Gook Jun;JinHyun Ahn;Dong-Hyuk IM
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.673-675
    • /
    • 2023
  • 그래프 데이터는 데이터간의 관계를 효율적으로 분석할 수 있으며, 뛰어난 확장성, 다양한 종류의 데이터들을 쉽게 표현할 수 있어 화학, 의학, 추천시스템등 다양한 분야에 적용하려는 사례가 늘고 있다. 이러한 그래프 데이터를 머신러닝기법에 쉽게 사용할 수 있도록 적용된 것이 GNN모델이다. 그 중 Convolultion기법을 적용한 ConvGNNs 모델이 추천 시스템 등 다양한 분야에서 많이 연구 되고 있다. 본 논문은 실험을 통해 상이한 데이터셋 환경에서 Convolution 그래프 기반 모델들의 성능을 비교하였다.

Study on Knowledge Augmented Prompting for Text to SPARQL (Text to SPARQL을 위한 지식 증강 프롬프팅 연구)

  • Yeonjin Lee;Jeongjae Nam;Wooyoung Kim;Wooju Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.185-189
    • /
    • 2023
  • Text to SPARQL은 지식 그래프 기반 질의응답의 한 형태로 자연어 질문을 지식 그래프 검색 쿼리로 변환하는 태스크이다. SPARQL 쿼리는 지식 그래프의 정보를 기반으로 작성되어야 하기 때문에 기존 언어 모델을 통한 코드 생성방법으로는 잘 동작하지 않는다. 이에 우리는 거대 언어 모델을 활용하여 Text to SPARQL를 해결하기 위해 프롬프트에 지식 그래프의 정보를 증강시켜주는 방법론을 제안한다. 이에 더하여 다국어 정보 활용에 대한 영향을 검증하기 위해 한국어, 영어 각각의 레이블을 교차적으로 실험하였다. 추가로 한국어 Text to SPARQL 실험을 위하여 대표적인 Text to SPARQL 벤치마크 데이터셋 QALD-10을 한국어로 번역하여 공개하였다. 위 데이터를 이용해 지식 증강 프롬프팅의 효과를 실험적으로 입증하였다.

  • PDF