• Title/Summary/Keyword: 대규모 그래프 데이터

Search Result 27, Processing Time 0.032 seconds

Performance Comparison and Analysis of Embedding methods based on Clustering Algorithms (클러스터링 알고리즘 기반의 임베딩 기법 성능 비교 및 분석)

  • Park, Jungmin;Park, Heemin;Yang, Seona;Sun, Yuxiang;Lee, Yongju
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.164-167
    • /
    • 2021
  • 최근 구글, 아마존, LOD 등을 중심으로 지식 그래프(Knowledge graph)와 같은 검색 고도화 연구가 활발히 수행되고 있다.그러나 대규모 지식 그래프 인덱싱 시스템에서 데이터가 어떻게 임베딩(embedding)되고, 딥러닝(deep learning) 되는지는 상대적으로 거의 연구가 되지 않고 있다. 이에 본 논문에서는 임베딩 모델에 대한 성능평가를 통해 데이터셋에 대해 어떤 모델이 가장 좋은 지식 임베딩 방법을 도출하는지 분석한다.

  • PDF

A Protein Function Prediction in Interaction Maps (상호작용 맵에서 단백질 기능 예측)

  • 정재영;최재훈;박종민;박선희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.286-288
    • /
    • 2004
  • 단백질 상호작용 데이터는 현 생물정보학에서 기능이 알려지지 않은 단백질의 기능 예측에 높은 신뢰성이 있는 프로티오믹스의 계산 모델에 이용되고 있다. 일반적으로 이 단백질 기능 예측 알고리즘들은 대규모의 2차원 단백질-단백질 상호작용 맵에서 Guilt-by-Association 개념 기반으로 개발되고 있다. 본 논문에서는 단백질-단백질 상호작용 데이터를 이용한 그래프 기반 단백질 기능 예측 모델을 개발하였다. 특히, 이 모델은 대량의 상호작용 데이터에서 정확한 기능 예측을 수행할 수 있다는 장점을 가지고 있다. 이를 위해 Yeast에 대한 단백질 상호작용 맵, Homology 및 Interaction Generality를 이용하여 이 모델을 평가하였다.

  • PDF

Bilinear Graph Neural Network-Based Reasoning for Multi-Hop Question Answering (다중 홉 질문 응답을 위한 쌍 선형 그래프 신경망 기반 추론)

  • Lee, Sangui;Kim, Incheol
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.9 no.8
    • /
    • pp.243-250
    • /
    • 2020
  • Knowledge graph-based question answering not only requires deep understanding of the given natural language questions, but it also needs effective reasoning to find the correct answers on a large knowledge graph. In this paper, we propose a deep neural network model for effective reasoning on a knowledge graph, which can find correct answers to complex questions requiring multi-hop inference. The proposed model makes use of highly expressive bilinear graph neural network (BGNN), which can utilize context information between a pair of neighboring nodes, as well as allows bidirectional feature propagation between each entity node and one of its neighboring nodes on a knowledge graph. Performing experiments with an open-domain knowledge base (Freebase) and two natural-language question answering benchmark datasets(WebQuestionsSP and MetaQA), we demonstrate the effectiveness and performance of the proposed model.

Graph-based modeling for protein function prediction (단백질 기능 예측을 위한 그래프 기반 모델링)

  • Hwang Doosung;Jung Jae-Young
    • The KIPS Transactions:PartB
    • /
    • v.12B no.2 s.98
    • /
    • pp.209-214
    • /
    • 2005
  • The use of protein interaction data is highly reliable for predicting functions to proteins without function in proteomics study. The computational studies on protein function prediction are mostly based on the concept of guilt-by-association and utilize large-scale interaction map from revealed protein-protein interaction data. This study compares graph-based approaches such as neighbor-counting and $\chi^2-statistics$ methods using protein-protein interaction data and proposes an approach that is effective in analyzing large-scale protein interaction data. The proposed approach is also based protein interaction map but sequence similarity and heuristic knowledge to make prediction results more reliable. The test result of the proposed approach is given for KDD Cup 2001 competition data along with those of neighbor-counting and $\chi^2-statistics$ methods.

A Language Model based Knowledge Network for Analyzing Disaster Safety related Social Interest (재난안전 사회관심 분석을 위한 언어모델 활용 정보 네트워크 구축)

  • Choi, Dong-Jin;Han, So-Hee;Kim, Kyung-Jun;Bae, Eun-Sol
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2022.10a
    • /
    • pp.145-147
    • /
    • 2022
  • 본 논문은 대규모 텍스트 데이터에서 이슈를 발굴할 때 사용되는 기존의 정보 네트워크 또는 지식 그래프 구축 방법의 한계점을 지적하고, 문장 단위로 정보 네트워크를 구축하는 새로운 방법에 대해서 제안한다. 먼저 문장을 구성하는 단어와 캐릭터수의 분포를 측정하며 의성어와 같은 노이즈를 제거하기 위한 역치값을 설정하였다. 다음으로 BERT 기반 언어모델을 이용하여 모든 문장을 벡터화하고, 코사인 유사도를 이용하여 두 문장벡터에 대한 유사성을 측정하였다. 오분류된 유사도 결과를 최소화하기 위하여 명사형 단어의 의미적 연관성을 비교하는 알고리즘을 개발하였다. 제안된 유사문장 비교 알고리즘의 결과를 검토해 보면, 두 문장은 서술되는 형태가 다르지만 동일한 주제와 내용을 다루고 있는 것을 확인할 수 있었다. 본 논문에서 제안하는 방법은 단어 단위 지식 그래프 해석의 어려움을 극복할 수 있는 새로운 방법이다. 향후 이슈 및 트랜드 분석과 같은 미래연구 분야에 적용하면, 데이터 기반으로 특정 주제에 대한 사회적 관심을 수렴하고, 수요를 반영한 정책적 제언을 도출하는데 기여할 수 있을 것이다

  • PDF

A Music Recommendation System by Using Graph-based Collaborative Filtering (그래프 기반 협동적 여과를 이용한 음악 추천 시스템)

  • Kim, Hyung-Il;Lee, Jin-Seok;Lee, Jeong-Hyun;Cho, Chin-Kwna;Kim, Kyoung-Sup;Kim, Jun-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.51-54
    • /
    • 2006
  • 본 논문에서는 각 사용자들의 취향에 맞는 음악을 추천하는 개인화된 음악 추천 시스템을 소개한다. 추천 시스템이란 사용자의 선호도를 분석하고 아이템들에 대한 사용자의 선호도를 예측하여 영화, 음악, 기사, 책, 웹 페이지 등과 같은 아이템들을 추천하는 시스템을 말한다. 추천 시스템들에서 가장 많이 사용하고 있는 협동적 추천 방식은 선호도 데이터를 기반으로 유사한 사용자들을 찾고, 유사 사용자들의 선호도를 기반으로 예측을 수행하는 것으로서, 여러 장점들이 있으나 희소성(sparsity) 문제와 확장성(scalability) 문제에 대해 취약점을 가지고 있다. 아이템들의 전체 수에 비해 매우 적은 수의 아이템 선호도 데이터만 존재한다면 사용자들의 유사도를 계산하기가 어려우며, 또한 사용자의 수가 늘어날수록 유사도 계산에 걸리는 시간이 급격하게 늘어남으로써 수백만 사용자가 있는 웹 사이트 등에서 실시간 추천을 수행하기 어렵다. 본 논문에서 소개하는 음악 추천 시스템은 이러한 문제점들을 해결하기 위해 그래프 기반 협동적 여과 기법을 사용한다. 그래프 기반 협동적 여과 기법은 기존의 협동적 여과 기법들과 달리 아이템들 사이의 연관관계를 그래프 모델로 표현하고 저장함으로써 묵시적인 선호도 정보들을 누적하여 희소성 문제를 해결하고, 추천 아이템을 선정하는데 필요한 계산 시간을 크게 단축하여 대규모 데이터에서 실시간 추천을 가능하게 한다는 장점이 있다.

  • PDF

A Study on Characteristics of Fire in Vertical Space Using CFAST (화재시뮬레이션을 이용한 수직공간의 화재특성 분석 연구)

  • Park, Hyun-Jun;Kwon, Jin-Suk;Choi, Jae-Hyouk
    • 한국방재학회:학술대회논문집
    • /
    • 2011.02a
    • /
    • pp.190-190
    • /
    • 2011
  • 사회 다변화 및 급속한 경제성장과 도시밀집화로 인하여, 화재의 발생으로 인하여 막대한 인명피해 및 대규모의 재산상의 피해가 지속적으로 발생하고 있다. 이러한 화재의 피해를 예측하기 위해서는 실제 규모의 화재실험이 매우 유용하지만, 막대한 비용과 현실적 제약조건으로 인하여 실제 실험에는 많은 어려움이 따른다. 따라서 막대한 예산이 소요되는 실제규모의 화재실험의 대체방법으로 실제를 모사하는 축소모형 화재모의실험 및 컴퓨터를 이용한 화재 시뮬레이션 기법이 널리 이용되고 있다. 본 논문에서는 범용 컴퓨터를 이용한 화재 시뮬레이션 기법(CFAST)을 이용하여 수직 공간 구성을 가지는 단독주택의 화재 성상을 검토하였다. 시뮬레이션 모델로는 단독주택을 대상건물로 하여 2층으로 수직 공간을 가지는 단독주택 건물에 대한 모의 화재 시뮬레이션을 수행 하였다. 화재 시뮬레이션 결과는 각 구획실별 온도, 일산화탄소량, 공기 중 산소량 등을 도출하여 기존 이론에 의한 화재성장 그래프와 시뮬레이션 데이터를 비교하여 정확도를 검토하였다. 본 논문에서는 두가지의 시나리오를 작성하여 화재 시뮬레이션 프로그램의 결과 값을 분석하였다. (1) 시나리오 1 : 화재시뮬레이션 대상건물 1층 거실(2번방)에서 스프링클러 미 설치시 화재가 발생한 경우를 가정하여 수평방향인 3번방과 수직방향인 7번방의 화재 확산 피해정도를 살펴보고, 화재 그래프의 이론값과 실험값의 차이를 비교하여 그 정합성을 검토하였다. 발화물질은 Curtain, TV set, Sofa, Table으로 하며 시간은 60초 간격으로 총 3600초(1시간)를 분석 하였고, 발화지점의 온도, 일산화탄소, 공기중 산소 농도를 분석하였다. (2) 시나리오 2 : 시나리오 1과 동일한 화재발현 조건으로 스프링클러가 설치되어 있을 때 화재 발생 했을 경우, 수평방향인 3번방과 수직방향인 7번방의 화재 확산 피해를 시나리오 1과 비교 검토 하였다. 기존 이론에 의한 화재 성장 그래프와 이번 시뮬레이션 결과값을 토대로 만든 그래프 형태를 비교해보면 두 그래프의 형태가 비슷한 형태를 나타내어 Flash Over 현상과 Back Draft 현상이 이론값과 같은 경향을 나타내고 있음을 확인 할 수 있었다. 따라서, 본 논문에서 수행한 화재 시뮬레이션 기법으로 건축물의 실제 화재시의 피해정도를 예측하는 데 유용하게 활용될 것으로 판단된다.

  • PDF

A Study on Improvement of River Water Quality in Gyeonggi-do Using Big Data Analysis (빅데이터 분석을 통한 경기도내 하천수질 개선방안 연구)

  • Lee, Sang Ung;Jo, Bu Geon;Jung, Woo Suk;Kim, Young Do
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.160-160
    • /
    • 2021
  • 과거 대규모 댐 건설 등 물 개발 중심에서 벗어나 효율적이고, 균형 잡힌 물관리 중심으로 '물관리 패러다임'이 변화되고 있다. 물관리 일부인 수질은 생활하수, 산업폐수, 농·축산 폐수에 의해 하천 및 호소 오염의 심각성이 대두되어, 수질 개선에 관한 연구가 진행되고 있다. 한강 유역은 한강, 남한강, 북한강 등 여러 수계로 구성되어 있으며, 서울을 포함한 주요 도시지역을 포함하고 있다. 한강 유역은 도시 및 농촌지역이 혼재되어 있으며, 도시지역의 경우 수변구역이 주민생활과 밀접한 유역이 많다. 한강대권역관리계획, 지자체별 총량제도를 통하여 관리를 하고 있으나, 각각의 유역별 특성이 다양하여 여러 이슈와 환경적 문제점이 발생하고 있어 유역에 적합한 수질개선 방안이 필요한 실정이다. 국내에서는 수질오염총량제도를 통해 수계의 수질을 관리하고 있지만, 오염물질의 부하량을 기준으로 수립하여 데이터의 다양성을 나타내기에 한계가 있다. 본 연구에서는 하천의 수계를 단위유역 단위가 아닌 중권역 단위로 구분하여 수질 인자의 농도를 활용하여 인자 간의 관계가 하천에 주는 영향을 보고자 한다. 수질 측정망에서 수집된 수질 데이터를 활용하여 여러 기법의 데이터 분석을 통해 한강 유역 수질의 특성과 경향을 시각화 그래프로 나타낸 결과를 토대로 유역특성을 반영한 수질 개선방안을 도출하고자 한다.

  • PDF

Entity Matching Method Using Semantic Similarity and Graph Convolutional Network Techniques (의미적 유사성과 그래프 컨볼루션 네트워크 기법을 활용한 엔티티 매칭 방법)

  • Duan, Hongzhou;Lee, Yongju
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.17 no.5
    • /
    • pp.801-808
    • /
    • 2022
  • Research on how to embed knowledge in large-scale Linked Data and apply neural network models for entity matching is relatively scarce. The most fundamental problem with this is that different labels lead to lexical heterogeneity. In this paper, we propose an extended GCN (Graph Convolutional Network) model that combines re-align structure to solve this lexical heterogeneity problem. The proposed model improved the performance by 53% and 40%, respectively, compared to the existing embedded-based MTransE and BootEA models, and improved the performance by 5.1% compared to the GCN-based RDGCN model.

A Weighted Frequent Graph Pattern Mining Approach considering Length-Decreasing Support Constraints (길이에 따라 감소하는 빈도수 제한조건을 고려한 가중화 그래프 패턴 마이닝 기법)

  • Yun, Unil;Lee, Gangin
    • Journal of Internet Computing and Services
    • /
    • v.15 no.6
    • /
    • pp.125-132
    • /
    • 2014
  • Since frequent pattern mining was proposed in order to search for hidden, useful pattern information from large-scale databases, various types of mining approaches and applications have been researched. Especially, frequent graph pattern mining was suggested to effectively deal with recent data that have been complicated continually, and a variety of efficient graph mining algorithms have been studied. Graph patterns obtained from graph databases have their own importance and characteristics different from one another according to the elements composing them and their lengths. However, traditional frequent graph pattern mining approaches have the limitations that do not consider such problems. That is, the existing methods consider only one minimum support threshold regardless of the lengths of graph patterns extracted from their mining operations and do not use any of the patterns' weight factors; therefore, a large number of actually useless graph patterns may be generated. Small graph patterns with a few vertices and edges tend to be interesting when their weighted supports are relatively high, while large ones with many elements can be useful even if their weighted supports are relatively low. For this reason, we propose a weight-based frequent graph pattern mining algorithm considering length-decreasing support constraints. Comprehensive experimental results provided in this paper show that the proposed method guarantees more outstanding performance compared to a state-of-the-art graph mining algorithm in terms of pattern generation, runtime, and memory usage.