• 제목/요약/키워드: 그래프 데이터 셋

검색결과 50건 처리시간 0.026초

MapReduce 환경에서 재그룹핑을 이용한 Locality Sensitive Hashing 기반의 K-Nearest Neighbor 그래프 생성 알고리즘의 개선 (An Improvement in K-NN Graph Construction using re-grouping with Locality Sensitive Hashing on MapReduce)

  • 이인희;오혜성;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.681-688
    • /
    • 2015
  • k-Nearest Neighbor(k-NN)그래프는 모든 노드에 대한 k-NN 정보를 나타내는 데이터 구조로써, 협업 필터링, 유사도 탐색과 여러 정보검색 및 추천 시스템에서 k-NN그래프를 활용하고 있다. 이러한 장점에도 불구하고 brute-force방법의 k-NN그래프 생성 방법은 $O(n^2)$의 시간복잡도를 갖기 때문에 빅데이터 셋에 대해서는 처리가 곤란하다. 따라서, 고차원, 희소 데이터에 효율적인 Locality Sensitive Hashing 기법을 (key, value)기반의 분산환경인 MapReduce환경에서 사용하여 k-NN그래프를 생성하는 알고리즘이 연구되고 있다. Locality Sensitive Hashing 기법을 사용하여 사용자를 이웃후보 그룹으로 만들고 후보내의 쌍에 대해서만 brute-force하게 유사도를 계산하는 two-stage 방법을 MapReduce환경에서 사용하였다. 특히, 그래프 생성과정 중 유사도 계산하는 부분이 가장 많은 시간이 소요되므로 후보 그룹을 어떻게 만드는 것인지가 중요하다. 기존의 방법은 사이즈가 큰 후보그룹을 방지하는데 한계점이 있다. 본 논문에서는 효율적인 k-NN 그래프 생성을 위하여 사이즈가 큰 후보그룹을 재구성하는 알고리즘을 제시하였다. 실험을 통해 본 논문에서 제안한 알고리즘이 그래프의 정확성, Scan Rate측면에서 좋은 성능을 보임을 확인하였다.

이동데이터 시간분석을 통한 이동양태 파악 (Investigating Cyclic Pattern of Mobility through Analysis of Geopositioning Data)

  • 홍수찬;송하윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.723-726
    • /
    • 2019
  • 사람은 한 장소를 방문할 때 순환 패턴이 있으며, 이 패턴에 여러 싸이클의 경향이 있다. 요즘은 스마트폰 및 기타 휴대용 장치로 개인 이동성 데이터를 수집하는 것이 가능하다. 이러한 장치는 다양한 위치 데이터를 수집하고 여러가지 방법으로 분석할 수 있게 해준다. 위치 수집기를 기반으로 지구 위치 데이터에서 추출된 사람의 이동성 모델을 수립하고, 위치 클러스터를 방문자의 순환 패턴을 조사할 수 있다. 수년 동안 수집된 개인의 이동성 모델을 토대로 클러스터 재방문 시간을 계산 후 분석하여 그래프로 시각화하였다. 시간 순서의 위치 클러스터와 방문 클러스터에 대한 위치 데이터는 1 분 단위로 측정된다. 전체 데이터 방문 횟수는 15 분마다 정규화하고, 자원 봉사자의 다양한 지리적 위치 데이터 셋에 대해 방문의 순환 패턴은 자기 상관, 자기 공분산 및 재방문 시간으로 살펴볼 수 있다.

결정그래프 합성곱 인공신경망을 통한 소재의 생성 에너지 예측 (Prediction of Material's Formation Energy Using Crystal Graph Convolutional Neural Network)

  • 이현기;서동화
    • 한국전기전자재료학회논문지
    • /
    • 제35권2호
    • /
    • pp.134-142
    • /
    • 2022
  • 기존의 시행착오를 거쳐 소재를 개발하는 방법은 조금씩 한계를 보이고 있는데, 왜냐하면 산업과 기술이 고도화되고 기능성 소재가 가져야 하는 특성은 복잡해지면서 그 요구치가 높아지고 있기 때문이다. 이를 극복하기 위해 데이터 기반의 인공신경망으로 복잡한 소재 공간을 빠르게 탐색하여 소재 개발을 가속화하고자 하는 연구들이 진행되고 있다. 특히 결정그래프 합성곱 인공신경망은 결정 소재의 구조에 따른 특성을 학습하는 인공신경망으로 소재의 특성(생성 에너지, 밴드갭, 부피 탄성 계수 등)을 양자역학 기반의 제일원리 계산보다 빠르게 예측한다. 본 논문에서는 46,629개의 결정구조 데이터와 그 생성 에너지를 공공데이터베이스에서 불러와 결정그래프 합성곱 인공신경망 모델을 학습시키고 이를 특성 예측에 적용해 보는 예제를 설명한다. 이를 통해 간단한 프로그래밍 지식으로 소재 특성 예측 모델을 재현해 보고 원하는 데이터 셋과 연구 분야에 적용할 수 있을 것으로 기대된다. 인공지능 모델의 개발은 앞으로 더 복잡한 특성을 가져야만 하는 소재의 개발을 위해 넓은 범위의 소재를 탐색해야만 하는 과정을 획기적으로 단축시켜 소재 개발의 가속화를 촉진시킬 것으로 생각된다.

크라우드 소싱 기반 딥러닝 선호 학습을 위한 쌍체 비교 셋 생성 (Generating Pairwise Comparison Set for Crowed Sourcing based Deep Learning)

  • 유기현;이동기;이창우;남광우
    • 한국산업정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.1-11
    • /
    • 2022
  • 딥러닝 기술의 발전에 따라 학습을 통해 선호도 랭킹 추정을 하기 위한 다양한 연구 개발이 진행되고 있으며, 웹 검색, 유전자 분류, 추천 시스템, 이미지 검색 등 여러 분야에 걸쳐 이용되고 있다. 딥러닝 기반의 선호도 랭킹을 추정하기 위해 근사(approximation) 알고리즘을 이용하는데, 이 근사 알고리즘에서 적정한 정도의 정확도를 보장할 수 있도록 모든 비교 대상에 k번 이상의 비교셋을 구축하게 되며, 어떻게 비교셋을 구축하느냐가 학습에 영향을 끼치게 된다. 이 논문에서는 크라우드 소싱 기반의 딥러닝 선호도 측정을 위한 쌍체 비교 셋을 생성하는 새로운 알고리즘인 k-disjoint 비교셋 생성 알고리즘과 k-체이닝 비교셋 생성 알고리즘을 제안한다. 특히 k-체이닝 알고리즘은 기존의 원형 생성 알고리즘과 같이 데이터 간의 연결성을 보장하면서도 안정적인 선호도 평가를 지원할 수 있는 랜덤적 성격도 함께 가지고 있음을 실험에서 확인하였다.

소셜 네트워크에서 프리겔 기반의 효율적인 링크 예측 기법 (A Pregel based Efficient Link Prediction method in the Social Network)

  • 윤영선;홍지혜;한용구;이영구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.158-160
    • /
    • 2013
  • 링크 예측 기법은 소셜 네트워크 분석 중 한 방법으로서 그래프 내에서 추가적으로 발생하는 링크를 어떻게 예측하여 네트워크에 추가하는 가에 대한 문제이며 소셜 네트워크의 친구 추천 서비스, 상관 관계 분석, 테러리스트 네트워크 모니터링 등 여러 분야에서 사용되고 있다. 그러나 데이터가 대용량화 됨에 따라 모든 데이터를 메모리에 적재하지 못하거나 최단경로 알고리즘의 반복 수행 등 많은 수행시간을 요구하기 때문에 분산 처리 환경이 필요하게 되었다. 본 논문에서는 프리겔 기반의 모든 노드들 간의 최단경로를 찾는 알고리즘의 반복 수행을 제거하여 수행속도를 향상시킨다. 다양한 데이터 셋에 따른 수행 시간을 측정하여 제안하는 기법의 우수성을 보인다.

A Study on Conversational AI Agent based on Continual Learning

  • Chae-Lim, Park;So-Yeop, Yoo;Ok-Ran, Jeong
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권1호
    • /
    • pp.27-38
    • /
    • 2023
  • 본 논문에서는 시간의 흐름에 따라 새로운 데이터를 지속적으로 학습하고 성장할 수 있는 연속 학습 기반 대화형 AI 에이전트를 제안한다. 연속학습 기반 대화형 AI 에이전트는 태스크 관리자 (Task Manager), 사용자 속성 추출(User Attribute Extraction), 자동 확장 지식 그래프(Auto-growing Knowledge Graph), 크게 3가지 요소로 구성된다. 태스크 관리자는 사용자와의 대화에서 새로운 데이터를 발견하면 이전에 학습한 지식을 통해 새로운 태스크를 생성한다. 사용자 특성 추출 모델은 새로운 태스크에서 사용자의 특성을 추출하고, 자동 확장 지식 그래프는 새로운 외부 지식을 지속적으로 학습할 수 있도록 한다. 한정된 데이터셋을 기반으로 학습된 기존 대화형 AI 에이전트와 달리, 본 논문에서 제안하는 방법은 지속적인 사용자의 특성과 지식 학습을 기반으로 대화를 가능하게 한다. 연속학습 기술이 적용된 대화형 AI 에이전트는 사용자와의 대화가 축적될수록 개인 맞춤형 대응이 가능하며, 새로운 지식에도 대응이 가능하다. 본 논문에서는 시간에 따른 대화 생성 모델의 성능 변화 실험을 통해 제안하는 방법의 가능성을 검증한다.

연구지원 정보서비스를 위한 히스토리오그래프와 SPLC 활용에 관한 실험적 연구: LED 분야 사례를 중심으로 (Exploratory Study of Applying Historiography and SPLC for Developing Information Services: A Case Study of LED Domain)

  • 유소영
    • 정보관리학회지
    • /
    • 제30권3호
    • /
    • pp.273-296
    • /
    • 2013
  • 이 연구에서는 특정 주제 분야의 핵심적이고 전역적인 연구 동향을 제공하는 연구지원 정보서비스 개발을 위해 SPLC(Search Path Link Count) 분석을 적용할 때, 데이터의 범위와 인용빈도 설정에 대하여 탐험적으로 살펴보고자 하였다. 이를 위하여 Web of Science에서 검색된 RGB LED 분야의 2,318개 논문과 20,109개 상위 인용논문으로 5개의 데이터셋을 구성하였다. 각 데이터셋에서 히스토리오그래프와 SPLC 네트워크를 인용빈도 임계치를 변화시키면서 28개 주요 연구 동향 네트워크를 추출하여, 인용문헌의 포함여부와 인용빈도 임계치 설정이 SPLC 네트워크에 미치는 영향을 살펴보았다. 그리고 특정 기관 소속 연구자들에게 SPLC 네트워크에 포함된 198개 주요 논문 리스트를 제공하고 피드백을 받음으로써, 전역적 연구 동향이 개인 연구자의 정보 요구에 부합하는지 살펴보았다. 분석 결과, 분석 대상에 상위 인용문헌 포함 여부와 인용빈도임계치에 따라 추출되는 SPLC 네트워크가 변화되었으나, 일정 인용빈도임계치값에서는 수렴하였다. 그리고 개인 연구자의 정보 요구는 SPLC를 통해 제공된 전역적 연구 동향과 출판년도의 차이는 있지만 대체적으로 일치하는 것으로 나타나, 인용문헌을 포함하여 인용빈도임계치를 변화시키는 SPLC 분석을 통해 개인 이용자가 원하는 전역적 연구 정보를 제공해 줄 수 있는 것으로 해석된다. 이를 일반화하기 위해서는 이 탐색적 연구에서 제안된 방법을 다양한 분야에 적용하는 후속 연구가 필요할 것이다.

OECD TG데이터를 이용한 그래프 기반 딥러닝 모델 분자 특성 예측 (Toxicity prediction of chemicals using OECD test guideline data with graph-based deep learning models)

  • 황대환;임창원
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.355-380
    • /
    • 2024
  • 본 연구에서는 OECD test guideline 데이터를 이용하여 graph기반 딥러닝 모델들의 성능을 비교하고자 한다. OECD TG는 화학물질들이 인체와 환경에 미칠 잠재적 영향에 대해 시험하는 방법이며, 많은 실험이 동물실험을 통해 독성을 확인한다. 동물실험은 많은 시간과 비용이 들며, 윤리적 이슈가 있어 대안을 찾거나 최소화하는 방법들이 연구되고 있다. 딥러닝은 화학물질을 활용하는 다양한 분야에서 사용되고 있으며, 독성예측 분야에도 사용되고 있으며, 특히 graph 기반 모델에 대한 연구가 활발하다. 우리의 목표는 OECD TG 데이터에 대한 graph기반 딥러닝 모델들의 성능을 비교하여 가장 성능이 좋은 모델을 찾는 것이다. 우리는 OECD에서 운영하는 웹사이트 eChemportal.org에서 OECD TG를 따른 결과를 수집하였으며, 전처리 과정을 통해 학습이 불가능하거나 부적절한 화학물질은 제거하였다. 수집된 OECD TG데이터와 화학물질 특성 예측 성능의 벤치마크 데이터셋인 MoleculeNet 데이터를 활용하여 5개의 graph기반 모델들의 독성 예측 성능을 비교하였다.

사물인터넷 기기 고장 진단을 위한 그래프 신경망 모델 기반 분류 방법 (Classification Method based on Graph Neural Network Model for Diagnosing IoT Device Fault)

  • 김진영;선준호;윤성훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권3호
    • /
    • pp.9-14
    • /
    • 2022
  • 각종 기기들이 연결되는 사물인터넷(internet of things) 시스템에서 중요한 부품의 고장은 경제적, 인명의 손실을 야기할 수 있다. 시스템 내에서 발생하는 고장으로 인한 손실을 줄이기 위해 고장 검진 기술이 IoT에서 중요한 기술로써 여겨지고 있다. 본 논문에서는 그래프 신경망 기반 방법을 사용하여 시스템 내의 설비에서 취득된 진동 데이터의 특징을 추출하여 고장 여부를 판단하고 유형을 분류하는 방법을 제안한다. 딥러닝 모델의 학습을 위해, CWRU(case western reserve university)에서 취득된 고장 데이터 셋을 입력 데이터로 사용한다. 제안하는 모델의 분류 정확도 성능을 확인하기 위해 기존 제안된 합성곱 신경망(convolutional neural networks) 기반 분류 모델과 제안된 모델을 비교한다. 시뮬레이션 결과, 제안된 모델은 불균등하게 나누어진 데이터에서 기존 모델보다 분류 정확도를 약 5% 향상 시킬 수 있는 것을 확인하였다. 이후 연구로, 제안하는 모델을 경량화해서 분류 속도를 개선할 예정이다.

그래프 트랜스포머 기반 농가 사과 품질 이미지의 그래프 표현 학습 연구 (A Study about Learning Graph Representation on Farmhouse Apple Quality Images with Graph Transformer)

  • 배지훈;이주환;유광현;권경주;김진영
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.9-16
    • /
    • 2023
  • 최근 농가의 사과 품질 선별 작업에서 인적자원의 한계를 극복하기 위해 합성곱 신경망(CNN) 기반 시스템이 개발되고 있다. 그러나 합성곱 신경망은 동일한 크기의 이미지만을 입력받기 때문에 샘플링 등의 전처리 과정이 요구될 수 있으며, 과도 샘플링의 경우 화질 저하, 블러링 등 원본 이미지의 정보손실 문제가 발생한다. 본 논문에서는 위 문제를 최소화하기 위하여, 원본 이미지의 패치 기반 그래프를 생성하고 그래프 트랜스포머 모델의 랜덤워크 기반 위치 인코딩 방법을 제안한다. 위 방법은 랜덤워크 알고리즘 기반 위치정보가 없는 패치들의 위치 임베딩 정보를 지속적으로 학습하고, 기존 그래프 트랜스포머의 자가 주의집중 기법을 통해 유익한 노드정보들을 집계함으로써 최적의 그래프 구조를 찾는다. 따라서 무작위 노드 순서의 새로운 그래프 구조와 이미지의 객체 위치에 따른 임의의 그래프 구조에서도 강건한 성질을 가지며, 좋은 성능을 보여준다. 5가지 사과 품질 데이터셋으로 실험하였을 때, 다른 GNN 모델보다 최소 1.3%에서 최대 4.7%의 학습 정확도가 높았으며, ResNet18 모델의 23.52M보다 약 15% 적은 3.59M의 파라미터 수를 보유하여 연산량 절감에 따른 빠른 추론 속도를 보이며 그 효과를 증명한다.