• 제목/요약/키워드: Scene Graph Generation

검색결과 8건 처리시간 0.026초

Multimodal Context Embedding for Scene Graph Generation

  • Jung, Gayoung;Kim, Incheol
    • Journal of Information Processing Systems
    • /
    • 제16권6호
    • /
    • pp.1250-1260
    • /
    • 2020
  • This study proposes a novel deep neural network model that can accurately detect objects and their relationships in an image and represent them as a scene graph. The proposed model utilizes several multimodal features, including linguistic features and visual context features, to accurately detect objects and relationships. In addition, in the proposed model, context features are embedded using graph neural networks to depict the dependencies between two related objects in the context feature vector. This study demonstrates the effectiveness of the proposed model through comparative experiments using the Visual Genome benchmark dataset.

3차원 가상 실내 환경을 위한 심층 신경망 기반의 장면 그래프 생성 (Deep Neural Network-Based Scene Graph Generation for 3D Simulated Indoor Environments)

  • 신동협;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권5호
    • /
    • pp.205-212
    • /
    • 2019
  • 장면 그래프는 영상 내 물체들과 각 물체 간의 관계를 나타내는 지식 그래프를 의미한다. 본 논문에서는 3차원 실내 환경을 위한 3차원 장면 그래프를 생성하는 모델을 제안한다. 3차원 장면 그래프는 물체들의 종류와 위치, 그리고 속성들뿐만 아니라, 물체들 간의 3차원 공간 관계들도 포함한다. 따라서 3차원 장면 그래프는 에이전트가 활동할 실내 환경을 묘사하는 하나의 사전 지식 베이스로 볼 수 있다. 이러한 3차원 장면 그래프는 영상 기반의 질문과 응답, 서비스 로봇 등과 같은 다양한 분야에서 유용하게 활용될 수 있다. 본 논문에서 제안하는 3차원 장면 그래프 생성 모델은 크게 물체 탐지 네트워크(ObjNet), 속성 예측 네트워크(AttNet), 변환 네트워크(TransNet), 관계 예측 네트워크(RelNet) 등 총 4가지 부분 네트워크들로 구성된다. AI2-THOR가 제공하는 3차원 실내 가상환경들을 이용한 다양한 실험들을 통해, 본 논문에서 제안한 모델의 높은 성능을 확인할 수 있었다.

A Novel Two-Stage Training Method for Unbiased Scene Graph Generation via Distribution Alignment

  • Dongdong Jia;Meili Zhou;Wei WEI;Dong Wang;Zongwen Bai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권12호
    • /
    • pp.3383-3397
    • /
    • 2023
  • Scene graphs serve as semantic abstractions of images and play a crucial role in enhancing visual comprehension and reasoning. However, the performance of Scene Graph Generation is often compromised when working with biased data in real-world situations. While many existing systems focus on a single stage of learning for both feature extraction and classification, some employ Class-Balancing strategies, such as Re-weighting, Data Resampling, and Transfer Learning from head to tail. In this paper, we propose a novel approach that decouples the feature extraction and classification phases of the scene graph generation process. For feature extraction, we leverage a transformer-based architecture and design an adaptive calibration function specifically for predicate classification. This function enables us to dynamically adjust the classification scores for each predicate category. Additionally, we introduce a Distribution Alignment technique that effectively balances the class distribution after the feature extraction phase reaches a stable state, thereby facilitating the retraining of the classification head. Importantly, our Distribution Alignment strategy is model-independent and does not require additional supervision, making it applicable to a wide range of SGG models. Using the scene graph diagnostic toolkit on Visual Genome and several popular models, we achieved significant improvements over the previous state-of-the-art methods with our model. Compared to the TDE model, our model improved mR@100 by 70.5% for PredCls, by 84.0% for SGCls, and by 97.6% for SGDet tasks.

Geometric and Semantic Improvement for Unbiased Scene Graph Generation

  • Ruhui Zhang;Pengcheng Xu;Kang Kang;You Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2643-2657
    • /
    • 2023
  • Scene graphs are structured representations that can clearly convey objects and the relationships between them, but are often heavily biased due to the highly skewed, long-tailed relational labeling in the dataset. Indeed, the visual world itself and its descriptions are biased. Therefore, Unbiased Scene Graph Generation (USGG) prefers to train models to eliminate long-tail effects as much as possible, rather than altering the dataset directly. To this end, we propose Geometric and Semantic Improvement (GSI) for USGG to mitigate this issue. First, to fully exploit the feature information in the images, geometric dimension and semantic dimension enhancement modules are designed. The geometric module is designed from the perspective that the position information between neighboring object pairs will affect each other, which can improve the recall rate of the overall relationship in the dataset. The semantic module further processes the embedded word vector, which can enhance the acquisition of semantic information. Then, to improve the recall rate of the tail data, the Class Balanced Seesaw Loss (CBSLoss) is designed for the tail data. The recall rate of the prediction is improved by penalizing the body or tail relations that are judged incorrectly in the dataset. The experimental findings demonstrate that the GSI method performs better than mainstream models in terms of the mean Recall@K (mR@K) metric in three tasks. The long-tailed imbalance in the Visual Genome 150 (VG150) dataset is addressed better using the GSI method than by most of the existing methods.

그래프 신경망과 멀티 모달 맥락 정보를 이용한 장면 그래프 생성 (Scene Graph Generation with Graph Neural Network and Multimodal Context)

  • 정가영;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.555-558
    • /
    • 2020
  • 본 논문에서는 입력 영상에 담긴 다양한 물체들과 그들 간의 관계를 효과적으로 탐지하여, 하나의 장면 그래프로 표현해내는 새로운 심층 신경망 모델을 제안한다. 제안 모델에서는 물체와 관계의 효과적인 탐지를 위해, 합성 곱 신경망 기반의 시각 맥락 특징들뿐만 아니라 언어 맥락 특징들을 포함하는 다양한 멀티 모달 맥락 정보들을 활용한다. 또한, 제안 모델에서는 관계를 맺는 두 물체 간의 상호 의존성이 그래프 노드 특징값들에 충분히 반영되도록, 그래프 신경망을 이용해 맥락 정보를 임베딩한다. 본 논문에서는 Visual Genome 벤치마크 데이터 집합을 이용한 비교 실험들을 통해, 제안 모델의 효과와 성능을 입증한다.

가상현실 기반에서 차량 운전자 거동의 가시화 (Motion Visualization of a Vehicle Driver Based on Virtual Reality)

  • 정윤석;손권;최경현
    • 한국자동차공학회논문집
    • /
    • 제11권5호
    • /
    • pp.201-209
    • /
    • 2003
  • Virtual human models are widely used to save time and expense in vehicle safety studies. A human model is an essential tool to visualize and simulate a vehicle driver in virtual environments. This research is focused on creation and application of a human model fer virtual reality. The Korean anthropometric data published are selected to determine basic human model dimensions. These data are applied to GEBOD, a human body data generation program, which computes the body segment geometry, mass properties, joints locations and mechanical properties. The human model was constituted using MADYMO based on data from GEBOD. Frontal crash and bump passing test were simulated and the driver's motion data calculated were transmitted into the virtual environment. The human model was organized into scene graphs and its motion was visualized by virtual reality techniques including OpenGL Performer. The human model can be controlled by an arm master to test driver's behavior in the virtual environment.

3차원 공간에서 에이전트의 탐색을 통한 장면 그래프 생성 (Scene Graph Generation by Exploration of Agent in Three-Dimensional Space)

  • 신동협;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.742-745
    • /
    • 2018
  • 장면 그래프는 영상 내 물체들의 정보를 나타내는 지식 그래프이다. 본 논문에서는 3차원 공간에서 에이전트의 탐색을 통해, 장면 그래프를 생성하는 모델을 제안한다. 3차원 공간에 대한 장면 그래프는 물체들의 위치, 종류, 속성뿐만 아니라 물체들 간의 관계 정보를 포함한다. 이에 따라 장면 그래프는 다양한 문제 해결에 기초 데이터로써 활용될 수 있다. 본 논문은 장면 그래프를 생성하기 위해 필요한 기능들을 정의하고, 기능에 따라 4가지 부분 네트워크들을 제안한다. 또한 각 부분 네트워크들의 학습 및 성능 평가를 위해, 3차원 실내 가상환경인 AI2-THOR에서 데이터들을 수집하였고, 다양한 실험을 통해 각 부분 네트워크들의 성능을 검증하였다.

가상현실 환경에서 기하학적 음향 기술 기반의 3차원 사운드 모델링 기술에 관한 연구 (A Study of 3D Sound Modeling based on Geometric Acoustics Techniques for Virtual Reality)

  • 김정길
    • 한국위성정보통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.102-106
    • /
    • 2016
  • 스마트 폰의 대중화와 고속 무선 통신 기술의 도움으로 고품질 멀티미디어 콘텐츠가 모바일 기기에서 보편화되고 있다. 특히, Oculus Rift의 출시는 소비자 시장에서 가상현실 기술의 새로운 시대를 열고 있다. 또한 컴퓨터 게임을 보다 사실적 구동을 위한 3D 오디오 기술은 곧 차세대 모바일 기기에 적용될 것이며, 시각적인 것보다 더 광범위한 사실적 경험을 제공 할 것으로 예상된다. 따라서 이 논문에서는 가상현실 기반의 응용 프로그램에서 3D 사운드 모델링을 위한 개념, 알고리즘 및 시스템에 대하여 기술하고자 하며 특히 기하학적 음향 기술 기반의 알고리즘에 초점을 맞추었다. 이를 위하여 먼저, 사운드 전파를 모델링하기 위해 물리적 기반의 기하학적 알고리즘과 다중 채널 기술 중심으로 오디오 렌더링을 위한 중요한 설계 원칙 소개와 오디오 렌더링 파이프 라인을 씬 그래프 기반의 가상 현실 시스템 및 최신 하드웨어 구조 소개를 포함한다.