• Title/Summary/Keyword: 그래프 데이터 셋

Search Result 46, Processing Time 0.024 seconds

$\mathcal{K}o$-ATOMIC: Korean Commonsense Knowledge Graph ($\mathcal{K}o$-ATOMIC: 일반 상식 기반의 한국어 지식 그래프)

  • Jaewook Lee;Jaehyung Seo;Seungjun Lee;Chanjun Park;Aiyanyo Imatitikua Danielle;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.412-417
    • /
    • 2022
  • 일반 상식 기반의 지식 그래프는 대규모 코퍼스에 포함되어 있는 일반 상식을 그래프로 표현하여, 자연어 처리의 하위 작업들에 적용할 수 있도록 하는 구조화된 지식 표현 방법이다. 현재 가장 잘 알려진 일반 상식 기반의 지식 그래프로는 ATOMIC [1]이 있다. 하지만 한국어를 주요 언어로 하는 일반 상식 기반의 지식 그래프에 대한 연구는 아직 활발하지 않다. 따라서 본 연구에서는 기존에 존재하는 영어 기반의 지식 그래프와 일반 상식 기반의 한국어 데이터셋을 활용해서 한국어 일반 상식 기반 지식 그래프를 구축하는 방법론을 제시한다. 또한, 제작한 지식 그래프를 평가하여 구축하는 방법론에 대한 타당성을 검증한다.

  • PDF

Korean AMR Parsing using Graph⇋Sequence Iterative Inference (그래프⇋시퀀스의 반복적 추론을 이용한 한국어 AMR 파싱)

  • Min, Jinwoo;Na, Seung-Hoon;Choe, Hyonsu;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.211-214
    • /
    • 2020
  • Abstract Meaning Representation(AMR)은 문장의 의미를 그래프 구조로 인코딩하여 표현하는 의미 형식표현으로 문장의 각 노드는 사건이나 개체를 취급하는 개념으로 취급하며 간선들은 이러한 개념들의 관계를 표현한다. AMR 파싱은 주어진 문장으로부터 AMR 그래프를 생성하는 자연어 처리 태스크이다. AMR 그래프의 각 개념은 추상 표현으로 문장 내의 토큰과 명시적으로 정렬되지 않는 어려움이 존재한다. 이러한 문제를 해결하기 위해 별도의 사전 학습된 정렬기를 이용하여 해결하거나 별도의 정렬기 없이 Sequence-to-Sequence 계열의 모델로 입력 문장으로부터 그래프의 노드를 생성하는 방식으로 연구되어 왔다. 본 논문에서는 문장의 입력 시퀀스와 부분 생성 그래프 사이에서 반복 추론을 통해 새로운 노드와 기존 노드와의 관계를 구성하여 점진적으로 그래프를 구성하는 모델을 한국어 AMR 데이터 셋에 적용하여 Smatch 점수 39.8%의 실험 결과를 얻었다.

  • PDF

A Virtual Battlefield Situation Dataset Generation for Battlefield Analysis based on Artificial Intelligence

  • Cho, Eunji;Jin, Soyeon;Shin, Yukyung;Lee, Woosin
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.6
    • /
    • pp.33-42
    • /
    • 2022
  • In the existing intelligent command control system study, the analysis results of the commander's battlefield situation questions are provided from knowledge-based situation data. Analysis reporters write these results in various expressions of natural language. However, it is important to analyze situations about information and intelligence according to context. Analyzing the battlefield situation using artificial intelligence is necessary. We propose a virtual dataset generation method based on battlefield simulation scenarios in order to provide a dataset necessary for the battlefield situation analysis based on artificial intelligence. Dataset is generated after identifying battlefield knowledge elements in scenarios. When a candidate hypothesis is created, a unit hypothesis is automatically created. By combining unit hypotheses, similar identification hypothesis combinations are generated. An aggregation hypothesis is generated by grouping candidate hypotheses. Dataset generator SW implementation demonstrates that the proposed method can be generated the virtual battlefield situation dataset.

Similarity-based methods or conventional ones, which is better for graph embedding?

  • Jin-Su Ryu;Masoud Rehyani Hamedani;Sang-Wook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.442-444
    • /
    • 2023
  • 그래프 임베딩 방법은 그래프 구조를 이용하여 그래프의 노드를 저차원 임베딩 공간에서 벡터로 매핑하여 각 노드를 벡터로 표현하는 것을 목표로 한다. 다양한 방법들이 제시되었지만 기존의 방법들은 그래프에서 노드 간의 유사성을 잘 보존할 수 없어 다양한 기계 학습에 대해 부정확한 벡터를 생성하였다. 이러한 문제를 해결하기 위해 노드 사이의 유사성을 이용한 방법이 제안되었다. 본 논문에서, 우리는 여섯 가지 실세계 데이터셋을 사용하여 세 가지 기계 학습 작업시 그래프 임베딩 방법들의 성능을 비교하여 유사성 기반의 그래프 임베딩 방법의 우수성을 확인했다.

Exploiting Query Proximity and Graph Profiling Method for Tag-based Personalized Search in Folksonomy (질의어의 근접성 정보 및 그래프 프로파일링 기법을 이용한 태그 기반 개인화 검색)

  • Han, Keejun;Jang, Jincheul;Yi, Mun Yong
    • Journal of KIISE
    • /
    • v.41 no.12
    • /
    • pp.1117-1125
    • /
    • 2014
  • Folksonomy data, which is derived from social tagging systems, is a useful source for understanding a user's intention and interest. Using the folksonomy data, it is possible to create an accurate user profile which can be utilized to build a personalized search system. However there are limitations in some of the traditional methods such as Vector Space Model(VSM) for user profiling and similarity computation. This paper suggests a novel method with graph-based user and document profile which uses the proximity information of query terms to improve personalized search. We demonstrate the performance of the suggested method by comparing its performance with several state-of-the-art VSM based personalization models in two different folksonomy datasets. The results show that the proposed model constantly outperforms the other state-of-the-art personalization models. Furthermore, the parameter sensitivity results show that the proposed model is parameter-free in that it is not affected by the idiosyncratic nature of datasets.

Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology (반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축)

  • Yoon, Jeong-Woo;Hwang, Chang-Hoe;Choi, Su-Won;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF

Processing Sliding Window Multi-Joins using a Graph-Based Method over Data Streams (데이터 스트림에서 그래프 기반 기법을 이용한 슬라이딩 윈도우 다중 조인 처리)

  • Zhang, Liang;Ge, Jun-Wei;Kim, Gyoung-Bae;Lee, Soon-Jo;Bae, Hae-Young;You, Byeong-Seob
    • Journal of Korea Spatial Information System Society
    • /
    • v.9 no.2
    • /
    • pp.25-34
    • /
    • 2007
  • Existing approaches that select an order for the join of three or more data streams have always used the simple heuristics. For their disadvantage - only one factor is considered and that is join selectivity or arrival rate, these methods lead to poor performance and inefficiency In some applications. The graph-based sliding window multi -join algorithm with optimal join sequence is proposed in this paper. In this method, sliding window join graph is set up primarily, in which a vertex represents a join operator and an edge indicates the join relationship among sliding windows, also the vertex weight and the edge weight represent the cost of join and the reciprocity of join operators respectively. Then the optimal join order can be found in the graph by using improved MVP algorithm. The final result can be produced by executing the join plan with the nested loop join procedure, The advantages of our algorithm are proved by the performance comparison with existing join algorithms.

  • PDF

Implementation of Topic Classifier for University News-based BI Analysis (대학 BI 분석을 위한 주제분류기의 구현)

  • Jang, Seo-Yoon;Jang, Hyeon-Yeong;Cha, Chae-Won
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.23-25
    • /
    • 2021
  • 본 논문에서는 대학별 홍보 전략, 발전에 기여하기 위한 서비스를 제안한다. 이 서비스는 데이터 수집에는 크롤링을 사용하고 사이킷 런을 사용하여 정확도를 최대화하고, 각 분류된 카테고리의 오류을 최소화한다. 이 서비스는 각 카테고리별로 특성이 높은 키워드를 사용하여 카테고리 별 학습 데이터셋을 생성한 후 이러한 학습 데이터셋을 바탕으로 각 기사들을 최적의 카테고리로 분류해주는 분류기를 구현한다. 이러한 분류기를 사용하여 분류된 기사들을 분석하여 막대 그래프 등의 시각화된 자료들로 볼 수 있도록 하여 기존의 대학 홍보 자료에 비해 누구든 쉽고 간단하게 접근이 가능하도록 한다.

  • PDF

Automatic Change Detection Based on Areal Feature Matching in Different Network Data-sets (이종의 도로망 데이터 셋에서 면 객체 매칭 기반 변화탐지)

  • Kim, Jiyoung;Huh, Yong;Yu, Kiyun;Kim, Jung Ok
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.31 no.6_1
    • /
    • pp.483-491
    • /
    • 2013
  • By a development of car navigation systems and mobile or positioning technology, it increases interest in location based services, especially pedestrian navigation systems. Updating of digital maps is important because digital maps are mass data and required to short updating cycle. In this paper, we proposed change detection for different network data-sets based on areal feature matching. Prior to change detection, we defined type of updating between different network data-sets. Next, we transformed road lines into areal features(block) that are surrounded by them and calculated a shape similarity between blocks in different data-sets. Blocks that a shape similarity is more than 0.6 are selected candidate block pairs. Secondly, we detected changed-block pairs by bipartite graph clustering or properties of a concave polygon according to types of updating, and calculated Fr$\acute{e}$chet distance between segments within the block or forming it. At this time, road segments of KAIS map that Fr$\acute{e}$chet distance is more than 50 are extracted as updating road features. As a result of accuracy evaluation, a value of detection rate appears high at 0.965. We could thus identify that a proposed method is able to apply to change detection between different network data-sets.

Dialogue Relation Extraction using Dialogue Graph (상호참조 정보와 대화 그래프를 활용한 대화 관계추출 모델)

  • Jungwoo Lim;Junyoung Son;Jinsung Kim;Yuna Hur;Jaehyung Seo;Yoonna Jang;JeongBae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.385-390
    • /
    • 2022
  • 관계추출은 문서 혹은 문장에서 자동으로 엔티티들간의 관계를 추출하는 기술로, 비정형 데이터를 정형데이터로 변환하기에 자연어 처리 중에서도 중요한 분야중 하나이다. 그 중에서도 대화 관계추출은 기존의 문장 단위의 관계추출과는 다르게 긴 길이에 비해 적은 정보의 양, 빈번하게 등장하는 지시대명사 등의 특징을 가지고 있어 주어와 목적어 사이의 관계를 예측하기에 어려움이 있었다. 본 연구에서는 이러한 어려움을 극복하기 위해 대화의 특성을 고려한 대화 그래프를 구축하고 이를 이용한 모델을 제안한다. 제안하는 모델은 상호참조 정보와 문맥정보를 더 반영한 그래프를 통해 산발적으로 퍼져있는 정보를 효율적으로 수집하고, 지시대명사로 인해 어려워진 중요 발화 파악 능력을 증진시켰다. 또한 이를 실험적으로 보이기 위하여 대화 관계추출 데이터셋에 실험해본 결과, 기존 베이스라인 보다 약 10 % 이상의 높은 F1점수를 달성하였다.

  • PDF