• 제목/요약/키워드: 트리플 그래프

검색결과 24건 처리시간 0.017초

맵리듀스 잡을 사용한 해시 ID 매핑 테이블 기반 대량 RDF 데이터 변환 방법 (Conversion of Large RDF Data using Hash-based ID Mapping Tables with MapReduce Jobs)

  • 김인아;이규철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.236-239
    • /
    • 2021
  • AI 기술의 성장과 함께 지식 그래프의 크기는 지속적으로 확장되고 있다. 지식 그래프는 주로 트리플이 연결된 RDF로 표현되며, 많은 RDF 저장소들이 RDF 데이터를 압축된 형태의 ID로 변환한다. 그러나 RDF 데이터의 크기가 특정 기준 이상으로 클 경우, 테이블 탐색으로 인한 높은 처리 시간과 메모리 오버헤드가 발생한다. 본 논문에서는 해시 ID 매핑 테이블 기반 RDF 변환을 분산 병렬 프레임워크인 맵리듀스에서 처리하는 방법을 제안한다. 제안한 방법은 RDF 데이터를 정수 기반 ID로 압축 변환하면서, 처리 시간을 단축하고 메모리 오버헤드를 개선한다. 본 논문의 실험 결과, 약 23GB의 LUBM 데이터에 제시한 방법을 적용했을 때, 크기는 약 3.8배 가량 줄어들었으며 약 106초의 변환 시간이 소모되었다.

  • PDF

RDF 웹 문서의 부분적인 정보 은닉과 관련한 접근 권한 충돌 문제의 분석 (Analysis of Access Authorization Conflict for Partial Information Hiding of RDF Web Document)

  • 김재훈;박석
    • 정보보호학회논문지
    • /
    • 제18권2호
    • /
    • pp.49-63
    • /
    • 2008
  • RDF는 W3C의 시맨틱 웹에서 사용하는 기본적인 온톨로지 모델이다. 그리고 더욱 다양한 온톨로지 관계를 정의하는 OWL은 이러한 RDF 기본 모델을 확장한 것이다. 최근 Jain과 Farkas는 RDF에 대한 RDF 트리플에 기반을 둔 접근 제어 모델을 제시하였다. 그들 연구의 초점은 RDF 온톨로지 데이터에서 고려해야 하는 추론에 의한 접근 권한 충돌 문제를 소개한 것이다. 비록 RDF 모델이 XML로 표현되지만, 기존의 XML 접근 제어 모델을 RDF에 적용하기 어려운 것이 바로 이러한 RDF 추론 때문이다. 하지만, Jain과 Farkas는 그들의 연구에서 먼저 RDF 접근 권한 명세시의 권한 전파가 RDF 상/하위 온톨로지 개념에 대하여 어떻게 이루어지는 지를 정의하고 있지 않다. 이것이 중요한 이유는 추론에 의한 권한 충돌의 문제는 결국 권한 명세시의 권한 전파와 권한 추론시의 권한 전파 사이에서의 충돌 문제이기 때문이다. 본 논문에서는 먼저 RDF 트리플에 기반을 둔 RDF 접근 권한 명세 모델에 대하여 자세히 소개한다. 다음으로 이러한 모델을 바탕으로 RDF 추론 시의 권한 충돌 문제를 자세히 분석한다. 다음으로 권한 명세시의 권한 충돌 여부를 신속히 조사하기 위하여 포함 관계 추론과 관련한 그래프 레이블링 기법을 이용하는 방법을 간략히 소개한다. 마지막으로 Jain과 Farkas 연구와의 비교 및 제안된 충돌 발견 알고리즘의 효율성을 보이는 몇 가지 실험 결과를 제시한다.

내포된 공노드를 포함하는 RDF 문서의 변경 탐지 기법 (A Change Detection Technique Supporting Nested Blank Nodes of RDF Documents)

  • 이동희;임동혁;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.518-527
    • /
    • 2007
  • RDF 문서들은 빈번히 갱신이 발생하므로 RDF 문서간의 변경부분을 찾아내는 것은 중요한 관심사가 된다. RDF 문서 내에 공노드가 존재할 경우 변경부분을 탐지해내려면 공노드간의 매칭을 지원하는 기법이 필요하다. RDF 문서에서 공노드는 내포된 형태로 존재하며 실제 사용되는 RDF 문서 대부분이 공노드를 포함하고 있다. RDF 문서를 그래프로 모델링하면 하나의 문서는 여러 개의 트리로 나누어진다. 따라서 문서간의 변경탐지는 동일한 루트를 가지는 트리간의 최소 비용 매칭 문제로 생각할 수 있다. 본 논문에서는 공노드에 대한 레이블링 기법을 기용하여 내포된 공노드를 포함한 RDF문서의 변경탐지 기법을 제안한다. 또한 공노드가 아닌 일반 트리플들의 비교에 있어서도 효율성을 높이는 술어 그룹화와 분할 기법을 제안한다. 실험을 통해 제안한 기법이 기존의 방법보다 더 정확하며 효율적임을 보였다.

반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축 (Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology)

  • 윤정우;황창회;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF