• 제목/요약/키워드: 트리플 추출

검색결과 39건 처리시간 0.024초

온톨로지 기반의 문서 생성 시스템 (A Document Generation System Based on an Ontology)

  • 류재현;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-316
    • /
    • 2016
  • 온톨로지란 사물이나 개념의 속성이나 관계를 사람과 컴퓨터 모두 이해할 수 있는 형태로 표현한 모델로 정보검색, 인공지능, 소프트웨어 공학 등의 분야에서 많이 활용된다. 온톨로지에는 다양한 정보가 구조화되어 저장되어 있지만 일반적으로 온톨로지가 제공하는 그래프 형태의 데이터들은 사용자들이 직관적으로 이해하기가 힘들다. 따라서 본 논문에서는 온톨로지의 정보를 문장화하여 한국어 문서를 생성하는 시스템을 제안한다. 제안하는 시스템은 주제와 관련된 트리플을 추출하고 이를 문장정렬, 결합, 생성을 위한 정보가 담긴 템플릿을 생성한 뒤 한국어 문법에 맞게 문장을 생성한다. 또한 기존 연구에서 다루지 않았던 이벤트 온톨로지의 내용을 포함하여 문장을 생성한다. 두 온톨로지로부터 생성된 문장을 연결하여 주제어를 설명하는 하나의 문서를 작성한다.

  • PDF

시멘틱 웹 기반의 비교구매 에이전트를 위한 동적 웹 온톨로지 시스템에 대한 연구

  • 김수경;안기홍
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 춘계학술대회
    • /
    • pp.306-315
    • /
    • 2005
  • 기존 전자상거래 플랫폼과 컨텐츠는 데이터의 확장 및 통합이 고려되지 않은 HTML을 중심으로 한 표현 기반 기술로 되어 있고, 각 사이트별로 상품 정보에 대한 분류체계가 상이하여 구매자들이 상품별 비교와 검색에 있어서 많은 시간을 낭비하는 등 많은 문제점을 가지고 있다. 따라서 전자상거래 사이트들 간의 효율적인 정보 공유의 필요성이 제기 되고 있다. 또한 정보의 공유가 어려운 기술로 인하여 판매자와 구매자들의 다양한 요구를 만족시키지 못하고 있다. 그러므로 본 논문에서는 최근 차세대 웹기술로 각광받고 있는 시맨틱 웹 기반 기술인 RDF/RDFS를 이용하여 기존의 상점에 제시된 상품정보를 Wrapper 기술을 이용하여 필요한 정보만을 추출한 뒤, 이것을 기반으로 RDF 트리플과 문서로 생성한다. 상품 정보에 대한 온톨로지를 설계한 뒤 이를 Web Ontology Language (OWL)를 사용하여 상품 지식 기반 온톨로지를 구축하고, 이를 RDF 트리플과 문서와의 분석과 매칭을 통하여 이종의 상점에 표현된 상품들을 실시간으로 비교 검색하고 동적으로 상품에 대한 지식 기반 온톨로지를 생성하는 웹 온톨로지 시스템을 설계 제안하였다.

  • PDF

한국어 디비피디아의 자동 스키마 진화를 위한 방법 (A method of Automatic Schema Evolution on DBpedia Korea)

  • 김선동;강민서;이재길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.741-744
    • /
    • 2014
  • 디비피디아 온톨로지는 위키피디아에서 구조화된 데이터를 추출한 지식 베이스이다. 이러한 지식 베이스의 자동 증강은 웹을 구조화하는 속도를 증가시키는데 큰기여를 할 수 있다. 본 연구에서는 한국어 디비피디아를 기반으로 새로운 트리플을 입력받아 기존의 지식 베이스를 자동 증강시키는 시스템을 소개한다. 스키마를 자동 증강하는 두 가지 알고리즘은 최하위 레벨인 인스턴스가 지닌 프로퍼티, 즉 rdf-triple 단위에서 진행되었다. 알고리즘을 사용한 결과 첫째, 확률적 격상 방법을 통해 단계별로 입력받는 인스턴스와 하위 클래스의 프로퍼티를 이용하여 상위 클래스의 스키마가 정교해졌다. 둘째, 이를 바탕으로 타입 분류가 되어 있지 않았던 인스턴스들이 가장 가까운 타입에 자동 분류되었다. 지식 베이스가 정교해지면서 재분류된 인스턴스와 새로운 트리플셋을 바탕으로 두 가지 알고리즘은 반복적으로 작동하며, 한국어 디비피디아 지식 베이스의 자동 증강을 이루었다.

구문 분석 결과를 이용한 한국어 무제한 정보추출 (A Syntax-Based Hybrid System for Korean Open Information Extraction)

  • 김병수;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-45
    • /
    • 2015
  • 무제한 정보추출은 주로 영어를 대상으로 연구가 진행 되었지만, 최근에는 영어가 아닌 다른 언어에 대한 적용이 시도되고 있다. 본 논문에서는 관계 어휘의 유형을 동사형과 명사형 2가지로 정의하고, 각 유형별로 구문 분석 결과 기반의 서로 다른 방법론을 적용하는 한국어 대상 무제한 정보추출 시스템을 소개한다. 동사형 관계 어휘에 대해서는 의존 관계 기반의 추출 규칙을 적용하고, 명사형 관계 어휘에 대해서는 대량의 말뭉치로부터 자동으로 학습한 의존 관계 구조 기반의 추출 패턴을 적용한다. 임의의 100개 문장에 대해서 수행한 결과는 산출된 전체 트리플에 대해 0.8이상의 정밀도를 보임으로써 본 논문에서 제안하는 방법의 효용성을 증명하였다.

  • PDF

TripleDiff: 트리플 저장소에서 RDF 문서에 대한 점진적 갱신 알고리즘 (TripleDiff: an Incremental Update Algorithm on RDF Documents in Triple Stores)

  • 이태휘;김기성;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.476-485
    • /
    • 2006
  • 시멘틱 웹(semantic web)과 함께 등장한 RDF는 웹 상의 메타데이타 및 데이타를 나타내는 표준으로 자리매김 하고 있다. 이에 따라 RDF에 대한 저장 및 질의 처리에 대한 연구가 많이 이루어졌으며, 대표적인 시스템으로 Sesame, Jena 등이 있다. 그러나 아직 갱신 방법에 대한 연구는 부족하다. RDF 데이타가 지속적으로 갱신이 이루어지는 경우에는 저장된 RDF를 갱신해야 하는 상황이 발생한다. 현존하는 RDF 저장소에서 데이타를 갱신하기 위해서는 기존의 데이타를 모두 삭제한 후 새로운 데이타를 처음부터 다시 저장해야 하는데, 이러한 상황에서는 매우 비효율적이다. 또한 한 RDF 저장소에 여러 RDF가 저장되어 있는 경우에는 갱신 문제가 더욱 복잡해진다. 이에 본 논문에서는 RDF 데이타를 점진적으로 갱신하는 기법을 제안하고자 한다. 제안한 기법은 텍스트 비교 알고리즘을 통해 얻은 결과를 보완하여 기존 RDF 데이타에서 변화된 트리플 문장만을 추출하여 갱신한다. 실제 RDF 데이터를 이용한 실험을 통해 제안한 방법을 사용하여 갱신을 효율적으로 할 수 있음을 보였다.

스마트 홈을 위한 컨텍스트 모델링

  • 김강석;송왕철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 공동추계학술대회
    • /
    • pp.193-196
    • /
    • 2005
  • 스마트 홈은 유비쿼터스 환경의 각종 센서와 정보 가전에서 얻어지는 데이터에서 사용자의 Context를 추출하여 사용자에게 적응적인 서비스를 제공한다. 본 논문에서는 유비쿼터스 컴퓨팅 환경의 스마트 홈에서 거주자 중심의 정태적, 통태적 컨텍스트 정보를 표현하기 위한 요구사항을 분석하고 이러한 요구 사항을 만족하기 위한 트리플 구조 기반의 컨텍스트 모델을 제안한다. 제안한 스마트 홈을 위한 컨텍스트 모델은 표현력이 강력하고, 확정이 쉽고, 재사용이 가능하며 개인화된 서비스를 위한 추론에 용이한 정보 구조를 제공한다.

  • PDF

소셜미디어 기반 의사결정 지원을 위한 이벤트 템플릿 추출 (Event Template Extraction for the Decision Support based on Social Media)

  • 허정;류법모;최윤재;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.53-57
    • /
    • 2012
  • 본 논문은 소셜 미디어 기반 의사결정 지원 시스템인 '소셜위즈덤'에 포함된 이벤트 템플릿 추출에 대해서 소개한다. 의사결정 지원 시스템은 경제적, 사회적 중요사항을 결정할 수 있도록 관련 정보와 인사이트(Insight)를 제공하는 정보시스템을 이른다. 기존 시스템은 단지 특정 키워드 빈도나 공기하는 키워드들의 관계만을 제공하였다. 그러나, 소셜위즈덤은 이벤트로 정의되는 주체(Subject), 이벤트 속성(Event-Property), 객체(Object)의 트리플(Triple) 집합인 템플릿을 추출하여 이를 기반으로 이벤트 정보를 함께 제공한다. 템플릿 추출은 고정밀 언어분석의 관계추출 기술과 온톨로지에 기반한 템플릿 제약 및 필터링 규칙을 이용하였다. 수작업으로 구축한 평가데이터로 평가한 결과, 템플릿 추출 성능(F-Score)은 뉴스 0.544, 블로그 0.3386, 트위터 0.3251이고 전체 통합 성능은 0.4648이었다. 필터링 성능(Accuracy)은 뉴스 0.7257, 블로그 0.6122, 트위터 0.6207이고 전체 통합 성능은 0.722이었다.

  • PDF

언급 특질을 이용한 Bi-LSTM 기반 한국어 상호참조해결 종단간 학습 (Korean Co-reference Resolution End-to-End Learning using Bi-LSTM with Mention Features)

  • 신기연;한기종;이민호;김건태;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.247-251
    • /
    • 2018
  • 상호참조해결은 자연언어 문서 내에서 등장하는 명사구 언급(mention)과 이에 선행하는 명사구 언급을 찾아 같은 개체인지 정의하는 문제이다. 특히, 지식베이스 확장에 있어 상호참조해결은 언급 후보에 대해 선행하는 개체의 언급이 있는지 판단해 지식트리플 획득에 도움을 준다. 영어권 상호참조해결에서는 F1 score 73%를 웃도는 좋은 성능을 내고 있으나, 평균 정밀도가 80%로 지식트리플 추출에 적용하기에는 무리가 있다. 따라서 본 논문에서는 한국어 문서에 대해 영어권 상호참조해결 모델에서 사용되었던 최신 모델인 Bi-LSTM 기반의 딥 러닝 기술을 구현하고 이에 더해 언급 후보 목록을 만들어 개체명 유형과 경계를 적용하였으며 품사형태를 붙인 토큰을 사용하였다. 실험 결과, 문자 임베딩(Character Embedding) 값을 사용한 경우 CoNLL F1-Score 63.25%를 기록하였고, 85.67%의 정밀도를 보였으며, 같은 모델에 문자 임베딩을 사용하지 않은 경우 CoNLL F1-Score 67.92%와 평균 정밀도 77.71%를 보였다.

  • PDF

온톨로지 파싱 속도향상을 위한 온톨로지 파서 설계 (Ontology Parser Design for Speed Improvement of Ontology Parsing)

  • 김원필;공현장
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.96-101
    • /
    • 2010
  • 시맨틱 웹에서 핵심 연구는 온톨로지 파싱의 효율성이다. 온톨로지의 효율적 파싱과 추론은 시맨틱 웹의 궁극적인 목적인 의미적인 정보검색의 기반이 된다. 그러나 기존의 온톨로지 저작도구들은 온톨로지 파싱속도에 있어 효율적이지 못하고 있는 실정이다. 따라서, 본 연구에서는 온톨로지가 기술하는 모든 사실을 빠르게 추출하기 위해 2단계에 걸친 온톨로지 파서를 설계 하였다. 정확하고 빠른 파서의 설계를 위해 토큰 추출기에서 온톨로지의 구문의 토큰을 1단계로 추출하고, 이를 바탕으로 트리플 추출기에서 Statement를 추출한다. 이에 본 연구에서 설계한 파서의 속도는 기존의 도구들의 파서보다 빠른 처리가 이루어 짐을 확인할 수 있었다.

대용량 RDF 데이터의 효율적인 저장방법과 SPARQL 기반 검색방안 연구 (Efficient Storing and SPARQL Search Scheme for Large Scale RDF Data)

  • 오상윤;박지훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.195-197
    • /
    • 2016
  • 시멘틱웹을 구축하는 표준언어인 RDF (Resource Description Framework)는 언어의 그래프 기반 특성으로 인해 일반적인 방식들로는 효과적인 저장과 추출이 어렵다. 더욱이 대용량 RDF 데이터의 저장과 추출에는 성능문제가 더욱 커지므로 많은 연구들이 이루어지고 있다. 본 논문에서는 SPARQL을 지원하면서 RDF 파일들을 효과적으로 저장하고 검색할 수 있는 저장방식에 대해 연구한 결과를 제시한다. RDF 데이터를 전처리를 통해 RDF의 트리플(주어:subject, 술어:property, 목적어:Object)에서 중복되는 주어(S)나 목적어(O)를 묶고, 사용자가 SPARQL 형식으로 검색했을 때 이용자가 주어부분을 변수로 두었는지 아니면 서술어 부분을 변수로 두어 찾는지에 따라 검색어와 유사한 단어 클러스터를 찾아준다. 동일 단어에 대해 여러 번 검색되던 부분을 한 번 검색으로 처리할 수 있기 때문에 효율이 높아진다.

  • PDF