• 제목/요약/키워드: Triples Extraction

검색결과 6건 처리시간 0.019초

Grammatical Structure Oriented Automated Approach for Surface Knowledge Extraction from Open Domain Unstructured Text

  • Tissera, Muditha;Weerasinghe, Ruvan
    • Journal of information and communication convergence engineering
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2022
  • News in the form of web data generates increasingly large amounts of information as unstructured text. The capability of understanding the meaning of news is limited to humans; thus, it causes information overload. This hinders the effective use of embedded knowledge in such texts. Therefore, Automatic Knowledge Extraction (AKE) has now become an integral part of Semantic web and Natural Language Processing (NLP). Although recent literature shows that AKE has progressed, the results are still behind the expectations. This study proposes a method to auto-extract surface knowledge from English news into a machine-interpretable semantic format (triple). The proposed technique was designed using the grammatical structure of the sentence, and 11 original rules were discovered. The initial experiment extracted triples from the Sri Lankan news corpus, of which 83.5% were meaningful. The experiment was extended to the British Broadcasting Corporation (BBC) news dataset to prove its generic nature. This demonstrated a higher meaningful triple extraction rate of 92.6%. These results were validated using the inter-rater agreement method, which guaranteed the high reliability.

심층 신경망을 활용한 진료 기록 문헌에서의 종단형 개체명 및 관계 추출 비교 연구 - 파이프라인 모델과 결합 모델을 중심으로 - (A Comparative Research on End-to-End Clinical Entity and Relation Extraction using Deep Neural Networks: Pipeline vs. Joint Models)

  • 최성필
    • 한국문헌정보학회지
    • /
    • 제57권1호
    • /
    • pp.93-114
    • /
    • 2023
  • 정보추출은 문헌 내에 존재하는 개체명을 인식함과 동시에 이들 간의 의미적 관계까지도 식별하여 최종적으로 문헌 내에 포함된 의미적 트리플을 자동으로 추출하여 활용할 수 있으므로 문헌에 대한 심층적인 분석과 이해에 많은 도움을 줄 수 있다. 그러나 지금까지 대부분의 정보추출에 대한 연구는 개체명 인식과 관계추출이 개별 연구로 각각 분리되어 진행되었으며, 그 결과 입력 문헌에 대한 정보추출의 최종 출력인 의미적 트리플 추출 성능에 대한 객관적이고 정확한 평가가 제대로 이루어지지 않았다. 이에 본 논문에서는 진료 기록 문헌에 나타나는 개체명과 그들 간의 관계를 트리플 형태로 직접 추출할 수 있는 종단형 정보추출의 2가지 모델인 파이프라인 및 결합형 모델을 구축하는 구체적인 방법론을 제시하고 성능 비교 실험을 진행하였다. 우선 파이프라인 모델은 양방향 GRU-CRFs를 활용한 개체명 인식 모듈과 다중 인코딩 기반 관계추출 모듈로 구현되었고, 결합형 모델을 위해서는 다중 헤드 레이블링 기반의 양방향 GRU-CRFs이 적용되었다. 두 가지 시스템을 바탕으로 진료기록 문헌 내의 개체명과 관계를 모두 태깅하여 구축된 i2b2/VA 2010 데이터셋을 활용한 비교 실험에서 파이프라인 모델의 성능이 5.5%(F-measure) 더 높게 나타났다. 추가적으로, 대규모 신경망 언어모델과 수작업으로 구축된 자질 정보를 활용한 최고 수준의 기존 시스템과의 비교 실험을 통해, 본 논문에서 구현한 종단형 모델의 객관적인 성능 수준을 파악할 수 있었다.

정보추출결과의 시각화 표현방법에 관한 이용성 평가 연구 (A Usability Evaluation on the Visualization of Information Extraction Output)

  • 이지연
    • 한국문헌정보학회지
    • /
    • 제39권2호
    • /
    • pp.287-304
    • /
    • 2005
  • 이 연구의 목적은 자동적으로 추출된 정보를 시각화 브라우저를 통해 표현하고 접근하는 방법에 대해 이용성평가를 수행하는 것이다. 특정 주제 분야에 국한되지 않는 정보추출시스템을 사용하여 신문기사에서 의미정보를 자동 추출하였고, 그 결과로 시각적으로 브라우저 할 수 있는 지식베이스를 구축하였다. 이 연구에 이용된 정보추출시스템은 신문기사의 텍스트정보로부터 다양한 자연언어처리 기술을 적용하여 개념-관계-개념의 형태로 표현되는 정보를 자동적으로 추출하였다. 지식베이스에 저장된 정보를 시각적으로 표현하는 시각화 브라우저를 구현하였는데, 이때 인터페이스 부분은 쌍곡면형 정보시각화 시스템의 하나인 PersonalBrain을 이용하여 개발하였다. PersonalBrain을 이용하면 표현하고자 하는 정보를 논리관계의 네트워크 형태로 연결할 수 있다. 지식베이스 정보의 시각화 접근방법에 대하여 15명의 이용자를 대상으로 질적 평가를 수행하였다. IS명의 연구대상자로 하여금 시각화 브라우저를 이용하도록 하고 관찰과 인터뷰를 통하여 이용성평가 데이터를 수집하였다. 내용분석결과, 이용자들은 정보추출결과의 시각화 브라우저 이용가능성에 대해 긍정적인 반응을 보인 동시에 몇 가지 이용성 관련 문제점을 지적하였다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

지식베이스를 이용한 작업자 증상 기반 화학물질 추정 시스템 설계 (Worker Symptom-based Chemical Substance Estimation System Design Using Knowledge Base)

  • 주용택;이동훈;신은지;유상우;신동일
    • 한국가스학회지
    • /
    • 제25권3호
    • /
    • pp.9-15
    • /
    • 2021
  • 본 논문에서는 산업현장 화학물질 인체 접촉 증상 기반 지식베이스 구축 및 화학물질 추정 시스템 설계에 대한 연구이다. 미국NIH에서 제공하는 WISER 프로그램의 499개의 화학물질 접촉 증상 정보로 활용하였다. 지식베이스 구축을 위해 AllegroGraph 7.0.1 프로그램을 이용하였으며 입력된 Chemical structure로 Triple 값인 Cas No., Synonyms, Symptom, SMILES, InChl, Formula를 사용 하였다. 또한 작업자의 증상을 안내하는 방법은 AI 스피커를 활용한 방식이 가능하며 지식베이스 구축 결과 암모니아(CAS No: 7664-41-7)를 기준으로 39개의 증상이 WISER 프로그램과 동일함을 확인 하였다. 이를 통해 화학물질 추정 시스템의 증상 추출 과정에 지식베이스 구축이 가능하였다.

확장 IFC-BIM 기반 정보모델과 온톨로지를 활용한 교량 점검데이터 관리방법 (Integration of Extended IFC-BIM and Ontology for Information Management of Bridge Inspection)

  • 에르데네 호빌라이;권태호;이상호
    • 한국전산구조공학회논문집
    • /
    • 제33권6호
    • /
    • pp.411-417
    • /
    • 2020
  • Building Information Modeling(BIM)기술을 유지관리 단계에서 활용하기 위해서는 상당량의 유지관리 데이터와 BIM기반 정보모델 객체들이 연계되어 운용되어야 한다. 본 연구에서는 교량 점검데이터를 표현하기 위해 확장된 IFC기반의 BIM모델과 온톨로지를 연계하여 정보를 관리하는 방법을 제시하였다. 이를 위해 현재의 IFC버전은 교량 객체를 제대로 표현할 수 없기 때문에 교량을 위한 IFC엔티티를 확장하였으며, 확장된 IFC기반의 정보모델을 생성하는 방법을 제시하였다. 또한, 교량 점검데이터에 대한 기본 개념을 추출하고, 교량 점검데이터를 위한 온톨로지(Ontology)를 생성하였다. 추출된 기본 개념들은 제시된 온톨로지에서 시멘틱 웹의 트리플(Triple) 방식으로 관계를 형성되었다. 마지막으로, 생성된 IFC기반의 BIM모델은 제시된 온톨로지와의 통합을 위하여 시멘틱 데이터 형식으로 변환되었다. 확장된 IFC기반 BIM모델은 제시된 교량 점검데이터 관리를 위한 온톨로지와 통합되었고, 실제 교량 점검데이터를 기반으로 테스트모델을 생성하였다. SPARQL query를 통해 목적에 맞는 교량 점검데이터가 추출됨을 확인하여 실효성을 검증하였다.