• 제목/요약/키워드: 의미관계추출

검색결과 544건 처리시간 0.03초

단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법 (Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters)

  • 조승현;이경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병 중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

언어모델에서 엔티티 정보를 이용한 관계 추출 성능 향상 기법 (A Technique for Improving Relation Extraction Performance using Entity Information in Language Model)

  • 허윤아;오동석;황태선;이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-127
    • /
    • 2020
  • 관계 추출은 문장에서 두 개의 엔티티가 주어졌을 때 두 개의 엔티티에 대한 의미적 이해를 통해 관계를 분류하는 작업이다. 이와 같이 관계 추출에서 관계를 분류하기 위해서는 두 개의 엔티티에 대한 정보가 필요하다. 본 연구에서는 관계 추출을 하기 위해 문장에서 엔티티들의 표현을 다르게하여 관계 추출의 성능을 비교 실험하였다. 첫번째로는 문장에서 [CLS] 토큰(Token)으로 관계를 분류하는 Standard 엔티티 정보 표현과 두번째로는 엔티티의 앞과 뒤에 Special Token을 추가하여 관계를 분류하는 Entity-Markers 엔티티 정보 표현했다. 이를 기반으로 문장의 문맥 정보를 학습한 사전 학습(Pre-trained)모델인 BERT-Large와 ALBERT-Large를 적용하여 실험을 진행하였다. 실험 결과 Special Token을 추가한 Entity-Markers의 성능이 높았으며, BERT-Large에서 더 높은 성능 결과를 확인하였다.

  • PDF

가도까와(かどかわ) 시소러스를 이용한 구문관계에서 의미관계로의 사상(寫像) 규칙 (Mapping Rules form Syntactic Relations to Thematic Relations by Using kadokawa(かどかわ) Thesaurus)

  • 박정혜;강신재;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.358-360
    • /
    • 2001
  • 본 논문에서는 의미분석을 위해서 구문관계와 의미관계를 자동으로 사상하는 규칙을 구축한다. 5 만개의 패턴을 수작업으로 사상해서 학습데이터로 만들고 이의 분석을 통해 규칙을 구축했다. 규칙에서는 의미역 결정을 위해서 가도까와 시소러스를 이용하는데, 본 논문에서는 한일 기계번역사전을 이용하여 추출한 구문 패턴을 대상으로 실험한 결과, 정확률 90%, 적용율 93.5%를 얻었다.

  • PDF

설계 의미를 사용한 설계내역의 검색 방법 (Retrieval Method of Software Contents using Design Semantics)

  • 배명남;최완;양재동
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.525-527
    • /
    • 1999
  • 사용자가 저장소내의 특정 내역을 파악하기 위해서는 내역에 대해 다양한 형식과 의미 표현이 필요하다. 이를 위해, 사용자가 사용할 수 있는 기본 연산인 추출 및 관계 함수들을 제공하고 있다. 그러나, 사용자가 부품 저장소내에 내역의 저장 구조를 파악하고, 복잡하게 형식화 되어 있는 내역간의 관계에 대한 요구를 추출 및 관계 함수들의 조합으로 명세하는 것은 매우 어렵다. 따라서, 본 논문에서는 설계 정보 자체와 그들간의 의미 정보들에 대해, 추상화된 인식 모델을 제공하고, 이 모델위에서 내역의 의미 표현에 적합하고, 사용자에게 친숙한 질의어를 제안한다.

  • PDF

개념 공간을 이용한 의미 인덱싱 (Semantic Indexing Using Concept Space)

  • 강보영;김혜정;황선옥;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.380-382
    • /
    • 2003
  • 본 논문은 문서내의 의미적인 관계에 기반하여, 문서의 내용을 보다 잘 추측할 수 있는 의미 인덱스 추출 및 가중치 부여 시스템을 제안하고자 한다. 문서 내의 개념 추출에 있어서는 기존의 어휘 체인(lexical chains)에 관한 연구를 확장하여 적용였다. 또한, 추출된 개념에서 중요 어휘에 가중치를 부여하기 위해서, 개념 벡터 공간을 이용한 정보성(information quantity)과 정보비(information ratio)를 정의하고, 인덱스의 가중치를 측정할 수 있는 정량화 할 수 있는 척도로 제시하였다.

  • PDF

절차지향 SW로부터의 클래스와 상속성 추출에 관한 연구 (A Study on Class and Hierarchy Extraction from Procedural SW)

  • 최정란;박성옥;이문근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.510-512
    • /
    • 2000
  • 절차지향 SW를 객체자향 SW로 변환하면 SW 유지.보수 비용을 수 절감할 수 있으며, 시스템에 새로운 요구를 수용할 수 있게 되는 등 많은 장점을 가지게 된다. 본 논문은 객체지향 SW로 변환과정 중 필요한 클래스와 상속성 추출 방법을 제안하였다. 클래스와 상속성 추출 때 관계를 고려한 의미적인 방법을 제시하였으며 영역 모델과의 비교시 의미적이며 통계적인 방법을 사용하였다. 논문에서 제안한 방법을 사용함으로써 영역 전문가에게 다양한 선택 기회를 제공할 수 있어 의미 있는 코드 생성에 도움을 줄 수 있다.

  • PDF

XML 스키마로부터 관계형 스키마 추출 기법 (Extraction of Relational Schema from XML Schema)

  • 김은욱;민미경
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.351-354
    • /
    • 2002
  • 데이터로서 XML의 의미가 중요해짐에 따라 XML 문서를 저장하는 방법들에 대한 연구가 활발히 진행되고 있다. 그 중 하나가 스키마를 이용하여 XML 문서를 관계형 데이터베이스에 저장하는 것으로서, 지금까지 DTD를 중심으로 연구가 이루어져 왔으나, XML 스키마의 등장으로 DTD의 단점을 보완하고, 기존 관계형 데이터베이스와 보다 유사하게 표현 할 수 있게 되었다. 본 논문에서는 XML 스키마에서 관계형 스키마를 추출하는 기법을 제시한다. 제시된 기법은 DTD에서 관계형 스키마를 추출하는 기법을 기반으로 하여, DTD에서 표현할 수 없는 사용자 정의 데이터형을 추가로 제공하는 등, XML 스키마의 속성과 요소에 따른 여러 특성을 표현할 수 있다.

  • PDF

퍼지 관계 곱을 이용한 정크메일 분류 시스템 (A Junkmail Checking System Using Fuzzy Relational Products)

  • 박정선;김창민;김용기
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 추계학술대회 학술발표 논문집
    • /
    • pp.341-344
    • /
    • 2001
  • 20세기 후반 인터넷의 발전을 기반으로 전자메일은 현재의 대표적인 개인간 정보전달 수단으로 자리 잡게 되었다. 그러나 전자메일 사용자들은 인터넷상에 개인 전자메일 주소가 노출되므로 해서 많은 정크메일(junkmail)을 수신하게 되었는데, 정크메일이란 기업의 광고 선전물과 같이 수신을 원하지 않는 전자메일을 의미한다. 이러한 정크메일의 증가에 따라 정크메일을 분류하는 수단이 필요하게 되었는데, 현재까지는 사용자가 입력한 송신자의 전자메일 주소 또는 도메인 주소를 등록하여 차단하거나 제목에 특정 단어를 포함한 메일을 완전히 삭제하여 버리는 기술수준에 머무르고 있다. 본 논문에서는 퍼지 관계 곱을 기반으로 메일의 내용에 의미적으로 접근하여 정크메일을 분류하는 시스템을 제안한다. 이는 퍼지 관계곱 연산을 이용하여 미리 정의한 정크용어들과 사용자에게 수신되는 전자메일 내의 용어들간 의미적 포함관계를 분석하고 그를 통해 전자메일의 정크도(degree of junk)를 추출한다. 각 전자메일별로 추출된 정크도는 사용자가 부여하는 정크 기준치(SVJ, Standard Value of Junk)를 기분으로 정크메일과 비 정크메일로 분류한다. 제안된 기법은 사용자가 특정 개수의 동일한 전자메일에 대해 느끼는 정크도를 기준으로 분류한 정크메일 수를 비교하여 그 효용성을 증명하였다.

  • PDF

구문분석 말뭉치를 이용한 문법 관계의 선호 체언 어휘와 의미 유형 연구 (A Treebank-Based Approach to Preferred Nominal Words in Grammatical Relations and their Semantic Types)

  • 홍정하
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-41
    • /
    • 2008
  • 이 논문은 각 문법 관계(grammatical relation)에서 선호되는 체언 어휘를 파악하고, 이 어휘들의 의미적 유형 및 그 위계를 파악하는 것이 목적이다. 이를 위해 80만 어절의 21세기 세종계획 구문분석 말뭉치에서 그 분포를 추출하고, 통계적 검증을 통해 각 문법 관계에서 선호되는 체언 어휘를 선별한다. 이 연구에서 관찰하는 문법 관계는 주어, 목적어, 용언수식어로 하며, 이들 문법 관계에서 선호되는 어휘 추출 대상 품사는 대명사, 고유명사, 일반명사로 한다. 한정성의 강도에 따라 주어 분포 경향이 나타나며, 이에 따라 대명사 > 고유명사 > 일반명사 순으로 주어 분포 경향이 나타난다. 그러나 일반적 예측과 다르게 한정성의 강도가 더 강한 것으로 알려진 대명사가 고유명사보다 목적어와 용언수식어에서 분포 경향이 더 강하여, 일반명사 > 대명사 > 고유명사의 순으로 분포 경향이 나타난다. 대명사, 고유명사, 일반명사는 공통적으로 주어에서는 사람 지시어, 목적어에서는 사물과 장소 지시어, 그리고 용언수식어에서는 시공간 표현이 선호되어 분포한다. 특히 대명사는 각 문법기능에서 인칭대명사의 경우 인칭에 따라, 그리고 지시대명사의 경우 원근칭에 따라 선호도의 차이를 보인다. 이러한 체언 어휘의 의미적 분포 특성은 문법 관계에 통사적 기능 외에도 의미적 경향이 반영된 것으로 고려될 수 있다.

  • PDF

이미지 객체로부터 의미 정보 추론 (An Inferencing Semantics from the Image Objects)

  • 김도연;김철원
    • 한국전자통신학회논문지
    • /
    • 제8권3호
    • /
    • pp.409-414
    • /
    • 2013
  • 이미지와 같은 멀티미디어 정보들의 증가로 저수준의 시각 정보에서 고수준의 의미 정보를 추출하는 방법에 대한 연구가 이루어지고 있으며, 이러한 정보를 자동으로 생성하는 다양한 기술들이 연구되고 있다. 그러나 이러한 기술들은 대부분 한 장의 이미지와 이미지 사이의 의미 정보를 추출하므로 이미지내에 여러 객체가 같이 있는 경우 의미 정보를 추출하기 어렵다. 본 논문에서는 이미지내의 객체들을 시각적 특징 정보들을 추출하여 트레이닝 이미지를 DB에 저장하고 유사도를 측정하여 각 객체의 특징들을 정의한다. 이미지내의 각 객체 특징들은 온톨로지로 이용하여 위치 관계와 연관 관계를 추론엔진을 통해 의미 정보를 추론한다. 이로써 이미지내 객체들 사이의 의미 정보 추론이 가능하고, 좀 더 복잡하고 다양한 고수준의 의미 정보를 추론하는 방법을 제안한다.