• Title/Summary/Keyword: 의미베이스

Search Result 336, Processing Time 0.022 seconds

워드넷의 의미 관계 집합을 이용한 온톨로지 매핑 (Ontology Mapping using Semantic Relationship Set of the WordNet)

  • 곽정애;용환승
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권6호
    • /
    • pp.466-475
    • /
    • 2009
  • 다양한 온톨로지 개발로 온톨로지간에 정보공유와 재사용이 필요하게 되면서 온톨로지 매핑에 관련된 연구가 활발이 이루어지고 있다. 온톨로지 매핑 기법으로는 어휘 유사성, 구조 유사성, 인스턴스 유사성, 추론 유사성 검사 기법으로 나누어진다. 이 중 어휘 유사성 검사 기법은 대부분의 온톨로지 매핑 연구에서 사용하는 기법으로써 주로 워드넷에 정의되어 있는 동의어 집합만을 사용한다. 이에 본 연구에서는 워드넷에 정의되어 있는 동의어 집합 외에 상위어, 하위어, 전체어, 부분어 집합의 모든 단어들을 포함한 수퍼워드셋을 정의하고, 이것을 이용한 온톨로지 매핑 기법을 제안한다. 실험 결과에 의하면, 제안된 기법은 기존 온톨로지 매핑 기법보다 평균 12%까지 온톨로지 매칭율을 높인 것을 보여준다.

경로 매칭 알고리즘을 이용한 구조화된 문서의 변화 탐지 (Change Detection of Structured Documents using Path-Matching Algorithm)

  • 이경호;변창원;최윤철;고견
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.606-619
    • /
    • 2001
  • 본 논문에서는 SGML/XML 문서의 구 버전과 신 버전간의 타이를 계산할 수 있는 효율적인 알고리즘을 제안한다. 타이는 구 버전의 문서를 신 버전으로 변환하는데 소요되는 편집 스크립트로 간주할 수 있다. 제안된 알고리즘은 상향식과 하향식의 복합적인 접근 방식을 적용한다. 먼저 두 버전을 구성하는 노드간의 대응관계를 상향식으로 생성하며 하향시 너비 우선 탐색을 적용하여 편집 스크립트를 계산한다. 제안된 알고리즘은 모든 노드간의 대응 여부를 모두 조사할 필요가 없기 때문에 대응관계를 보다 빠르게 생성할 수 있다. 또한 삽입, 삭제, 그리고 갱신의 단순한 변화는 물론이고 부트리 이동과 복사의 구조적으로 보다 의미 있는 변화를 탐지할 수 있다.

  • PDF

웹서비스를 위한 WSDL 리포지토리 설계 (Web Service Method using WSDL Repository)

  • 최유순;박종구
    • 한국정보통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.745-753
    • /
    • 2007
  • 웹 서비스는 분산 컴퓨팅의 차세대 주자로 인터넷 상에서 표준 기술을 통해서 이용될 수 있는 모든 비즈니스 처리를 의미하는 분산 솔루션이다. 웹 서비스는 웹 인터페이스를 통해서 기능을 수행한다. 본 논문에서는 이러한 웹 서비스 절차를 단축시켰다. WSDL을 저장하기 위한 데이터 베이스로 WSDL Repository를 이용하였다. 서비스 제공자가 서비스를 등록할 때 서비스에 대한 정보를 UDDI Registry에 저장하게 하고, 이 때 WSDL을 같이 전송하도록 구현했다. WSDL Repository는 WSDL 뿐만 아니라 웹 서비스에 대한 서비스 정보를 갖고 있는 UDDI도 저장한다. UDDI Registry에 저장된 서비스에 대한 정보와 WSDL의 연결은 UDDI에서 데이터 필드로 구성했다.

DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구 (DART: Data Augmentation using Retrieval Technique)

  • 이승준;서재형;이정섭;강명훈;문현석;박찬준;정다현;이재욱;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

Continual learning을 이용한 한국어 상호참조해결의 도메인 적응 (Domain adaptation of Korean coreference resolution using continual learning)

  • 최요한;조경빈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

퍼지관계곱을 이용한 내용기반 정크메일 분류 모델 (A Junk Mail Checking Model using Fuzzy Relational Products)

  • 박정선;김창민;김용기
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권10호
    • /
    • pp.726-735
    • /
    • 2002
  • 인터넷의 발전을 기반으로 전자메일 서비스는 기존 우편 기능을 대체하여 현재의 대표적인 정보 전달 수단으로 자리잡고 있다. 전자메일 사용자의 확산에 따라 많은 기업들은 전자메일을 통한 개인별 카탈로그 보급 식의 광고에 투자를 하게 되었는데, 이는 개인별 취향을 고려한 광고가 가능하다는 잇점을 가진다. 그러나 전자메일 사용자들은 인터넷상에 개인 전자메일 주소가 노출됨에 의해서 많은 정크메일(junk mail)을 수신하게 되었는데, 정크메일이란 기업의 광고 선전물과 같이 수신을 원하지 않는 전자메일을 의미한다. 정크메일의 증가에 따라 정크메일을 분류하는 수단이 필요하게 되었는데, 현재까지는 사용자가 입력한 송신자의 전자메일 주소 또는 도메인 주소를 등록하여 차단하거나 제목에 특정 단어를 포함한 메일을 완전히 삭제하여 버리는 기술수준에 머무르고 있다. 본 논문에서는 퍼지관계곱을 기반으로 메일의 내용에 의미적으로 접근하여 정크메일을 추출하는 정크메일 분류 모델을 제안한다. 이는 퍼지관계곱 연산을 이용하여 미리 정의한 정크용어들과 사용자에게 수신되는 전자메일 내의 용어들 간 의미적 포함관계를 분석하고 그를 통해 전자메일의 정크도(degree of junk)를 추출한다. 각 전자메일별로 추출된 정크도는 사용자가 부여하는 정크 기준치(SVJ, Standard Value of Junk)를 기준으로 정크메일과 비정크메일로 분류한다. 제안된 기법은 사용자가 특정 개수의 동일한 전자메일에 대해 느끼는 정크도를 기준으로 분류한 정크메일 수를 비교하여 그 효용성을 증명하였다.

질의 응답 시스템에서 심층적 질의 카테고리의 개념 커버리지에 기반한 의미적 질의 확장 (Semantic Query Expansion based on Concept Coverage of a Deep Question Category in QA systems)

  • 김혜정;강보영;이상조
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.297-303
    • /
    • 2005
  • 질의응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer type) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 흑은 다른 문법적 정보를 가진 카테고리에 등장하여 정답 추출에 어려움이 따른다. 만약, 질의에서 요구하는 정보유형을 보다 깊게 세분화하고, 세분화된 질의 유형과 개념적으로 유사한 문장을 대상으로 정답 추출을 수행할 수 있다면 보다 정확한 정답을 추출할 수 있을 것이다. 따라서, 본 논문은 심층 질의 카테고리의 개념 커버리지에 기반한 효과적인 의미적 질의 확장 방법론을 제안한다. 질의에서 요구하는 정보 유형을 보다 세분화된 심충 질의 카테고리로 나누고, 이러한 심층 질의 카테고리를 표현하기 위해 동원되는 어휘 집합에 질의 확장을 적용함으로써 정답 추출의 성능을 향상시키고자 하였다. 제안된 시스템의 성능 평가를 위하여, TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건과 TREC-9의 질의를 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.

온톨로지기반 추론을 이용한 시맨틱 검색 시스템 (Semantic Search System using Ontology-based Inference)

  • 하상범;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권3호
    • /
    • pp.202-214
    • /
    • 2005
  • 시맨틱 웹은 단순한 문서들의 링크가 아닌 문서들의 의미와 관계를 표현하는 웹으로 소프트웨어 에이전트가 이해할 수 있도록 구성되어 있다 본 논문에서 제안하는 검색방식은 온톨로지기반의 추론을 통한 시맨틱 검색방법으로 다음과 같은 특징을 갖는다. 첫째, 검색키워드와 문서의 키워드가 다르더라도 의미적으로 같으면 온톨로지의 추론을 통해 검색이 가능하게 한다. 둘째, 규칙기반의 변환기가 서로 다른 온톨로지의 컨셉을 정확한 매치(exact match)가 아니어도 유사한 컨셉으로 추론할 수 있게 한다. 셋째, 온톨로지가 검색 키워드의 의미를 뚜렷하게 정의할 수 있으므로 단순한 키워드 매칭과 빈도만으로 검색하는 것 보다 정확한 검색이 가능하도록 한다. 넷째, 최적화된 질의문 자동 생성이 도메인 온톨로지를 통해 가능하므로 자연어와 유사한 검색영역과 정확성을 갖게 한다. 다섯째, 에이전트가 단순히 키워드가 포함된 문서만을 찾는 것이 아니라 온톨로지에 표현되어 있는 정보를 토대로 사용자가 원하는 정보와 지식을 자동적으로 찾게 한다. 이러한 방식은 데이타베이스의 질의문을 사용하거나 일반적인 키워드기반의 정보검색 기법을 사용하여 자료를 검색하는 기존의 검색 시스템보다 정화한 검색을 가능하게 한다. 본 논문에서는 온톨로지를 기반으로 추론을 적용한 시맨틱 검색시스템에 대하여 문서검색에 초점을 맞추어 연구 결과를 제안한다.

시맨틱 웹 포털에서의 검색과 시각화 방법 연구 (Search and Visualization Method on the Semantic Web Portal)

  • 이명진;이기준;박상언;홍준석;김우주
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2008년도 연합학회학술대회
    • /
    • pp.389-403
    • /
    • 2008
  • 웹에서의 정보가 지속적으로 늘어남에 따라 현재의 웹은 더욱 더 많은 한계를 드러내고 있다. 정보검색의 측면에서 본다면 웹 페이지는 사람이 이해하기 위한 표현 정보만을 담고 있기 때문에 사용자는 단순히 키워드의 포함 여부에 따라 많은 문서를 검색 결과로 제공받게 되며, 이들 사이에 필요한 정보를 발췌하는데 많은 시간을 소비하게 된다. 이러한 문제를 해결하기 위한 노력의 일환으로 W3C에 의해 시맨틱 웹이 제안되었다. 시맨틱 웹은 자원과 자원간의 관계 정보로 이루어진 온톨로지를 기반으로 하고 있으며, 따라서 사용자는 온톨리지 기반의 검색을 통해 의미 있는 정보를 제공받을 수 있다. 온톨로지는 의미적인 정보를 담고 있기 때문에 사용자에게 적절한 정보를 제공해 줄 수 있는 새로운 검색 방법과 이를 사용자에게 보여줄 수 있는 시각화 방법을 요구하게 된다. 본 연구에서는 온톨로지를 기반으로 한 의미적 정보의 연관관계를 찾아나가는 검색 방법과 이를 사용자에게 제공해 주기 위한 시각화 방법을 제안하고자 한다. 논문에서 제안하고자 하는 바는 온톨로지로부터 사용자의 질의와 관련된 자원과 다른 자원 사이의 관계를 검색해서 제공하고자 하는 것이다. 이를 통해 사용자는 단순히 질의어가 포함된 결과가 아닌 질의어와 다른 자원간의 관계를 파악할 수 있으며, 자원 간의 관계를 기반으로 탐색해 나갈 수 있다.

  • PDF

강원도 고성군 소규모 신규조림/재조림 CDM 시범사업의 온실가스 감축량 산정 연구 (A Study on Greenhouse Gas Removals Estimation of a Small Scale Afforestation/reforestation CDM Pilot Project in Goseong, Gangwon Province)

  • 김지연;이수경;노남진;윤태경;한새롬;;이우균;손요환
    • 한국산림과학회지
    • /
    • 제102권3호
    • /
    • pp.398-406
    • /
    • 2013
  • 신규조림/재조림 CDM은 교토의정서에서 인정하는 온실가스 흡수원 활동이다. 본 연구에서는 강원도 고성군 간성읍 흘리 지역에서 시행되고 있는 소규모 신규조림/재조림 CDM 시범사업을 대상으로 온실가스 감축량을 산정하였다. 적용된 방법론은 AR-AMS0001이며, 조림수종은 잣나무, 낙엽송, 자작나무 등이고 조림 면적은 총 75.0 ha이다. 베이스라인 시나리오 및 탄소 저장고 선택, 대상지 구획화 등을 실시하고 이를 바탕으로 실질 순 온실가스 감축량, 베이스라인 순 온실가스 감축량, 누출량 산정 등의 과정을 거쳐 순 인위적 온실가스 감축량을 산정하였다. 연구 결과 조림 후 20년간 발생하는 온실가스 감축량은 12,415 ton $CO_2-e$이며 ha당 165.5 ton $CO_2-e/ha$로 나타났다. 본 시범사업은 국내에서 시행된 최초의 신규조림/재조림 CDM이며, 온실가스 감축량 산정에서 대상지 실정을 반영한 국가 고유 자료를 사용함으로써 산정 결과의 정확성을 향상시켰다는 점에서 의미가 있다.