• 제목/요약/키워드: 한글 시소러스

검색결과 54건 처리시간 0.023초

기계가독사전을 이용한 한국어 시소러스 구축 (Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary)

  • 이주호;은광희;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.273-279
    • /
    • 2001
  • 시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.

  • PDF

추론망을 이용한 시소러스의 자동구축 (Automatic Thesaurus Construction using Inference Networks)

  • 박영찬;한영석;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.395-399
    • /
    • 1994
  • 정보 검색의 효율은 정보검색 시스템에서 사용되는 지식의 질에 상당한 영향을 받는다. 이러한 지식 표현의 한 가지로 널리 사용되고 있는 것이 시소러스이다. 이러한 시소러스의 구축은 지식을 얼마만큼 잘 구성하는가에 있다. 따라서 시소러스의 자동 구축은 상당한 효용을 지니게 된다. 시소러스의 자동구축시에 대량의 말뭉치로부터 지식을 추출하는 방법론이 많이 연구되어 오고 있다. 그러나 이러한 방법은 단어의 통계적인 행태에 크게 의존하고 있기때문에 자료 회귀(data sparseness)의 문제가 큰 장에 요인이 되고 있다. 본 연구에서는 이러한 자료회귀문제를 해결하기 위해 추론망을 사용하고자 하는 모험을 제시하고자 한다.

  • PDF

과학기술 문헌에 나타난 시소러스의 연관관계 유형에 관한 연구 (The type of associative relationships of Thesaurus described in literature of science and technology)

  • 송유화;최호섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.117-122
    • /
    • 2011
  • 시소러스의 연관관계는 유형의 세분화에 관한 원칙과 방법론의 부재로 시소러스를 구축하는 기관에서 개별적인 분류를 사용하고 있다. 분류에 적용되는 패싯지시어 모형에 관한 연구는 계속 되고 있지만 그 타당성을 뒷받침 할 실증적 사례연구는 찾아볼 수 없다. 본 연구에서는 Inspec에서 구축한 시소러스 중에 일정 기준으로 선정한 우선어와 관련어를 대상으로 IEL에서 제공하는 문헌에서 두 용어가 동시에 출현하는 문장을 찾아 그 연관관계 모형을 제안한다.

  • PDF

시소러스와 온톨로지의 상호 호환성에 관한 연구 (A Study on the Interchangeability between a Thesaurus and an Ontology)

  • 조현양;남영준
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.27-47
    • /
    • 2004
  • 본 연구에서는 다국어 시소러스에 수록된 디스크립터간의 관계를 온톨로지 언어로 표현하는 실험을 수행하였다. 대등관계는 equivalentClass와 equivalentProperty, sameAS 등으로, 그리고 연관관계는 ObjectProperty을 비롯하여 DatatypeProperty, inverseOf 등으로 표현할 수 있었다. 이러한 언어를 기반으로 실제 AAT에 배정된 디스크립터와 ICCD에서 구축한 다국어 시소러스의 디스크립터를 대상으로 디스크립터의 한글화 작업이 수행되었으며, 다국어간 개념일치를 위해 패싯개념이 시소러스 구조에 이용되었다. 본 연구를 통한 실험의 결과 다국어 시소러스를 온톨로지로 표현하기 위해서는 속성관련 온톨로지 언어를 사용하는 것이 가장 효과적임을 확인할 수 있었다.

한글 시소러스에서 저자와 저작에 대한 관계 설정과 동형 이의어의 기술 (A Study on the Description of Relationships and Homographs in Terms of Creator and Work in the Korean Thesaurus)

  • 한상길;최석두
    • 한국문헌정보학회지
    • /
    • 제45권4호
    • /
    • pp.139-155
    • /
    • 2011
  • 개인 저자 집합과 저작 집합 간의 관계를 기술할 때 두 집합 내에서 동형 이의어(즉, 동명이인과 동일 저작명)를 구별하지 못하면 두 집합 간에 전단사(全單射) 관계가 형성되지 않으므로 정확한 정보 검색을 위한 정보로는 사용하기가 어렵다. 실제로 저자명과 저작명을 다루는 도서관 시스템, 문헌, 포털사이트 등에서 동형 이의어를 명확하게 구별하고 있지 않아 색인과 검색 시 다의성에 의한 혼란과 불편을 초래하고 있다. 이에 대한 필요성은 일찍이 전거 데이터의 구축 시 대두된 문제였으나 우리나라에서는 일부 기관이 개별적으로 구축하였을 뿐 국가 차원의 전거 데이터가 없어서 이들의 동형 이의어를 구별하기 위한 기준이 없다. 이에 본 연구자는 개체명 인식을 위한 작업의 일환으로 주제어뿐만 아니라 고유 명사류도 포함되는 한글 통합 시소러스 구축 작업에서 얻은 결과를 바탕으로 저자와 저작의 용어 관계 설정 방법과 두 집합 내에서 그리고 두 집합이 기타 용어와의 관계에서 발생하는 동형 이의어의 기술 방법을 대중 문화 예술 분야를 중심으로 제시하였다.

한국 근대 여성 구술 기록물을 통한 시소러스 개발에 관한 연구 (A Study on Thesaurus Development Based on Women's Oral History Records in Modern Korea)

  • 최윤경;정연경
    • 한국기록관리학회지
    • /
    • 제14권1호
    • /
    • pp.7-24
    • /
    • 2014
  • 본 연구의 목적은 한국 근대 여성 구술기록물의 효율적인 주제 접근을 위한 시소러스를 개발하는 것이다. 이를 위해 문헌 연구와 국내외 시소러스 사례 분석을 수행하였고, 구술기록물에 입력된 색인어를 중심으로 시소러스를 구축하였다. 구축 과정은 총 5단계로 1단계는 한국 근대를 산 53명의 여성 구술자의 구술기록물에 입력된 한글 색인어 총 1,784개 추출하여 용어의 특성을 분석하였다. 2단계에서는 수차례에 걸쳐 해당 분야 전문가 회의를 거쳐 시소러스 대상 용어를 선정하였고, 3단계에서는 용어에 대한 등위 계층 연관 관계를 설정하였다. 4단계에서는 웹기반 시소러스 관리시스템을 개발한 후, 용어 및 관계 정보를 입력하였고, 5단계에서는 입력된 용어의 정보와 관계를 전문가 집단이 재검토하였다. 구축된 시소러스는 일반 주제어를 비롯한 지명, 장소명, 인명, 단체명 등 고유명사가 포함된 39개 대주제 영역의 1,076개의 용어로 구성되었으며 추후 추가적인 구술기록물을 바탕으로 확장될 것이다.

중간언어 기계번역방식을 위한 어휘지식 표현체계에 관한 연구 (A Study on Lexical Knowledge Representation for Interlingua Machine Translation)

  • 이휘봉;송성대;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-111
    • /
    • 1995
  • 본 논문에서는 중간언어 설계의 일부분으로, 중간의미 표현을 위한 어휘지식 표현 방안에 관하여 논한다. 기존 중간언어들은 단어의 의미 구별법이 단순한 선택적 제한을 기반으로 하고 있으며, 시소러스체계도 단일하게 유지하고 있다. 따라서, 단어의 의미간 중첩성이 반영되지 못하고 단어의 창조적 사용(creative use)에 대한 대처능력도 떨어진다. 또한 단일 시소러스체계를 통해서는 단어들의 명확한 분류기준을 파악할 수가 없다. 이러한 어휘지식 표현체계의 문제점들을 극복하기 위한 해결책으로서 생성사전(Generative Lexicon)을 도입하고, 중간표현의 관계기호를 효과적으로 파악하기 위한 관점에서의 시소러스 분류체계를 제안한다. 또한 이 같은 어휘지식 표현체계를 이용하여 문장의 구문구조로부터 중간표현을 나타내는 과정을 제시한다.

  • PDF

어휘 공기 집합과 시소러스를 활용한 한국어 동형이의에 분별 (Disambiguation of Korean Homonym Using Lexical Co-occurrencing Set and Thesaurus)

  • 이왕우;최호섭;김준수;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.152-157
    • /
    • 2003
  • 본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중에 동형이의어 분별의 중의성을 해결하기 위하여, 유용한 구문 패턴을 바탕으로 사전 뜻풀이와 150만 어절의 말뭉치에서 어휘 공기 집합을 추출하여 동형이의어의 분별에 이용하였다. 특히, 용언류 동형이의어를 분별할 때에는 어휘 공기 집합의 자료 부족문제를 해결하기 위하여 시소러스를 이용한 어휘 공기 집합의 확장 방법을 제시한다. 시소러스 확장을 통한 분석에서 동형이의어의 분별이 실패할 경우 제한된 어절을 대상으로 통계적인 분석을 시도하여 동형이의어를 분별한다. 중의성이 높은 469개 동형이의어에 대하여 2가지 실험을 통해 각각 90.05%와 92.23%의 정확률을 얻을 수 있었다.

  • PDF

구문적 유사도와 의미적 유사도를 이용한 하이퍼텍스트 자동생성에 관한 연구 (The Study of Automatic Hypertext Generation using the Syntactic and Semantic Similarity)

  • 김문석;남세진;신동욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.424-429
    • /
    • 1996
  • 본 논문에는 일반문서를 대상으로 하여 그 문사를 하이퍼텍스트(hypertext)로 자동변환하는 기법을 제안하고자 한다. 자동변환의 과정은 대상 문서에서 키워드(keyword)의 인식, 문서를 노드(node) 단위로 분리, 키워드로부터 노드로의 링크(ink) 생성의 3 단계로 이루어 진다. 기존의 연구에서는 문서에서 노드를 분리하는데 구문적 유사도만을 이용하는데, 본 논문에서는 양질의 하이퍼텍스트를 생성하기 위하여 구문적 유사도(syntactic similarity)뿐만 아니라 의미적 유사도(semantic similarity)를 사용한다. 구문적 유사도는 tf*idf와 벡터 곱(vector product)을 이용하고, 의미적 유사도는 시소러스(thesaurus)와 부분부합(partial match)을 이용하여 계산되어 진다. 또 링크 생성시 잘못된 링크의 생성을 막기 위하여 시소러스를 이용하여 시소러스에 존재하는 용어에 한해서 링크를 생성한다.

  • PDF

하이텔 메뉴검색용 시소러스의 개발에 관한 연구 (Thesaurus Development for HiTEL Service)

  • 최석두
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.227-241
    • /
    • 1996
  • 정보검색시스템의 성능을 향상시키고 정보검색의 효율성을 높이는 데 활용할 지식베이스로서의 한글시소러스 개발알고리즘을 제시하고, 이 방법에 의한 실체개발사례를 제시한다. 본 연구를 위하여 개발된 시소러스 구축시스템의 기능과 함께 용어의 수집, 분류, 관계의 정의 등의 구축과정에서 사용한 하이텔 메뉴, 용어사전의 이용방법등에 대하여 논한다.

  • PDF