• 제목/요약/키워드: 한국어 시소러스

검색결과 69건 처리시간 0.024초

정보산업 분야 시소러스의 공학적 구축 방안 (Toward IT Domain Thesaurus: An Engineering Approach)

  • 류법모;김재호;최기선;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-20
    • /
    • 2005
  • 이 논문은 공학적인 접근 방법에 기반한 단계적인 전문분야 시소러스 구축 방법을 제안한다. 시소러스 구축 과정은 용어 추출 단계, 용어 분류 단계, 계층 구조 구축 의 3단계로 구성되고, 모든 단계에서 자동 처리와 전문가 검증 작업을 거친다. 추출된 용어를 미리 정해진 분류 체계에 따라 분리한 후 여러 개의 작은 시소러스를 구축하고, 마지막으로 전체 시소러스로 결합한다. 이 방법은 1) 시소러스를 구축하는 복잡도가 줄어들고, 2) 클래스 단위의 작은 시소러스가 다른 전문분야 시소러스에 쉽게 재사용 될 수 있으며, 3) 각 클래스에 포함된 용어들의 분포를 쉽게 판단할 수 있는 장점이 있다. 제안한 방법을 이용하여 한국어 정보기술 분야 시소러스를 구축하였다. 시소러스 구축에 사용된 용어들은 정보기술 분야의 최근의 한국어 신문과 특허 문서에서 추출하였기 때문에 한국에서 만들어진 신조어를 포함한다. 구축된 시소러스는 81 개의 상위 레벨클래스와 1,000개 이상의 용어로 구성된다.

  • PDF

기계가독사전을 이용한 한국어 시소러스 구축 (Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary)

  • 이주호;은광희;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.273-279
    • /
    • 2001
  • 시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.

  • PDF

대단위 우리말 온톨리지 구축을 위한 시소러스의 개발 (Constructing a Grand-Scale Korean Thesaurus as a Base for Ontology Development)

  • 최석두;이우범;김이겸;최상기;한상길;이정연
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.147-164
    • /
    • 2006
  • 한국어 정보처리를 위하여 전 분야를 포괄하는 대단위 시소러스를 계획하고 이를 개발하고 있다. 이 시소러스는 현재 현장에서 정보의 색인과 검색용으로 사용되고 있으며 새로운 용어가 추가되면서 계속하여 증식하고 있다. 그런데 정보처리에 대한 새로운 요구가 증가함에 따라 대단위 온톨로지의 개발이 필요하게 되었으며, 이에 시소러스를 온톨로지로 변환할 준비를 하고 있다. 본 고에서는 온톨로지를 만들기 위하여 지금까지 구축한 시소러스의 내용에 대하여 논한다.

시소러스 데이터의 저장과 검색을 위한 효율적인 저장 시스템의 설계 및 구현 (Design and Implementation of Efficient Storage System for Storing and Searching Thesaurus Data)

  • 김점숙;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-209
    • /
    • 2000
  • 본 논문에서는 시소러스를 효율적으로 구축하고 사용할 수 있는 시소러스 저장 구조를 구현하였다. 정보 검색 시스템은 사용자의 질의어를 용어들과 용어들 사이의 관계 집합으로 구성된 일종의 용어 사전인 시소러스를 이용하여 문헌에 대한 색인과 검색을 정확하고 통제된 용어 형태로 바꾸어 색인과 검색 작업의 효율을 높인다. 데이터베이스에 저장된 시소러스 구조에서 시소러스 검색을 할 때 속도가 감소하는데 이를 해시함수를 이용한 리스트 구조를 이용함으로써 전체적인 시소러스 검색 속도의 증가를 기대할 수 있다. 또한 현재 데이터베이스 형태의 시소러스를 다른 곳에 이식하려면 데이터베이스 시스템이 있어야 한다. 따라서 메모리에 올릴 수 있는 구조를 가지면 시소러스 보급에 기여 할 수 있다. 본 논문에서 제안한 데이터베이스에 저장된 시소러스 구조와 해시함수를 이용한 리스트 구조를 비교, 분석하고 보다 더 효율적인 시소러스의 역할 및 구조 형태에 대해 제안한다.

  • PDF

어휘 공기 집합과 시소러스를 활용한 한국어 동형이의에 분별 (Disambiguation of Korean Homonym Using Lexical Co-occurrencing Set and Thesaurus)

  • 이왕우;최호섭;김준수;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.152-157
    • /
    • 2003
  • 본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중에 동형이의어 분별의 중의성을 해결하기 위하여, 유용한 구문 패턴을 바탕으로 사전 뜻풀이와 150만 어절의 말뭉치에서 어휘 공기 집합을 추출하여 동형이의어의 분별에 이용하였다. 특히, 용언류 동형이의어를 분별할 때에는 어휘 공기 집합의 자료 부족문제를 해결하기 위하여 시소러스를 이용한 어휘 공기 집합의 확장 방법을 제시한다. 시소러스 확장을 통한 분석에서 동형이의어의 분별이 실패할 경우 제한된 어절을 대상으로 통계적인 분석을 시도하여 동형이의어를 분별한다. 중의성이 높은 469개 동형이의어에 대하여 2가지 실험을 통해 각각 90.05%와 92.23%의 정확률을 얻을 수 있었다.

  • PDF

한국어 명사의 시소러스 구축을 위한 시스템 설계 및 구현 (Design and Implementation of a System for Constructing Thesaurus of Korean Nouns)

  • 이종인;한광록;양승현;김영섬
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.347-356
    • /
    • 1999
  • 본 논문에서는 한국어 명사의 의미 개념의 계층을 생성하기 위한 시소러스 구성 방법과 시소러스를 구축하기 위한 개발 시스템을 구현하였다. 기존의 시소러스 구축에 있어서 나타나는 계층 설정의 비객관성 및 작업속도 문제, 비구조성, 비일관성 등의 문제를 해결하기 위하여 상향식과 하향식 방법을 혼합 적용하는 다단계 구축 방법을 사용한다. 온라인 전자 사전의 뜻풀이 문을 이용하여 객관성을 유지하고, 기존 시소러스의 기본 모델을 참조하여 비구조성과 비일관성의 문제를 해결한다. 또한 방대한 양의 표제어를 포함하는 시소러스를 빠른 시간 내에 구축하기 위하여 클라이언트/서버 환경의 개발 도구를 구현하여 여러 사람이 다중 입력 작업을 할 수 있도록 하였다.

  • PDF

한국어 시소러스를 이용한 웹 문서 추천 에이전트 (A Web-document Recommending System using the Korean Thesaurus)

  • 서민혜;이성욱;서정연
    • 한국정보통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.103-109
    • /
    • 2009
  • 우리는 사용자의 행동을 관찰하고 학습하여 사용자 대신에 문서를 수집 분석함으로써 사용자에게 필요한 정보만을 추출하여 제공하는 웹 문서 추천 에이전트 시스템을 개발한다. 또한 우리는 이 시스템에 한국어 시소러스를 이용한 질의어 확장 방법의 적용을 제안한다. 한국어 시소러스를 이용한 질의어 확장을 위해, 새로운 웹 문서를 검색하기 위해 생성된 질의어를 한국어 시소러스를 통하여 그 하의어들을 찾아 후보 집합을 생성해 주고, TF-IDF와 상호 정보량을 이용하여 후보 집합 안에 있는 단어 들 중에서 질의어와 가장 많은 관련 정보를 가지고 있는 단어를 추출함으로써 질의어를 확장해 주었다. 확장되지 않은 질의어만으로 웹 문서를 추천하게 되면 추천된 웹 문서의 수는 극히 제한적이지만, 질의어를 확장함으로써 보다 더 많은 유용한 웹 문서를 사용자에게 추천 및 제공 할 수 있다.

온톨로지 기반의 지능형 번역 에이전트를 이용한 실시간 번역 연구 (Using Machine Translation Agent Based on Ontology Study of Real Translation)

  • 김수경;김경아;안기홍
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2006년도 춘계학술대회
    • /
    • pp.229-233
    • /
    • 2006
  • 기계번역(Machine Translaton, MT), 다국어 정보 검색, 의미 정보 검색 등에 대한 연구는 시소러스, 지식베이스, 사전 검색, 의미망, 코퍼스등과 같은 다양한 방법으로 이루어지고 있다. 시맨틱 웹이 등장과 시맨틱 웹 기반 기술의 발전에 따라 위 연구들을 시맨틱 웹에 적용시킬 필요성도 제안되었다. 특히 한국어 시소러스, 워드넷(WordNet), 전자 세종 사전, 가도까와(Kadokawa) 시소러스와 같은 지식베이스가 개발되었으나 활용 분야에 따라 그 구축 방법론이 다르게 적용되어, 위 연구에 효과적으로 통용될 수 있는 지식베이스는 실질적으로 구축되지 못한 실정이다. 따라서 본 연구에서는 세종 사전과 가도까와 시소러스, 한/일 기계 번역 사전 그리고 전문 용어 사전을 기반으로 한국어와 일본어 지식베이스를 위한 사전 온톨로지 서버를 정의하여 의미 정보를 구성하고, Semantic Web Rule Markup Language (이하 SWRL)을 이용해 구문 정보 규칙을 정의한다. 그리고 SWRL 기반 정방향 추론 엔진을 이용하여 번역에 필요한 추론 엔진을 구성하고 문장 구문형성 규칙 추론 엔진을 통해 사용자에게 한국어와 일본어의 문장 구성 변환을 제공한다. 본 연구는 현재 기계 번역이 갖고 있는 다의성, 술부 어순의 차이, 경어체 등 아직 해결해야 할 많은 부분들에 대한 해결 방안으로서 시맨틱 웹 기반 기술과의 활용방안을 제시하고자 한다.

  • PDF

한국어 단어 시소러스 구축 시스템의 설계 (Design of construction system for thesaurus of korean world)

  • 이종인;한광록
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.313-316
    • /
    • 1998
  • 본 논문은 한국어 단어의 의미 영역 정보를 저장하기 위한 시소러스를 설게하고 이를 구축하기 위한 시스템을 설계하였다. 기존에 TOP_DOWN이나 BOTTOM_UP 방식을 이용하는 경우 각각 비 객관성과 작업 속도의 문제와 비구조성, 비일관성의 문제를 안고 있어 이를 혼합하여 어의문을 이용하여 객관성을 유지하면서도 기본모델을 이용하여 비구조성과 비일관성의 문제를 해결하고 있다. 또한 그 동안 필요성이 증가되었으나 작업을 하지 못했던 가장 큰 이유인 단어의 방대성으로 기인한 작업속도의 문제해결하기 위하여 C/S 모델을 적용하여 다수의 입력자들에 의해 동시 입력을 가능케 함으로써 작업 속도의 향상을 이루었다.

  • PDF

시소러스 작성을 위한 개념 획득 도구 (A Concept Acquisition Tool for Thesaurus Construction)

  • 김명철;이운재;최기선;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.39-49
    • /
    • 1992
  • 시소러스를 작성하기 위해 시소러스 작성자가 고려래야 하는 문제는 단어간의 개념 관계이다. 단어간의 관개는 계층구조에 정의된 개념을 기반으로 분석하여 하향식으로 시소러스를 작성하는 것이 일반적이다. 이러한 방식은 작성자에 의존적이므로 시소러스의 정확도를 보장할 수 없고 주관적인 성향을 가진다. 그래서 Corpus에서 자동으로 개념 및 개념 관계를 추출하는 상향식 방법들이 다양하게 시도되고 있다. 본 논문에서는 시소러스 작성을 위한 자동 개념 획득 도구를 설계, 구현하였다. Mutual Information이라는 방법을 이용하여 공기 정보(Collocation)를 정량화하고 이를 통하여 단어간의 개념관계의 크기를 측정한 후 개념 관계의 크기(MI 값)가 큰 값을 선택하여 개념 화일을 작성한다. 실험 결과로 얻은 개념 화일은 두 개념간의 밀접도를 나타내므로 시소러스 작성에 매우 유용하다.

  • PDF