• 제목/요약/키워드: 전거어 사전

검색결과 4건 처리시간 0.02초

통계정보 분류의 자동코딩 성능 실험 연구 (An Experimental Study on the Automatic Coding System for Statistical Information Classification in Korea)

  • 남영준;안동언
    • 정보관리학회지
    • /
    • 제17권4호
    • /
    • pp.27-45
    • /
    • 2000
  • 인구센서스와 같은 국가 통계정보는 국가의 미래 투자계획과 정책수립을 위한 중요한 기초데이터이다. 그러나 데이터의 코딩과정이 모두 수작업으로 이루어지기 때문에 결과의 일관성 결여와 시간과 인력이 너무 많이 소요된다는 것 등이 문제점으로 지적되고 있다. 따라서 본 연구에서는 한국 산업표준 분류표에 근거한 자동코딩시스템을 개발하여 코딩과정을 수작업으로 처리할 때 발생하는 문제점을 해결하였다. 시스템의 지식베이스로는 학습이론을 사용하여 저자가 새로이 개발한 복수의 전거어 사전들을 활용하였다. 실험한 결과, 생성률은 99.5%를, 정확률은 83.3%라는 결과를 얻었다. 따라서 이 시스템은 실제 통계데이터의 자동코딩과정에 사용될 수 있으며, 국가 통계정보의 효율적 분석에 매우 유용하게 사용될 수 있을 것이다.

  • PDF

관광 정보 검색을 위한 자연언어 질의 해석 시스템 구현 (A design and implementation of query processor for travel information retrieval system)

  • 김명철;서광준;전경헌;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.449-458
    • /
    • 1992
  • 본 논문은 관광정보검색용 한국어 자연언어 질의 해석 시스템의 모델 정립 및 구현에 대한 것이다. 본 자연언어 질의 해석 시스템은 질의로 부터 정보 검색 시스템의 검색어들을 추출한다. 이를 위하여 1만 단어 수준의 중형사전을 구축하였으며, 불용어 사전, 전거어 사전, 유사어 사전, 복합명사 사전을 구축하였다. 사전의 어휘를 추출하기 위해서 한국어 대화체 문장에 대한 자료수집과 분석을 하였으며, 관광 정보 검색 시스템의 텍스트를 분석하였다. 200여 자연언어 질의 문장으로 실험한 결과는 비교적 좋았다.

  • PDF

로그데이터를 이용한 디스크립터의 외형적 특성 분석 (Analysis of the Candidate Terms and Structure Using the Log-data)

  • 남영준;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.61-66
    • /
    • 2004
  • 본 연구에서는 시소러스를 구축하기 위해 필요한 디스크립터 수집원으로써 이용자 로그데이터를 분석하여 후보 디스크립터의 외형적 특성을 분석하였다. 분석대상인 이용자 로그데이터는 국내 검색엔진가운데 야후와 라이코스를 대상으로 하였다. 분석결과, 이용자들은 대부분 검색어로써 명사와 복합명사를 사용하였으며, 조사 '의'이외에는 다른 품사로 이루어진 검색어는 거의 존재하지 않음을 알 수 있었다. 또한 검색어로써 이용자들은 고유명사(외국어 포함)를 많이 사용함으로써, 국내외 지침에서 권고하는 고유명사의 최소한 사용지침과 실제 이용자 사이의 이용행태와의 차이를 알 수 있었다. 따라서 국내외 시소러스 개발지침을 수용하면서, 이용자 중심의 시소러스를 개발하기 위해서는 전거어나 유사어 사전을 대등관계와 연동하여 개발하는 것을 고려해야 한다.

  • PDF

지식관리시스템을 위한 의미형 한영 시소러스 구축에 관한 연구 (A Study on the Korean-Engligh Semantic Thesaurus Construction for Knowledge Management System)

  • 남영준
    • 한국도서관정보학회지
    • /
    • 제32권4호
    • /
    • pp.77-98
    • /
    • 2001
  • 본 연구에서는 지식관리시스템에 사용되는 의미형 한영 시소러스개발에 따른 개발방안과 원칙을 제시하였다. 기본적인 개발 방안은 1)용어 수집에 있어 디스크립터 추출의 정보원을 기존 문헌형태의 자료에서 내부문서와 웹에 등재된 외부문서 등도 포함하도록 하였다. 2)의미위주의 용어보다는 개념위주 의 디스크립터가 필요하며, 이를 보완하기 위해 전거어 사전의 구성이 필요함을 제시하였다. 이를 위해 용어풀을 운영할 것도 제시하였다. 3)디스크립터의 적정한 규모를 15,000개 내외로 제시하였다. 4)관계 설정은 수작업과 기계처리작업이 병행되는 하이브리드 방식을 제안하였다.

  • PDF