• 제목/요약/키워드: Semantic Indexing

검색결과 82건 처리시간 0.022초

연구.학술정보 효율적 검색을 위한 온톨로지 기반의 주제 색인어 구조화 방안 연구 (A Study on Ontology-based Keywords Structuring for Efficient Information Retrieval)

  • 송인석
    • 정보관리연구
    • /
    • 제39권4호
    • /
    • pp.121-154
    • /
    • 2008
  • 본 연구에서는 정보검색도구 관점에서 지식조직체계로서 기존 시소러스 구축방안의 특성과 한계점을 검토하고, 대상 정보의 지식구조의 반영 및 정보 간의 의미관계 추론을 지원하는 온톨로지 기반의 주제 색인어 구조화 방안을 제시한다. 기존의 용어 중심의 시소러스와 달리, 단계별 연구프로세스 과정에서 수행되는 연구자의 정보행위 및 수요 분석에 때라 주제색인어의 개념을 식별 범주화하고, 인문사회과학 분야 학술논문의 지식체계를 구성하는 그 개념들 간의 유기적 관계정의를 통해 주제 색인어 집합의 의미구조를 정형화하였다. 이를 기반으로 각각의 온톨로지 기반 주제 색인어 집합은 구조화된 의미 색인으로서 대상 문서의 지식체계를 표현한다. 정보수요에 따라 정의된 공리나 추론규칙을 활용하여 이용자는 문제 해결에 적합한 정보를 대상 정보의 의미관계로 구성된 주제 도메인의 학술커뮤니케이션 네트워크상에서 분석적 정보탐색을 통해 효율적으로 검색 할 수 있다.

의미 확산을 이용한 잠재 의미 색인 방법 (Latent Semantic Indexing Using Semantic Diffusion)

  • 김진화;김용혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.16-21
    • /
    • 2010
  • 잠재 의미를 색인하는 것은 문서 색인에 있어서 그 색인 품질에 주요한 요인을 차지한다. 본 논문에서 살펴보는 의미 확산 방법은 문서 집합에 나타나는 단어들의 의미적 연관성을 바탕으로 활성화 작용 모델(spreading activation model)을 구축하고 색인 대상 문서의 단어 분포를 출발점으로 삼아, 그 모델 안에서 의미적으로 수렴할 수 있도록 랜덤 워크 방법(random walk method)1)을 수정한 변형 방법을 이용해 확률을 확산시킨다. 이 방법은 단어 사이의 연관성을 따라 탐색하며 동의어와 다의어 등 단순 단어 일치로는 알 수 없는 의미적 유사 단어들이 의미 있는 확률 분포를 갖게 한다. 이는 단어들의 의미 분포를 가중치 그래프를 통해 보다 합리적으로 다루게 된다. 실험에서는 문서 분류를 시행하여 평균 정확도 및 정확도-재현율 곡선을 산출하였고, 비교 실험을 통해서 전반적인 우수성을 관찰할 수 있었다.

  • PDF

LSI에서 질의 확장을 이용한 실험 (Experiments using query expansion in LSI)

  • 안성수;김동주;이기영;김한우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.151-153
    • /
    • 1999
  • 한번의 질의로 사용자가 모든 요구를 표현하기 어렵고 만족시킬 수 없기 때문에 질의를 확장하는 연구가 계속되고 있다. 본 논문에서는 LSI(Latent Semantic Indexing)에서 사용자의 질의와 의미공간에서의 용어들간의 유사도를 구해 최상위의 용어들을 순서를 정해 질의확장을 하는 방법과 LCA(Local Context Analysis)을 이용하는 방법을 제안한다. 그리고 문서 집합에 대해 3가지 가중치를 적용한 결과를 분석하고 질의확장시의 문제점과 향후 연구과제에 대해 설명한다.

  • PDF

인터넷기반 정보 검색을 위한 LSI 활용 - QR 분해를 이용한 LSI 향상 (LSI-Updating Application for Internet-based Information Retrieval - LSI Improvement Using QR Decomposition)

  • 박유진;송만석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.47-50
    • /
    • 2001
  • This paper took advantage of SVD (Singular value Decomposition) techniques of LSI(Latent Semantic Indexing) to grasp easily terminology distribution. Existent LSI did to static database, propose that apply to dynamic database in this paper. But, if dynamic applies LSI to database, updating problem happens. Existent updating way is Recomputing method, Folding-in method, SVD-updating method. Proposed QR decomposition method to show performance improvement than existent three methods in this paper.

  • PDF

개념 공간을 이용한 의미 인덱싱 (Semantic Indexing Using Concept Space)

  • 강보영;김혜정;황선옥;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.380-382
    • /
    • 2003
  • 본 논문은 문서내의 의미적인 관계에 기반하여, 문서의 내용을 보다 잘 추측할 수 있는 의미 인덱스 추출 및 가중치 부여 시스템을 제안하고자 한다. 문서 내의 개념 추출에 있어서는 기존의 어휘 체인(lexical chains)에 관한 연구를 확장하여 적용였다. 또한, 추출된 개념에서 중요 어휘에 가중치를 부여하기 위해서, 개념 벡터 공간을 이용한 정보성(information quantity)과 정보비(information ratio)를 정의하고, 인덱스의 가중치를 측정할 수 있는 정량화 할 수 있는 척도로 제시하였다.

  • PDF

시맨틱 검색을 위한 디지털 비디오 라이브러리 구축에 관한 연구 (A Study on Digital Video Library Development for Semantic-Sensitive Retrieval)

  • 장상현;임석종
    • 정보관리연구
    • /
    • 제37권4호
    • /
    • pp.93-104
    • /
    • 2006
  • 디지털 비디오 압축과 인터넷 기술의 발전으로 비디오에 대한 수요가 폭발적으로 늘어나고 있으며, 사용자 제작 콘텐트(UCC)도 대량으로 생산되고 있다. 따라서, 디지털 비디오 라이브러리 구축과 검색에 대한 기술 연구가 어느 때보다 시급하게 요구되고 있다. 그러나 사용자가 전체 비디오의 일부 내용을 의미기반으로 검색해서 보고 싶은 욕망을 충족시켜주기는 매우 어려운 상황이다. 본고에서는 디지털 비디오를 의미 검색하기 위하여 장면을 뽑아내고, 내용을 분석하는 방법을 제안하고, 5개의 스포츠(축구, 야구, 골프, 농구, 배구) 뉴스 비디오를 자동 분류한 실험 결과를 소개하였다.

OntCIA: 시맨틱 웹 기술 기반의 소프트웨어 변경 영향분석 시스템 (OntCIA: Software Change Impact Analysis System Based on the Semantic Web)

  • 송희석
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.111-131
    • /
    • 2004
  • 소프트웨어 유지보수 단계에서는 고객니즈, 마케팅 정책, 법, 제도의 변화 등으로 인한 다양한 시스템 변경 요구를 수용하여야 한다. 그러나, 소프트웨어의 비가시성문제로 인해 새로운 변경 요구사항 발생 시 수정 대상 모듈을 발견하는데 지대한 시간이 요구될 뿐 아니라 모듈의 재 사용을 어렵게 만들어 중복 모듈이 양산 됨으로써 향후 장애의 근원이 되는 악순환이 전개된다. 이에 본 연구에서는 시맨틱 웹(Semantic Web) 기술을 활용하여 이동통신사의 과금/청구 도메인의 관리자와 개발자들이 공유하고 있는 개념과 개념간 관계를 명시적으로 표현하고 이를 이용하여 변경대상 모듈을 쉽게 발견 할 뿐 아니라, 발견된 모듈에 대해 구조적 호출 및 조립 관계를 분석하도록 지원하는 온톨로지 기반 변경 영향 분석 시스템(OntCIA; Ontology based Change Impact Analysis System)을 제시한다. OntCIA는 스트링 매칭과는 근본적으로 다른 의미적 모듈검색을 지원하며 잦은 변경이 요구되는 호출 및 조립 구조 정보는 데이터 베이스에서 관리하고 도메인 지식은 온톨로지로 관리함으로써 유지 보수가 용이한 구조를 가진다.

  • PDF

국내 학술논문 주제 분류 알고리즘 비교 및 분석 (Comparison and Analysis of Subject Classification for Domestic Research Data)

  • 최원준;설재욱;정희석;윤화묵
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.178-186
    • /
    • 2018
  • 학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.

구문 다양성 해소를 위한 복합명사구 색인 방법 (A Method Of Compound Noun Phrase Indexing for Resolving Syntactic Diversity)

  • 조민희;정도헌
    • 한국콘텐츠학회논문지
    • /
    • 제11권3호
    • /
    • pp.467-476
    • /
    • 2011
  • 복합명사구는 단일어보다 명확한 의미를 갖기 때문에 의미적 정보처리에서 중요한 요소로 사용된다. 하지만 명사구의 표현형태의 다양성 때문에 같은 의미를 갖고 있다 할지라도 그 동일성을 판단하기 어렵다. 이에 본 연구에서는 이러한 구문 다양성 해소를 위해 복합명사구 색인 방법을 제안한다. 본 연구의 최종목적은 다양한 형태로 표현된 동일한 의미의 명사구를 동일한 형태의 색인어로 표현하는 것이며, 이를 위해 다음과 같은 과정을 따른다. 먼저 복합명사구 인식을 위한 규칙 템플릿을 생성하고, 국내학술논문 집합에 적용하여 복합명사구들을 추출한다. 일반적으로 복합명사구는 특정성이 크다. 이에 이를 고려한 색인어 합성규칙을 제안하고, 추출된 명사구에 적용한다. 본 연구의 성능을 객관적으로 평가하기 위해 HANTEC 2.0 테스트셋을 이용하였으며, 그 결과를 기준모델과 비교하였다. 실험과 비교를 통해 본 논문에서 제안하는 색인방법이 검색 정확률 향상에 긍정적으로 영향을 미치며, 정보검색의 성능을 향상시킬 수 있음을 확인하였다.

시간 지원 데이타 베이스 관리 시험대 (Temporal Database Management Testbed)

  • 김동호;전근환
    • 한국정보처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-13
    • /
    • 1994
  • 시간 지원 데이타베이스 관리 시험대는 유효시간과 수록 시간을 지원한다. 본 논문 에서는 시간 지원 데이타베이스 관리 시스템 시험대의 설계와 구현을 연구한다. 시험대는 구문 분석기, 의미 분석기, 코드 생성기 및 실행기로서 구성된다. 구문 분 석기는 시간 지원 질의어로부터 파스 트리를 생성한다. 그리고 의미 분석기는 시스템 카탈로그를 이용하여 시간 지원 질의어의 의미와 정당성을 점검한다. 코드 생성기는 Updata network와 같은 실행 트리를 생성하는데 실행 트리를 위하여 뷰 증진 형성 방 법을 사용하였다. 마지막으로 인덱싱 구조와 동시성 제어에 대하여 토의하였다.

  • PDF