• 제목/요약/키워드: 의미 수준 검색

검색결과 66건 처리시간 0.022초

LOD 클라우드에서의 연결정책 기반 동일개체 심층검색 및 정제 시스템 구현 (Implementation of Policy based In-depth Searching for Identical Entities and Cleansing System in LOD Cloud)

  • 김광민;손용락
    • 인터넷정보학회논문지
    • /
    • 제19권3호
    • /
    • pp.67-77
    • /
    • 2018
  • 본 연구에서는 동일연결트리플들을 생성하는 대신 각 LOD마다 연결정책을 수립, 공개하고 검색 시점에서 참조하는 방식으로 개체간의 동일성을 파악하는 방안과 이러한 연결정책을 명세하기 위한 어휘를 제안하였다. 또한, 연졀정책이 운영되는 환경에서 여러 LOD들에 걸친 심층검색이 실질적으로 진행되는 것을 확인하기 위하여 PISC(Policy based In-depth Searching and Cleansing)을 구현하였으며 이를 Github에 공개하였다. LOD 클라우드는 여러 LOD들의 자발적인 참여로 이루어짐에 따라 검색된 개체들의 동일성에 대한 평가가 필요하다. 이에, PISC는 개체간 동일성 평가를 통하여 사용자가 요구한 동일수준 이상의 개체들로 정제된 검색결과를 제공한다. 검색결과로는 RDF로 모델링된 개체별 상세 검색내용과 이에 대한 의미적 구조인 온톨로지를 함께 제공된다. PISC에 대한 실험은 DBpedia의 5개 LOD를 대상으로 진행하였으며 소스와 타겟 RDF 트리플 목적어의 유사도를 0.9 정도로 요구할 경우 검색결과가 적절한 확장률과 포함률을 가지는 것으로 확인하였다. 또한, 연결정책에는 3개 이상의 타겟LOD를 명세할 경우 동일성이 충분히 검증된 개체들을 확보할 수 있는 것으로 확인하였다.

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

탐색목적이 탐색형태에 미치는 영향에 관한 연구 (The Effect of the Search Goal Requirements on Online Searching Behavior)

  • 유재옥
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.65-82
    • /
    • 1996
  • 본 연구는 탐색자들이 탐색을 수행하는 과정에서 탐색질문에 내재하고 있는 탐색목적을 탐색과정에 반영하려고 노력하는지를 파악하고자 하였다. 54명 탐색자들을 선정하여 탐색질문을 제시하되 탐색목적을 정확률을 높이는 탐색과 재현율을 높이는 탐색으로 구분하여 두번 탐색하도록 요청하였다. 비록 동일한 탐색질문이라 할지라도 탐색목적이 다른 경우, 탐색자들은 탐색목적을 충족시키기 위해 노력하는지를 탐색자들이 투입하는 탐색노력 변수와 탐색결과 변수로 살펴보았다. DIALOG 정보 검색 시스템을 통해 ERIC ONTAP화일을 탐색한 결과 탐색자들은 정확률을 높이는 탐색과 재현율을 높이는 탐색에서 의미있게 재현율과 정확률로 측정했을 때 탐색자들은 두 종류의 탐색성취 요구수준을 의미있게 달성한 것으로 나타났다.

  • PDF

음성정보기술 국제 표준화 동향

  • 홍기형
    • 정보처리학회지
    • /
    • 제11권2호
    • /
    • pp.33-41
    • /
    • 2004
  • 언제, 어디서, 어떤 장치를 사용하더라도 정보의 검색이나 접근이 가능해지는 유비쿼터스 환경이 가시화되고 있어, 음성을 사용한 사용자 인터페이스의 중요성이 증대하고 있다. 음성인식, 합성, 화자인증 등 음성 등의 음성처리엔진의 기술 수준이 상용화 단계에 접어들고, 이동 중과 같이 모니터 등 시각적 인터페이스의 사용이 용이하지 않은 상황에서도 정보 접근기 요구가 증대함에 따라 음성은 정보시스템 의 중요한 인터페이스로 자리매김 하고 있다. 음성정보기술은 인간의 가장 자연스러운 상호작용 수단인 음성을 이용하여. 시스템에 명령을 내리고, 시스템의 명령 수행 결과를 음성으로 전달하는 음성을 이용한 정보 시스템 인터페이스를 구현하기 위 한 기술을 의미한다. 또한, 음성정보시스템은 음성을 이용한 사용자인터페이스가 가능한 정보시스템을 뜻하며, (그림 1)과 같이 음성처리엔진, 사용자 접속망, 사용자 프로파일 및 음성응용시스템으로 구성된다.(중략)

  • PDF

음성출력/학습기능을 지원하는 컴퓨터용어 약어 전자사전 설계 (A Design of Electronic Dictionary for Computer English Abbreviation Supporting Voice and Study Functions)

  • 김홍섭;이현걸;김철호;이금석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.347-357
    • /
    • 1992
  • 컴퓨터용어에 대한 약어들을 기존 사건관리 방법에서 벗어나 컴퓨터에 수록하여, 음성을 포함한 한글 및 영문풀이 조회, 추가등록, 삭제, 수정을 가능케 하여 어휘변화 및 의미파악에 신속히 대처하고, 영문, 한글 단어를 이용한 약어검색 기능과 시스템에서 임의로 문제를 출제, 학습자 수준을 측정해볼 수 있는 컴퓨터 보조학습(CAI)과 knowledge base 교체시 타분야에서 활용이 가능하도록 DB화한 약어 전문가체제로, 업무 활용자(학습자)와 컴퓨터 상호작용에 의한 개인차를 극복할 수 있도록 컴퓨터용어 약어 전자사전을 설계하였다.

  • PDF

어휘지도(UWordMap)를 활용한 명사와 용언의 다의어 중의성 해소 (Noun and Verb Polysemy Word Sense Disambiguation Using UWordMap)

  • 신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.216-219
    • /
    • 2015
  • 컴퓨터를 이용하여 명사와 용언의 의미를 자동으로 분별하는 것은 기계번역이나 검색 등의 기술에서 아주 중요한 기반 기술이다. 최근에 동형이의어 분별에 대한 연구 결과로 약 96%의 정확률을 보이는 시스템이 개발되었으나, 다의어 분별에 대한 연구는 아직 초기 단계로 일부 어휘만을 한정하여 연구되고 있다. 본 논문에서는 어휘지도를 이용하여 다의어를 분별하는 방법을 연구하였고, 어휘지도에 등록된 모든 일반 명사와 용언을 대상으로 실험하였다. 제안된 알고리즘은 문장에서 나타나는 명사와 용언의 관계를 어휘지도에서 찾고, 그 정보를 기반으로 다의어를 분별하였다. 아직은 그 정확률이 실용적인 수준이라고 볼 수는 없지만, 전체 다의어를 대상으로 실험하였고, 그 실험 결과를 분석함으로써 앞으로의 다의어 분별 연구 방향에 도움될 것으로 판단된다.

  • PDF

연상정보를 이용한 단락분할 방법 (A Passage Retrieval Method by Using Field-Associated Information)

  • 홍성옥;이상곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.497-500
    • /
    • 2003
  • 문서에 여러 가지 화제가 혼합되어 있는 문서에서 화제의 실마리 부분을 특정화하여 각 화제별 단락을 추출하는 기술은 정보검색 분야에서 중요한 역할을 담당하는 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어는 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야변로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있다.

  • PDF

피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식 (Conformer-based Elderly Speech Recognition using Feature Fusion Module)

  • 이민식;김지희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.39-43
    • /
    • 2023
  • 자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.

  • PDF

교육용 자원 저장소를 위한 의미적 분류 모델 (A Semantic Classification Model for Educational Resource Repositories)

  • 최명회;정동원
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권1호
    • /
    • pp.35-45
    • /
    • 2007
  • 이 논문에서는 교육용 저장소 자원의 체계적인 관리를 위한 분류 모델을 제안한다. 생성되는 자원들에 대한 체계적인 저장 및 관리, 정확한 검색, 그리고 활용성을 극대화하기 위해서는 정확한 분류 체계가 요구된다. 그러나 교육용 저장소 자원을 위한 분류 체계나 분류 모델에 대한 연구는 미비한 수준이다. 이는 교육 자원의 비효율적 관리, 부정확한 검색 및 낮은 활용성 등의 문제점을 초래한다. 상품 정보와 관련된 분야에서는 다양한 분류 체계에 대한 연구가 이루어져 왔다. 그러나 교육 자원 정보와 기존연구 분야의 정보는 서로 다른 특성을 지닌다. 따라서 교육용 저장소 내 자원 관리를 위한 분류 체계 및 분류 모델에 대한 연구가 요구된다. 교육 자원들에 대한 효율적이고 편리한 활용을 위해서는 여러 관점을 반영하는 분류 체계에 따라 자원들을 일관성 있게 유지 관리하여야 한다. 이 논문에서는 교육 자원의 체계적인 관리 및 활용성 향상을 위한 분류 모델을 제안한다. 즉, 교육용 저장소의 자원들에 대한 분류 체계를 다양한 관점에 따라 동적으로 유지할 수 있는 분류 모델을 제안한다. 이러한 목적을 위해 먼저 관련된 과학기술분야 분류 체계들을 바탕으로 구현 자원들에 적합한 분류 체계를 정의한다. 특히 정의된 분류 체계를 동적으로 유지 관리할 수 있는 분류 모델을 정의한다. 제안된 분류 체계 및 분류 모델은 보다 정확하고 체계적인 구현 자원에 대한 관리를 가능하게 하며 또한 활용의 용이성을 향상시킨다.

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 (Keyword Extraction from News Corpus using Modified TF-IDF)

  • 이성직;김한준
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.59-73
    • /
    • 2009
  • 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

  • PDF