• 제목/요약/키워드: 의미 색인

검색결과 380건 처리시간 0.027초

의미 확산을 이용한 잠재 의미 색인 방법 (Latent Semantic Indexing Using Semantic Diffusion)

  • 김진화;김용혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.16-21
    • /
    • 2010
  • 잠재 의미를 색인하는 것은 문서 색인에 있어서 그 색인 품질에 주요한 요인을 차지한다. 본 논문에서 살펴보는 의미 확산 방법은 문서 집합에 나타나는 단어들의 의미적 연관성을 바탕으로 활성화 작용 모델(spreading activation model)을 구축하고 색인 대상 문서의 단어 분포를 출발점으로 삼아, 그 모델 안에서 의미적으로 수렴할 수 있도록 랜덤 워크 방법(random walk method)1)을 수정한 변형 방법을 이용해 확률을 확산시킨다. 이 방법은 단어 사이의 연관성을 따라 탐색하며 동의어와 다의어 등 단순 단어 일치로는 알 수 없는 의미적 유사 단어들이 의미 있는 확률 분포를 갖게 한다. 이는 단어들의 의미 분포를 가중치 그래프를 통해 보다 합리적으로 다루게 된다. 실험에서는 문서 분류를 시행하여 평균 정확도 및 정확도-재현율 곡선을 산출하였고, 비교 실험을 통해서 전반적인 우수성을 관찰할 수 있었다.

  • PDF

지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구 (An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI))

  • 이지혜;정영미
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.451-462
    • /
    • 2009
  • 본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

잠재적 의미 색인을 이용한 유사 질의어 확장 (Query expansion by Similar words Using LSI)

  • 임태훈;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.165-169
    • /
    • 2009
  • 오늘날 인터넷 검색은 하루가 다르게 발전되고 있다. 주로 키워드 매칭에 의존을 둔 지금의 검색 서비스들은 사용자 중심의 아이템들을 개발해 정보검색의 경과시간 및 결과의 분류면에서 우수함을 보여주고 있다. 질의어의 의미에 유사한 검색은 아직은 발전하는 단계로, 내용에 기반을 둔 검색 환경에 초점이 맞춰지고 있다. 이와 관련하여 행렬의 특이치 분해(SVD)를 이용한 잠재적 의미 색인 기법(LSI)을 본 연구에서 다루고자 한다. 구축한 시스템의 성능 평가는 재현도 계산으로 비교되었는데 작은 크기의 특이값(singular value)들 생략에 의한 SVD의 성능과 그것을 재이용, 질의어에 대한 의미 구조상 근접한 용어들을 찾아 질의어를 확장한 후 적합한 문서들의 검색을 사용한 특이값 개수, 유사단어 확장 개수를 달리하여 실험하였다. 실험 결과, 특이값 2개를 사용한 잠재적 의미 색인이 특이값 3개를 사용한 잠재적 의미 색인보다 보다 나은 성능을 보였다. 그리고 조건을 달리한 모든 잠재적 의미 색인의 경우 단어 매칭에 의한 적합문서 검색보다 별 뚜렷한 나은 결과는 보이지 않았다. 하지만 의미적으로 관계가 깊은 유사어들을 찾아냈고, 의미적으로 가장 관계 깊은 문서를 대부분의 경우에서 순위 1위로 찾아내는 부분적 우수함을 보였다.

  • PDF

잠재 의미 색인 기법을 이용한 국제 특허 분류 (International Patent Classificaton Using Latent Semantic Indexing)

  • 진훈태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

비평그래픽의 색인과 검색 (Indexing & Retrieval of Critical Graphics)

  • 정상원
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1997년도 제4회 학술대회 논문집
    • /
    • pp.31-34
    • /
    • 1997
  • 비평그래픽은 사회ㆍ역사적 정보자료 또는 예술자료로서 귀중한 가치를 갖는다. 비평그래픽정보의 색인과 검색을 위한 기초로서 비평그래픽의 구조와 색인방법을 제시하였다. 색인방법으로는 비평그래픽이 갖는 이중구조에 따라 외부의미에 의한 외부색인과 내부의미에 의한 내부색인방법을 제시하였으며 색인도구로는 이중구조로된 시소러스구축을 제안하였다.

  • PDF

형용사의 의미가 색 구별에 미치는 영향: 스트룹 과제를 통한 검증 (The effects of adjective meaning on response to color: A test using Stroop task)

  • 홍성균;김경호;이형철;김신우
    • 인지과학
    • /
    • 제28권1호
    • /
    • pp.27-42
    • /
    • 2017
  • 스트룹 효과(Stroop, 1935)는 매우 신뢰롭게 관찰되는 현상으로 이를 응용한 다양한 연구들이 존재한다. 전통적인 스트룹 실험에서는 색과 색 이름을 실험자극으로 사용하였으나 이후 연구들은 어떤 색(예: green)과 그 색을 전형적으로 보여주는 대상의 이름 (예: grass)을 사용한 경우에도 일치 혹은 불일치 조건에 따라 유사한 효과가 발생한다는 것을 보고하였다(Klein, 1964). 그런데 의미표상(semantic representation)의 검증을 위해 스트룹 효과를 활용한 기존 연구들은 대부분 구체적인 대상들과 색의 연합을 검증했기 때문에 구체명사(concrete noun)와 그에 상응하는 색 이름을 연구에 활용하였다(예: Dalrymple-Alford, 1968, 1972; Klein, 1964). 그런데 최근 Sherman과 Clore(2009)는 구체적 대상이 없는 단어의 도덕적인 의미(예: honesty, crime)에 따라 흰색 혹은 검은색으로 제시되었을 때에도 색에 대한 반응이 빨라지거나 느려진다는 것을 보고하였다. 이에 근거하여 본 연구에서는 스트룹 과제를 사용하여 형용사의 온열감각 차원의 의미 (예: 따스한, 냉정한)와 색 온도 (따뜻한 색, 차가운 색)의 연합을 스트룹 과제를 통해 검증하였다. 그 결과 형용사의 온열차원의 의미와 색 온도가 불일치할 때 보다 일치할 때 참가자들은 색에 대해 더 빠르게 반응한다는 것을 확인할 수 있었으며, 형용사의 의미와 색 온도 간의 상호작용을 관찰할 수 있었다. 본 연구의 결과는 스트룹 관련 연구들에서 주로 사용해온 구체명사가 아닌 추상적인 형용사에서도 스트룹 효과가 발생한다는 것을 보여주었다는 점에서 기존 연구들과 차이점을 가진다. 또한 무채색을 사용한 Sherman과 Clore(2009)의 연구와 달리 색상을 사용한 경우에도 단어의 의미에 따라 스트룹 효과를 획득할 수 있다는 새로운 결과를 보여준다.

XML 문서의 효율적인 저장구조와 색인 모델의 설계 (Design of Efficient Storage Structure and Indexing Model of XML Document)

  • 김은정
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.301-303
    • /
    • 2002
  • XML 문서는 문서의 내용뿐 아니라, 의미를 가지는 구조 정보, 그리고 다양한 의미를 부과할 수 있는 링크 정보를 가지고 있다. 본 논문에서는 XML 문서를 보다 효율적으로 관리하기 위하여 DTD와 XML 문서에 대한 새로운 저장 방법과 이를 이용한 색인 모델을 제안한다. 이를 위해 하나의 XML 문서를 저장함에 있어, 엘리먼트 구조 정보, 애트리뷰트 정보, 링크 정보의 구성 방법을 제시하고, 이를 바탕으로 링크 정보론 이용한 내용 검색 색인 모델과 구조 검색, 애트리뷰트 검색을 위한 색인 모델을 설계한다. 또한 제안된 모델에서의 사용자들의 다양한 질의 유형의 처리 과정을 설명한다.

  • PDF

영어문장제공시스템에서 한국어문장의 색인방법 (Indexing Methods of Korean Sentences in the English Sentences Offering System for English Composition)

  • 이태영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.219-222
    • /
    • 1998
  • 한국어문장과 의미가 같은 영어문장을 검색해 내기 위하여 한국어문장을 분석하고 색인언어를 고안하였다. 명사와 더불어 용언, 보조용언, 조사, 접속사 등이 색인어 및 기호로 선정되었다. 색인어 수를 줄이는 데 용언과 명사의 유사의미 단어들의 통제가 필요하였다.

  • PDF

XML 링크의 의미 속성을 이용한 개선된 검색 시스템을 위한 색인 기법에 대한 연구 (A Study on Indexing Method for Advanced Retrieval System using Semantics Attributes in XML Links)

  • 김은정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1855-1858
    • /
    • 2002
  • XML 문서에 대한 검색은 문서내 색인어 발생 빈도에 의한 내용 검색과 문서내 특정 엘리먼트에 의한 구조 검색 그리고 내용과 구조를 모두 검색하는 혼합 검색 등이 있다. 본 논문에서는 사용자의 질의에 대하여 문서에 의존하는 것이 아니라, 링크를 검색하여 특정 색인어에 대하여 가장 많은 링크를 설정 받은 문서 또는 특정 엘리먼트를 검색하는 새로운 검색 시스템을 설계한다. 이를 위해 XML 문서를 저장할 때 구조 정보와 함께 링크 정보를 저장하고 XML 링크에서 의미 속성인 ROLE, TITLE을 색인한다. 제안된 색인 모델에서는 정보를 찾는 사용자들의 질의를 보다 다양한 시각에서 검색할 수 있으며, 따라서 이러한 사용자들의 질의 유형과 그 처리 과정을 설명하고 의미를 분서한다.

  • PDF

연구.학술정보 효율적 검색을 위한 온톨로지 기반의 주제 색인어 구조화 방안 연구 (A Study on Ontology-based Keywords Structuring for Efficient Information Retrieval)

  • 송인석
    • 정보관리연구
    • /
    • 제39권4호
    • /
    • pp.121-154
    • /
    • 2008
  • 본 연구에서는 정보검색도구 관점에서 지식조직체계로서 기존 시소러스 구축방안의 특성과 한계점을 검토하고, 대상 정보의 지식구조의 반영 및 정보 간의 의미관계 추론을 지원하는 온톨로지 기반의 주제 색인어 구조화 방안을 제시한다. 기존의 용어 중심의 시소러스와 달리, 단계별 연구프로세스 과정에서 수행되는 연구자의 정보행위 및 수요 분석에 때라 주제색인어의 개념을 식별 범주화하고, 인문사회과학 분야 학술논문의 지식체계를 구성하는 그 개념들 간의 유기적 관계정의를 통해 주제 색인어 집합의 의미구조를 정형화하였다. 이를 기반으로 각각의 온톨로지 기반 주제 색인어 집합은 구조화된 의미 색인으로서 대상 문서의 지식체계를 표현한다. 정보수요에 따라 정의된 공리나 추론규칙을 활용하여 이용자는 문제 해결에 적합한 정보를 대상 정보의 의미관계로 구성된 주제 도메인의 학술커뮤니케이션 네트워크상에서 분석적 정보탐색을 통해 효율적으로 검색 할 수 있다.