• Title/Summary/Keyword: 잠재적 의미 분석

Search Result 260, Processing Time 0.029 seconds

Agglomerative Hierarchical Clustering Using Latent Semantic Analysis in Information Retrieval (정보 검색에서의 잠재 의미 분석 방법을 이용한 응집 계층 군집화 기법 연구)

  • Khiati, Abdel-Ilah Zakaria;Kang, Daehyun;Park, Hansaem;Kwon, Kyunglag;Chung, In-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.952-955
    • /
    • 2014
  • 본 논문에서는 정보 검색 분야에서 잘 알려진 잠재 의미 분석 방법과 계층적 군집화 방법의 단점을 상호 보완하여 보다 효율적인 정보 검색을 위한 혼합형 군집화 방법을 제안한다. 먼저, 잠재 의미 분석 방법은 벡터 연산을 통하여 자동적으로 문서 내에 있는 잠재적인 의미를 찾는 정보 검색분야에서 많이 사용되는 고전적인 방법이다. 그러나 이 방법은 언어의 유의성이나 다의성으로 인하여 발생되는 백-오브-워드(bag-of-word) 문제를 가지고 있다. 두 번째 방법인 문서 군집화를 위하여 범용적으로 사용되고 있는 계층적 군집화 방법이다. 이 방법은 이를 통하여 분석된 군집의 질적 측면에서 볼 때, 여전히 단층적 군집들이 많이 형성되어 세부적인 분석을 통한 추가적인 군집화가 필요함을 알 수 있다. 따라서, 본 논문에서는 앞서 언급한 문제점을 해결하기 위하여 혼합적인 방법으로 잠재 의미 분석 방법을 이용한 응집 계층 군집화 방법을 제안한다. 제안한 방법을 이용하여 잘 알려진 두 개의 데이터에 적용하고 기존의 방법과 그 결과를 비교함으로써 군집의 질적 측면에서의 우수함을 보인다.

International Patent Classificaton Using Latent Semantic Indexing (잠재 의미 색인 기법을 이용한 국제 특허 분류)

  • Jin, Hoon-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

Comparing the Use of Semantic Relations between Tags Versus Latent Semantic Analysis for Speech Summarization (스피치 요약을 위한 태그의미분석과 잠재의미분석간의 비교 연구)

  • Kim, Hyun-Hee
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.47 no.3
    • /
    • pp.343-361
    • /
    • 2013
  • We proposed and evaluated a tag semantic analysis method in which original tags are expanded and the semantic relations between original or expanded tags are used to extract key sentences from lecture speech transcripts. To do that, we first investigated how useful Flickr tag clusters and WordNet synonyms are for expanding tags and for detecting the semantic relations between tags. Then, to evaluate our proposed method, we compared it with a latent semantic analysis (LSA) method. As a result, we found that Flick tag clusters are more effective than WordNet synonyms and that the F measure mean (0.27) of the tag semantic analysis method is higher than that of LSA method (0.22).

An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI) (지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구)

  • Lee, Ji-Hye;Chung, Young-Mee
    • Journal of the Korean Society for information Management
    • /
    • v.26 no.3
    • /
    • pp.451-462
    • /
    • 2009
  • The aim of this study is to apply latent semantic indexing(LSI) techniques for efficient automatic classification of opinionated documents. For the experiments, we collected 1,000 opinionated documents such as reviews and news, with 500 among them labelled as positive documents and the remaining 500 as negative. In this study, sets of content words and sentiment words were extracted using a POS tagger in order to identify the optimal feature set in opinion classification. Findings addressed that it was more effective to employ LSI techniques than using a term indexing method in sentiment classification. The best performance was achieved by a supervised LSI technique.

A Comparison between Factor Structure and Semantic Representation of Personality Test Items Using Latent Semantic Analysis (잠재의미분석을 활용한 성격검사문항의 의미표상과 요인구조의 비교)

  • Park, Sungjoon;Park, Heeyoung;Kim, Cheongtag
    • Korean Journal of Cognitive Science
    • /
    • v.30 no.3
    • /
    • pp.133-156
    • /
    • 2019
  • To investigate how personality test items are understood by participants, their semantic representations were explored by Latent Semantic Analysis, In this thesis, Semantic Similarity Matrix was proposed, which contains cosine similarity of semantic representations between test items and personality traits. The matrix was compared to traditional factor loading matrix. In preliminary study, semantic space was constructed from the passages describing the five traits, collected from 154 undergraduate participants. In study 1, positive correlation was observed between the factor loading matrix of Korean shorten BFI and its semantic similarity matrix. In study 2, short personality test was constructed from semantic similarity matrix, and observed that its factor loading matrix was positively correlated with the semantic similarity matrix as well. In conclusion, the results implies that the factor structure of personality test can be inferred from semantic similarity between the items and factors.

Extraction of Concept by Latent Semantic Indexing and k-means Clustering (잠재적 의미와 k-means 군집화를 이용한 개념추출 검색)

  • 장유진;임호섭;박기림;김민구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.22-24
    • /
    • 2001
  • 정보검색 시스템에서 사용자의 질의어가 불완전함에 따라 생기는 검색 효율의 저하를 줄이기 위하여 용어의 상호관련성을 반영함과 동시에 벡터의 공간을 축소하는 LSI 모델을 사용하여 문서 집합으로부터 잠재적 의미 공간을 구축하였다. 또한 의미 공간상에 있는 문서의 분포에 따라 \"개념\"을 추출하기 하기 위해 k-means algorithm을 사용하여 군집화 시켰다. 이로부터 불완전한 초기 사용자 질의어를 의미 공간에 구축된 클러스터링 정보로 수정하여 새로운 질의어를 생성함으로 검색의 효율을 높이고자 하였다. 검색 효율을 측정하기 위해 TREC 데이터를 이용하여 분석하였으며 결과는 질의어의 성격에 따라 달라졌으나 대체적으로 우수한 성능을 보였다.한 성능을 보였다.

  • PDF

A Study of 'Greimas' Semiological Approach in Animation Character (그레마스 기호학적 접근을 통한 애니메이선 캐릭터 분석 -장편 애니메이션 "슈렉" 을 중심으로-)

  • Lim, Woon-Joo
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.5
    • /
    • pp.99-106
    • /
    • 2009
  • The purpose of this study is to analyze character of animation, , on the basis of Greimas' semiotic theory. Animation consists of activities between characters shown in narrative. The characters' activities show their value system and meaning. Hierarchical value system is created in the process that unrevealed, latent value is generated and character's thought and activity enlarge their meanings by creating various relationships with other character. Form this viewpoint, the study tried to analyze systematic characteristic shown in animation character and meaning structure shown in correlation through Greimas' model actant and semiotic square model.

Similar Patent Search Service System using Latent Dirichlet Allocation (잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템)

  • Lim, HyunKeun;Kim, Jaeyoon;Jung, Hoekyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.22 no.8
    • /
    • pp.1049-1054
    • /
    • 2018
  • Keyword searching used in the past as a method of finding similar patents, and automated classification by machine learning is using in recently. Keyword searching is a method of analyzing data that is formalized through data refinement. While the accuracy for short text is high, long one consisted of several words like as document that is not able to analyze the meaning contained in sentences. In semantic analysis level, the method of automatic classification is used to classify sentences composed of several words by unstructured data analysis. There was an attempt to find similar documents by combining the two methods. However, it have a problem in the algorithm w the methods of analysis are different ways to use simultaneous unstructured data and regular data. In this paper, we study the method of extracting keywords implied in the document and using the LDA(Latent Semantic Analysis) method to classify documents efficiently without human intervention and finding similar patents.

A Study on Ecotope Diversity Transition Analysis in the Middle of Mankyung River (만경강 중류 에코톱다양성 추이분석 연구)

  • Kim, Woo Ram;Kim, Ji Sung;Kim, Kyu Ho
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.480-480
    • /
    • 2016
  • 에코톱은 생태학적 지휘체계(Niche)와 서식처(Habitat)가 결합된 환경을 의미하며 도면에서 최소한의 단위로 일반적인 구성요소의 상태, 잠재자연식생, 잠재생태계 기능으로 균일하게 분류가 가능한 요소로서 천이단계 또는 토지이용이 서로 다른 패치들로 이루진 생태공간을 의미한다. 따라서 에코톱과 비오톱은 식물과 동물의 특정 군집에 요구되는 서식공간의 개념에서는 의미가 같지만 비오톱은 서식공간의 일부분 또는 한 개 이상의 생물이 서식가능한 공간의 개념으로 사용된다. 현재 네덜란드, 스페인을 포함한 유럽국가에서는 에코톱분류를 통한 하천을 관리하는 방안을 제시하고 있으며 이에 대한 많은 연구가 진행되고 있다. 본 연구에서는 만경강 중류 소양천 합류점에서 전주천 합류점까지 약 3.5km 구간의 제외지포함 제내지 1km 폭을 대상으로 1918년 고지도 토지피복을 분류하고, 1948년 해방이전 항공사진, 2003년 2014년 항공사진을 활용한 에코톱을 분류하여 이에 대한 에코톱 다양성지수를 추이분석하여 하천으로부터 떨어진 거리 별 에코톱다양성지수 변화를 분석하였다. 분석결과 과거 제방축조 이전인 1918년 에코톱 다양성 지수는 하천으로부터 멀어질수록 안정적으로 감소하였으나 1948년 이후의 하천은 제내지에서부터 지수값이 급격히 감소한 것을 알 수 있었다. 이는 1948년 이후의 만경강은 과거 1918년 하천에 비해 구하도 공간이 농경지 증가, 보설치 등으로 인한 인위적 교란에 의한 감소로 분석되어지며 에코톱다양성과 밀접한 연관이 있는 생물종다양성 역시 감소하였음을 유추할 수 있다.

  • PDF

CPQRA를 이용한 위험물질의 누출에 따른 독성인자평가

  • 이수길;이내우;최재욱;설수덕
    • Proceedings of the Korean Institute of Industrial Safety Conference
    • /
    • 1997.11a
    • /
    • pp.59-64
    • /
    • 1997
  • 화학관련분야의 공정안전에 관하여 오랜 역사를 가진 AIChE는 관련산업분야의 안전규정을 예방적인 측면과 사고원인을 규명하기 위한 측면에서 근원적인 자료를 제시하였고 1955년 AIChE에 의해 설립된 CCPS(center for chemical process safety)는 이에 관한 기술적인 면에 더욱 발달된 정보를 제공하게 되었다. 이런 정보들 가운데 사업장의 위험물질이 지니고 있는 위험성을 어떻게 평가할 것인가에 관하여 CPQRA(chemical process quantitative risk analysis)방법이 제시되어 있다. 1) CPQRA는 양적인 의미에서 위험성의 정의, 분석, 평가, 통제 및 관리방법 등에 대비해 잠재적인 방법을 제시한 것이다. (중략)

  • PDF