• 제목/요약/키워드: 단어 의미 표현

검색결과 207건 처리시간 0.032초

위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법 (A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia)

  • 이호경;안재현;윤정민;배경만;고영중
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.813-821
    • /
    • 2017
  • 개체 링킹은 입력된 질의에 존재하는 개체를 표현한 개체 표현(entity mention)을 지식베이스에 존재하는 개체와 연결하여 의미를 파악하는 연구이다. 개체 링킹에 관한 연구는 지식 베이스 구축 문제, 다중 표현 문제, 개체 연결 중의성 문제, NIL 개체 인식 문제가 존재한다. 본 연구에서는 지식 베이스 구축 문제와 다중 표현 문제를 해결하기 위해 위키피디아를 기반으로 개체 이름 사전을 구축한다, 또한, 문맥 유사도, 의미적 관련성, 단서 단어 점수, 개체 표현의 개체명 타입 유사도, 개체 이름 매칭 점수, 개체인기도 점수 자질들을 기반으로 SVM(support vector machine)을 학습하여, NIL 개체를 인식하는 문제와 개체 연결 중의성을 해소하는 방법을 제안한다. 구축한 지식 베이스를 기반으로 제안한 두 방법을 순차적으로 적용하였을 때 좋은 개체 링킹 성능을 얻었다. 개체 링킹 시스템의 성능은 NIL 개체 인식 성능이 83.66%, 중의성 해소 성능이 90.81%의 F1 점수를 보였다.

UniTag 온톨로지를 이용한 태그 기반 음악 추천 기법 (A Tag-based Music Recommendation Using UniTag Ontology)

  • 김현희
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권11호
    • /
    • pp.133-140
    • /
    • 2012
  • 본 논문에서는 소셜 음악 사이트에서 사용자들이 생성한 태그를 바탕으로 음악을 추천하는 기법을 제안한다. 협력적 태깅 시스템은 사용자가 직접 선정한 단어를 콘텐츠에 부여할 수 있도록 하므로, 사용자의 선호도를 구체적으로 파악할 수 있는 정보를 제공한다. 특히, 감정을 표현하는 감정 태그들은 음악 장르나 음악가와 같이 사실을 나타내는 사실 태그들과는 다르게 선호도를 훨씬 직접 표현하고 있다. 따라서 태그의 의미를 파악하여 감정 태그와 사실 태그로 분류하고, 감정 태그는 감정표현의 정도에 따라 가중치를 부여하기 위해서 UniTag라고 하는 태그 온톨로지를 개발하였다. UniTag 온톨로지를 이용하여 정제된 태그 집합은 사용자 프로파일 생성에 사용되며, 태그 기반 사용자 프로파일을 바탕으로 음악 추천 알고리즘을 수행하였다. 제안하는 추천 방법의 효율성을 평가하기 위해서, 전통적인 청취 횟수 기반 추천, 감정 태그 가중치를 고려하지 않은 추천, 그리고 감정 태그 가중치를 고려한 추천의 세 가지 추천 방법의 정확도와 재현율을 비교하였다. 실험 결과는, 감정 태그 가중치를 고려한 추천 방식이 정확도의 측면에서 다른 두 가지 방식보다 효율적이라는 것을 보여준다.

영상콘텐츠분야의 정권별 의미연결망 연구 (A Study on the Semantic Network Structure of the Regime in the Image Contents)

  • 황고은;문신정
    • 한국비블리아학회지
    • /
    • 제28권3호
    • /
    • pp.217-240
    • /
    • 2017
  • 이 연구는 영상콘텐츠분야 연구의 의제설정 경향을 분석하여, 정권별 정책과 연결되는 의미화 과정을 제시했다. 이를 위해 문화산업의 도입시점인 <문민정부(1993년)>부터 <박근혜정부(2016년)>까지의 영상콘텐츠 석박사학위논문 총 2,624편의 초록에서 43,991개의 단어를 추출하고 의미연결망 분석을 실시하였다. 분석방법은 R프로그램의 다양한 패키지를 활용하였으며, 이를 통해, 텍스트 분석과 시각화를 도출하였다. 연구 결과는, 첫째, 영상콘텐츠분야 연구는 출현빈도별, 정권순서별로 '영상', '미디어', '콘텐츠'의 순위와 순서로 진화되었다. 둘째, 정권별로는 3단계 연구흐름을 볼 수 있다. <문민정부>는 '교육'과 '표현', <국민의정부>와 <참여정부>에서는 '미디어', <이명박정부>와 <박근혜정부>에서는 '콘텐츠'관련 연구들이 중심이 되었다. 셋째, 연구대상 기간 또는 정권별 기간 내내 지속적으로 꾸준하게 진행되는 연구주제는 '방송', '디지털', '기술', '제작' 등이며, 향후에도 계속 진행될 것으로 보인다. 마지막으로 각 정권마다 새롭게 등장한 연구대상이 있었다. <문민정부>는 '콤팩트디스크기억장치(CD-ROM)', <국민의정부>는 '워터마크', '고화질', '3D', '가상현실', <참여정부>는 '플랫폼', <이명박정부>는 '모바일', '애플리케이션', <박근혜정부>는 '스마트'이며, '콤팩트디스크기억장치'와 '워터마크' 등은 단기에 소멸되었다. 연구의 의제설정과 산업화 과정에서 트렌드와 미래예측이 필요하다고 보여 진다.

한국어 병렬문의 통사, 의미, 문맥 분석을 위한 결합범주문법 (Combinatory Categorial Grammar for the Syntactic, Semantic, and Discourse Analyses of Coordinate Constructions in Korean)

  • 조형준;박종철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.448-462
    • /
    • 2000
  • 자연언어처리에 있어서 병렬구문은 분석의 복잡성, 단어의 애매성, 서술어 생략 등에 따른 처리의 어려움을 내포하고 있다. 본 논문에서는 한국어에서 발생하는 병렬문의 통사적 특징을 능력문법 (competence grammar)의 입장에서 접근하고 분석된 결과를 기반으로 하여 한국어 병렬문 해석을 위한 결합범주문법 (Combinatory Categorial Grammar)을 제안한다. 제안된 결합범주문법을 사용해서 병렬문에 대한 각각 다른 수준의 통사적, 의미적, 문맥적 정보들이 사전에 어휘적으로 통합될 수 있고 통합된 정보를 이용하여 통사적, 의미적, 문맥적 분석들이 각각 다른 수준의 처리를 거치지 않고 동시에 점진적으로 유도될 수 있음을 보인다. 유도된 정보들을 통해 일반적으로 한국어 병렬문의 주된 기능이라고 생각되는 두 문장이 가지는 정보를 대조, 비교하는 기능이 표현될 수 있음을 보인다. 말뭉치를 분석하여 병렬문이 한국어 처리에서 차지하는 비중과 제시한 문법으로 처리할 수 없는 문형들에 대한 논의를 제공한다.

  • PDF

VILODE : 키 프레임 영상과 시각 단어들을 이용한 실시간 시각 루프 결합 탐지기 (VILODE : A Real-Time Visual Loop Closure Detector Using Key Frames and Bag of Words)

  • 김혜숙;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권5호
    • /
    • pp.225-230
    • /
    • 2015
  • 본 논문에서는 키 프레임 영상과 SURF 특징점 기반의 시각 단어들을 이용한 효과적인 실시간 시각 루프 결합 탐지기 VILODE를 제안한다. 시각 루프 결합 탐지기는 과거에 지나온 위치들 중 하나를 다시 재방문하였는지를 판단하기 위해, 새로운 입력 영상을 이미 지나온 위치들에서 수집한 과거 영상들과 모두 비교해보아야 한다. 따라서 새로운 위치나 장소를 방문할수록 비교 대상 영상들이 계속해서 증가하기 때문에, 일반적으로 루프 결합 탐지기는 실시간 제약과 높은 탐지 정확도를 동시에 만족하기 어렵다. 이러한 문제점을 극복하기 위해, 본 시스템에서는 입력 영상들 중에서 의미 있는 것들만을 선택해 이들만을 비교하는 효과적인 키 프레임 선택 방법을 채택하였다. 따라서 루프 탐지에 필요한 영상 비교를 대폭 줄일 수 있다. 또한 본 시스템에서는 루프 결합 탐지의 정확도와 효율성을 높이기 위해, 키 프레임 영상들을 시각 단어들로 표현하고, DBoW 데이터베이스 시스템을 이용해 키 프레임 영상들에 대한 색인을 구성하였다. TUM 대학의 벤치마크 데이터들을 이용한 실험을 통해, 본 논문에서 제안한 시각 루프 결합 탐지기의 높은 성능을 확인할 수 있었다.

이중 언어 기반 패러프레이즈 추출을 위한 피봇 차별화 방법 (Pivot Discrimination Approach for Paraphrase Extraction from Bilingual Corpus)

  • 박에스더;이형규;김민정;임해창
    • 인지과학
    • /
    • 제22권1호
    • /
    • pp.57-78
    • /
    • 2011
  • 패러프레이즈는 같은 의미를 다른 단어를 사용하여 표현한 것을 말한다. 패러프레이즈는 일상적인 언어생활에서도 흔히 관측되며 자연어처리 분야에서 다양하게 활용할 수 있다. 특히 최근에는 통계적 기계 번역 분야에서 데이터 부족 문제를 보완하여 번역 성능을 향상시키기 위해 패러프레이즈를 활용한 연구가 많다. 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇으로 사용하기 때문에 단어 정렬 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류가 패러프레이즈로 전파될 수 있다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우에는 단어 정렬 오류가 더 심각하기 때문에 피봇 프레이즈부터 잘못 추출되는 경우가 많아진다. 이러한 문제를 보완하기 위해 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서 어휘, 품사 정보를 이용해 올바른 피봇 프레이즈에 더 높은 가중치를 부여하는 방법을 제안한다. 실험 결과, 제안하는 피봇 가중치 부여 방법을 기존의 패러프레이즈 추출 방법에 추가했을 때 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다. 또한, 제안하는 방법을 통해 추출한 패러프레이즈를 한영 기계 번역 시스템에서 활용하였을 때 번역률이 향상됨을 확인할 수 있었다.

  • PDF

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

학습률 향상을 위한 딥러닝 기반 맞춤형 문제 추천 알고리즘 (Deep learning-based custom problem recommendation algorithm to improve learning rate)

  • 임민아;황승연;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.171-176
    • /
    • 2022
  • 최근 딥러닝 기술의 발전과 함께 추천 시스템의 영역도 다양해졌다. 본 논문은 학습률 향상을 위한 알고리즘을 연구하였으며 Word2Vec 모델의 성능 특징과 비교를 통해 단어에 따른 유의어 결과를 연구하였다. 문제 추천 알고리즘은 Word2Vec 모델의 특징인 텍스트 간 의미 반영 및 유사성 테스트를 통해 표현된 값으로 구현됐다. Word2Vec 의 학습 결과를 통해 텍스트 유사도 값을 이용해 문제 추천을 진행하였으며 유사도가 높은 문제를 추천할 수 있다. 실험 과정에서 정량적인 데이터양으로는 정확성이 낮아지는 결과를 보았으며 데이터 셋의 데이터양이 방대할수록 정확성을 높일 수 있음을 확인하였다.

시뮬레이션을 통한 지식의 자동 획득 (Simulation based Automatic Knowledge Acquisition)

  • 이강선;김명희
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 1993년도 제3회 정기총회 및 추계학술발표회
    • /
    • pp.11-11
    • /
    • 1993
  • 도메인에 대한 전문 지식 획득(Acquisition of expert knowlegde)은 지식 제공자인 인간 전문가에 의존한다. 도메인이 복잡해 질수록 인간 전문가로부터 관련된 모든 지식을 획득하기란 어렵다. 이런 지식 획득의 어려움을 부분 흑은 완전 자동화된 지식 획득 시스템을 통해 해결하려는 많은 연구가 있어 왔다. 그러나 지식 획득을 위한 여러 시도들은 지식 제공자의 촛점이 도메인이 아닌 표현 구조나 도구- representation environment -에 보다 치우치게 하여, 잘못된 지식을 획득하게 하거나 주요지식이 생략되는 경우를 보이기도 한다. 또한 정적인 관계(relationship)에 의해서만 지식(Static Knowledge)을 생성하므로 시간흐름에 따라변화하는 지식을 나타내기는 어렵다. 본 연구에서는 시뮬레이션을 통한 자동 지식 획득(Simulation Based automatic Knowledge Acquisition) 방법을 제시한다. 이 방법은 1) 도메인에 관한 초기 인과관계 정보를 입력 받고, 2) 입력된 정보를 일정한 프레임에 따라 구조화 시켜 경험 베이스를 구성하고 이를 탐색하여 도메인과 관련된 확장된 정보를 얻은 후, 3) 위의1),2)를 통해 얻어진 정보를 분석하여 주어지는 입력에 대해 다양한 출력을 낼 수 있는 시뮬레이션 모델을 생성한다. 이 모델은 다음 단계의 지식 생성을 위한 수단(resource)이 되며, 구간값과 같은 불확실한 정보를 포함할 수 있는 구조이다. 마지막으로 4) 생성된 모델을 시뮬레이션하여 결과로 생성된 지식을 획득한다. 위의 과정에서, 지식획득을 위한 수단인 시뮬레이션 모델이 지식 제공자의 개입 없이 자동 생성됨에 따라, 지식 제공자는 도메인 관련 지식 그 자체에 집중할 수 있으며, 생성된 모델을 시뮬레이션한 결과에 의해 지식을 생성함으로써 동적인 지식이 얻어질 수 있다. DEVS 모델에 대한 타당성 검사 방법을 고찰하고 그 문제점에 대하여 자세히 설명한다. DEVS 모델의 타당성 검사에 이용하는 SPN 모델에 대한 개념과 DEVS 모델과 행위적으로 동등한 SNP 모델로 변환을 위한 관점을 제조명하다. 동일한 관점에서 두 모델의 상태표현이 같도록 DEVS 모델이 SPN 모델로 표현됨을 보이는 변환이론을 제시하고 변환이론을 바탕으로 모델 변환과정을 제시한다. 모델 변환이론과 변환고정을 기본으로 타당성 검사를 위한 새로운 동질함수(homogeneous function)를 정의하고 이와 함께 SPN 모델의 특성을 이용하여 DEVS 모델에 대한 타당성 검사 방법을 새롭게 제안한다. 에탄올투여로 증가된 유리기 해독계 효소인 GSH-Px활성을 큰 폭으로 감소시키고 에탄올투여로 감소된 비효소적 항산화작용을 나타내는 GSH함량을 다량 증가시킴으로서 지질과산화물에 대한 방어력이 증가되어 나타난 결과로 여겨지며, 또한 혈청중의 ALT, ALP 및 LDH활성을 유의성있게 감소시키므로서 감잎 phenolic compounds가 에탄올에 의한 간세포 손상에 대한 해독 및 보호작용이 있는 것으로 사료된다.반적으로 홍삼 제조시 내공의 발생은 제조공정에서 나타나는 경우가 많으며, 내백의 경우는 홍삼으로 가공되면서 발생하는 경우가 있고, 인삼이 성장될 때 부분적인 영양상태의 불충분이나 기후 등에 따른 영향을 받을 수 있기 때문에 앞으로 이에 대한 많은 연구가 이루어져야할 것으로 판단된다.태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$ elements)로 가정한다. 즉, [+wh] 의미의 겹의문사는 동일한 구성요 소를 지닌 병렬적 합성어([$[W1]_{XO-}$ $[W1]_{XO}$ ]$

  • PDF