• 제목/요약/키워드: 단어 의미 표현

검색결과 207건 처리시간 0.029초

단어의 위치정보를 이용한 Word Embedding (Word Embedding using word position information)

  • 황현선;이창기;장현기;강동호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.60-63
    • /
    • 2017
  • 자연어처리에 딥 러닝을 적용하기 위해 사용되는 Word embedding은 단어를 벡터 공간상에 표현하는 것으로 차원축소 효과와 더불어 유사한 의미의 단어는 유사한 벡터 값을 갖는다는 장점이 있다. 이러한 word embedding은 대용량 코퍼스를 학습해야 좋은 성능을 얻을 수 있기 때문에 기존에 많이 사용되던 word2vec 모델은 대용량 코퍼스 학습을 위해 모델을 단순화 하여 주로 단어의 등장 비율에 중점적으로 맞추어 학습하게 되어 단어의 위치 정보를 이용하지 않는다는 단점이 있다. 본 논문에서는 기존의 word embedding 학습 모델을 단어의 위치정보를 이용하여 학습 할 수 있도록 수정하였다. 실험 결과 단어의 위치정보를 이용하여 word embedding을 학습 하였을 경우 word-analogy의 syntactic 성능이 크게 향상되며 어순이 바뀔 수 있는 한국어에서 특히 큰 효과를 보였다.

  • PDF

문장 유사도를 이용한 다양한 표현의 패러프레이즈 생성 (Various Paraphrase Generation Using Sentence Similarity)

  • 박다솔;장두성;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.576-581
    • /
    • 2021
  • 패러프레이즈란 어떤 문장을 같은 의미를 가지는 다른 단어들을 사용하여 표현한 것들을 의미한다. 이는 정보 검색, 다중 문서 요약, 질의응답 등 여러 자연어 처리 분야에서 중요한 역할을 한다. 특히, 양질의 패러프레이즈 코퍼스를 얻는 것은 많은 시간 및 비용이 소요된다. 이러한 문제점을 해소하기 위해 본 논문에서는 문장 유사도를 이용한 패러프레이즈 쌍을 구축하고, 또 구축한 패러프레이즈 쌍을 이용하여 기계 학습을 통해 새로운 패러프레이즈을 생성한다. 제안 방식으로 생성된 패러프레이즈 쌍은 기존의 구축되어 있는 코퍼스 내 나타나는 표현들로만 구성된 페러프레이즈 쌍이라는 단점이 존재한다. 이러한 단점을 해소하기 위해 기계 학습을 이용한 실험을 진행하여 새로운 표현에 대한 후보군을 추출하는 방법을 적용하여 새로운 표현이라고 볼 수 있는 후보군들을 추출하여 기존의 코퍼스 내 새로운 표현들이 생성된 것을 확인할 수 있었다.

  • PDF

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

Ontofitting: 의미 표현을 위한 벡터 조정 (Ontofitting: Specialization of Word Vectors for Semantic Representation)

  • 오진영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.537-540
    • /
    • 2018
  • 우리는 단어 임베딩에 외부지식을 내재할 수 있는 Ontofitting 방법을 제안한다. 이 방법은 retrofitting의한 방법으로 유의어, 반의어, 상위어, 하위어 정보를 단어 임베딩에 내재할 수 있다. 유의어와 반의어 정보를 내재하기 위해서 벡터의 각 유사도를 사용하였고 상하위어 정보를 내재하기 위해서 벡터의 길이 정보를 사용하였다. 유의어 사이에는 작은 각도를 가지고 반의어 사이에는 큰 각도를 가지게 된다. 하위어는 상위어보다 상대적으로 작은 길이를 가지게 된다. SimLex와 HyperLex로 실험하여 효과와 안정성을 검증하였다. 의미정보를 내재한 임베딩을 사용할 수 있다면 QA, 대화 등 응용에서 보다 좋은 성능을 보일 수 있을 것이다.

  • PDF

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

상위어 관계를 이용한 개념 계층의 생성 (Concept Hierarchy Creation Using Hypernym Relationship)

  • 신명근
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.115-125
    • /
    • 2006
  • 개념 계층은 지식을 그룹화하여 다단계로 표현하며, 이는 자료의 분류, 저장 및 검색을 효율적으로 지원해 준다. 일반적으로 도메인 전문가의 수작업을 통해 개념 계층이 생성되었으며, 이는 생성과 유지에 많은 비용이 소요되면서도 일관성 유지가 어려운 단점이 있다. 본 논문은 미리 정의된 상위어 관계를 이용하여 문자형 자료의 개념 계층을 자동으로 생성하는 방법에 대한 연구이다. 개념 계층의 자동 생성을 위해서는, 다중 의미로 사용되는 단어에서 적절한 의미를 찾아 내어 모호성을 제거해야 하며, 외부 정보를 이용하여 모호성이 제거된 단어를 그룹화하고 계층을 생성하는 작업이 필요하다. 우리는 워드넷 (WordNet)의 다중 의미에 대한 설명 및 상위어 관계를 이용하여 모호성을 제거하고 개념 계층을 생성하는 방법을 제안 한다.

  • PDF

지능형 지식서비스를 위한 의미기반 XML 마이닝 시스템 연구 (Development of Semantic-Based XML Mining for Intelligent Knowledge Services)

  • 백주련;김진영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.59-62
    • /
    • 2018
  • XML을 대상으로 하는 연구가 최근 5~6년 사이에 꾸준한 증가를 보이며 이루어지고 있지만 대다수의 연구들은 XML을 구성하고 있는 엘리먼트 자체에 대한 통계적인 모델을 기반으로 이루어졌다. 이는 XML의 고유 속성인 트리 구조에서의 텍스트, 문장, 문장 구성 성분이 가지고 있는 의미(semantics)가 명시적으로 분석, 표현되어 사용되기 보다는 통계적인 방법으로만 데이터의 발생을 계산하여 사용자가 요구한 질의에 대한 결과, 즉 해당하는 정보 및 지식을 제공하는 형식이다. 지능형 지식서비스 제공을 위한 환경에 부합하기 위한 정보 추출은, 텍스트 및 문장의 구성 요소를 분석하여 문서의 내용을 단순한 단어 집합보다는 풍부한 의미를 내포하는 형식으로 표현함으로써 보다 정교한 지식과 정보의 추출이 수행될 수 있도록 하여야 한다. 본 연구는 범람하는 XML 데이터로부터 사용자 요구의 의미까지 파악하여 정확하고 다양한 지식을 추출할 수 있는 방법을 연구하고자 한다. 레코드 구조가 아닌 트리 구조 데이터로부터 의미 추출이 가능한 효율적인 마이닝 기법을 진일보시킴으로써 다양한 사용자 중심의 서비스 제공을 최종 목적으로 한다.

  • PDF

수화소 분석을 통한 손동작 움직임 표현방법 (Advanced Representation Method of Hand Motion by Cheremes Analysis in KSL)

  • 이부형;송필재
    • 한국멀티미디어학회논문지
    • /
    • 제9권8호
    • /
    • pp.1067-1075
    • /
    • 2006
  • 본 논문에서는 손동작 인식을 위한 개선된 손동작 움직임 표현방법을 제안한다. 제안된 방법은 다양하고 통일된 손동작 움직임을 인식하기 위해서 수화(한글수화) 시 사용되는 손동작에 적용시킨 표현방법이다. 수화 특히, 한글수화(KSL)는 수화소(Cheremes)라는 요소들, 즉, 손의 이동 방향, 손가락모양, 손의 위치 등의 조합에 의해 단어 또는 문장이 완성되어 의미 있는 수화가 완성된다. 본 논문에서는 한글 수화에서 이용되는 수화소(Cheremes)를 5개의 수화소 즉, 손의 이동방향(HMO),손가락모양(FS), 손의 방향(H0), 손의 위치(HP) 및 사용하는 손의 수(HN)로 분류, 표현한다. 손의 이동방향(HMO)은 수화에서 단어 또는 문장을 표현하는데 사용되는 방향을 고려하여 17개의 방향성분으로 표현한다. 손가락 모양(FS)은 수화동작에서 사용되는 손가락의 모양에 따라 17개의 성분으로 표현할 수 있으며, 또한, 손의 바닥을 이용하는지 손등을 이용하는지에 따라 손의 방향(HO)이 2가지 특징으로 표현된다. 손의 현재 위치(HP)는 수화동작에서 손이 놓이는 위치를 의미하며, 머리영역에서 가슴영역까지 전체 8개의 영역으로 나뉘어 표현한다. 마지막으로 사용하는 손의수는 수화동작에서 손 하나만을 사용하는지 양쪽 모두를 사용하는 지를 나타내는 것으로, 2가지 특징으로 표현한다. 제안된 손동작 표현방법을 한글수화의 단어 및 문장 모두에 적용한 결과 모든 KSL이 제안된 표현방법으로 완벽하게 표현됨을 보였다.

  • PDF

유사 문서 병합 시스템의 설계 및 구현 (Design and Implementation of Similar Document Merging System)

  • 박우리;권인택;김종익
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.164-167
    • /
    • 2011
  • 인터넷의 지속적인 발전에 따라 다양한 출처와 경로를 통해 많은 정보가 빠른 속도로 생산, 확산되고 있다. 이로 인해 중복되거나 유사한 정보들이 빈번하게 발생되고 있으며, 이러한 문제를 해결하기 위한 내용이 유사한 문서를 찾는 연구들이 많이 진행되고 있다. 유사 문서 병합에서 유사 문서를 판별하기 위해 문서 간 공통된 단어의 비율을 이용한다. 하지만 동일한 단어가 다양한 형태로 표현될 수 있어 공통된 단어의 비율만을 가지고 유사 문서를 판단하기 어렵다. 본 논문에서는 유사한 의미를 갖는 단어들을 동일한 단어로 변환하여 유사 문서들을 병합하는 시스템을 제안하고 구현 사항에 대해 설명한다.

워드 임베딩을 활용한 관용표현 인식 연구 (Korean Idiom Classification Using Word Embedding)

  • 박서윤;강예지;강혜린;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF