• 제목/요약/키워드: 한국어 문장 의미 검색

검색결과 40건 처리시간 0.026초

의문문 질의 시스템을 위한 한국어 문장의 의미적 동일성 분석 (An Analysis of Identity of Meaning in Korean Sentence For Questions-Query System)

  • 박홍원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 1998
  • 본 논문은 변형된 한국어 문장에 대해 변형 이전의 문장과의 의미적 동일성을 분석하여 한국어 의문문 질의어의 문형과 상이한 문형의 한국어 문장도 정보검색시 검색 대상문에 포함시켜 검색 정확도를 높임으로써 의문문 질의 시스템의 성능을 향상시키는 것에 연구의 초점을 맞추고 있다. 한국어 문장에서 주로 나타나는 피동화에 의한 변형, 분열문에 의한 변형, 명사화에 의한 변형, 어순 재배치에 의한 변형 등의 특성에 대해 알아보고 의문문 질의 시스템에서 그들 각각의 변형을 인식하여 변형 이전의 문장과 동일한 의미의 문장으로 처리하는 방법에 대해서 자세히 살펴보았다.

  • PDF

영어문장제공시스템에서 한국어문장의 색인방법 (Indexing Methods of Korean Sentences in the English Sentences Offering System for English Composition)

  • 이태영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.219-222
    • /
    • 1998
  • 한국어문장과 의미가 같은 영어문장을 검색해 내기 위하여 한국어문장을 분석하고 색인언어를 고안하였다. 명사와 더불어 용언, 보조용언, 조사, 접속사 등이 색인어 및 기호로 선정되었다. 색인어 수를 줄이는 데 용언과 명사의 유사의미 단어들의 통제가 필요하였다.

  • PDF

심층적 의미 매칭을 이용한 cQA 시스템 질문 검색 (Question Retrieval using Deep Semantic Matching for Community Question Answering)

  • 김선훈;장헌석;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

문장 임베딩을 위한 Cross-Encoder의 Re-Ranker를 적용한 의미 검색 기반 대조적 학습 (Contrastive Learning of Sentence Embeddings utilizing Semantic Search through Re-Ranker of Cross-Encoder)

  • 오동석;김수완;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.473-476
    • /
    • 2022
  • 문장 임베딩은 문장의 의미를 고려하여 모델이 적절하게 의미적인 벡터 공간에 표상하는 것이다. 문장 임베딩을 위해 다양한 방법들이 제안되었지만, 최근 가장 높은 성능을 보이는 방법은 대조적 학습 방법이다. 대조적 학습을 이용한 문장 임베딩은 문장의 의미가 의미적으로 유사하면 가까운 공간에 배치하고, 그렇지 않으면 멀게 배치하도록 학습하는 방법이다. 이러한 대조적 학습은 비지도와 지도 학습 방법이 존재하는데, 본 논문에서는 효과적인 비지도 학습방법을 제안한다. 기존의 비지도 학습 방법은 문장 표현을 학습하는 언어모델이 자체적인 정보를 활용하여 문장의 의미를 구별한다. 그러나, 하나의 모델이 판단하는 정보로만 문장 표현을 학습하는 것은 편향적으로 학습될 수 있기 때문에 한계가 존재한다. 따라서 본 논문에서는 Cross-Encoder의 Re-Ranker를 통한 의미 검색으로부터 추천된 문장 쌍을 학습하여 기존 모델의 성능을 개선한다. 결과적으로, STS 테스크에서 베이스라인보다 2% 정도 더 높은 성능을 보여준다.

  • PDF

백과사전 질의응답 시스템을 위한 의미적 단락 생성 및 검색 기법 (Method of Semantic Passage Generation and Retrieval for Encyclopedia QA system)

  • 이충희;오효정;김현진;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.159-166
    • /
    • 2004
  • 본 논문에서는 질의응답 시스템에서 질문의 주제와 개념적으로 일치하는 단락으로부터 정보를 추출할 경우에 보다 정확한 정답을 추출할 수 있다는 가정 하에 문장 주제를 활용한 의미적 단락 생성 및 검색 기법을 제안한다. 문장주제란 백과사전 문서 집합에서 공통으로 기술하는 내용이나 자주 언급하고 있는 사건 혹은 개념들의 집합을 의미하는 것으로, 주제별로 응집된 문장들로 재구성된 단락을 의미적 단락이라고 정의한다. 제안된 방법의 성능을 평가하기 위해 의미적 단락의 신뢰도를 파악하고, 백과사전 본문을 3문장 단위로 잘라서 고정길이 단락을 만든 후 의미적 단락의 검색결과와 비교하였다. 평가척도로는 TREC의 역순위평균(MRR : Mean Reciprocal Rank)과 상위 5개 단락 안에 정답유무를 측정하는 사용자 정답만족도를 사용하였다. ETRI 평가셋을 대상으로 한 실험 결과, 주제를 이용한 의미적 단락 검색 성능이 고정길이 단락 검색보다 우수함을 알 수 있었다.

  • PDF

위키피디아로부터의 자동 병렬 문장 추출 기법을 이용한 영어-한국어 교차언어 정보검색의 번역 성능 개선 (Improving Query Translation by Extracting Parallel Sentences from Wikipedia for Cross-Language Information Retrieval)

  • 천주룡;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-40
    • /
    • 2015
  • 본 논문은 영어-한국어 교차언어 정보검색의 질의어 번역에 대한 중요한 자원으로 활용되는 병렬 말뭉치의 품질 향상을 위해서, 위키피디아의 비교 말뭉치로부터 자동으로 병렬 문장을 추출하여 활용하는 기법을 제안한다. 기존 연구에서 질의어 번역을 위해 위키피디아의 이중 어휘 사전 및 동의어, 다의어 정보를 구축하고, 기 기축된 병렬 말뭉치와 함께 활용하여 여러 의미를 가진 번역 후보 단어들 중, 최적의 단어를 선택하는 방법을 이용하고 있다. 여기서 활용되는 병렬 말뭉치는 질의어 번역에서 가장 중요한 자원이다. 하지만, 기 구축된 병렬 말뭉치는 양이 적거나, 특정 영역을 중심으로 구성되어 있는 문제가 있다. 이러한 문제를 해결하기 위해, 본 논문은 위키피디아로부터 자동 병렬 문장 추출 기법을 이용, 대량의 영어-한국어 간 병렬 말뭉치를 구축하고, 이를 교차언어 정보검색을 위한 질의어 번역에 적용하여 개선을 보인다. 실험의 성능 비교를 위해서 NTCIR-5 데이터를 이용하였으며 기 구축된 세종 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 31.5%, R-P 33.0%에서, 새롭게 구축한 위키피디아 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 34.6%, R-P 34.6%로, 각각 MAP 3.1%와 R-P 1.6%의 성능 향상을 보였다.

  • PDF

일반적, 영역 의존적 특성을 반영한 감정 자질의 의미지향성 추정 방법 (A Semantic Orientation Prediction Method of Sentiment Features Based on the General and Domain-Dependent Characteristics)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-159
    • /
    • 2009
  • 본 논문은 한국어 문서 감정분류를 위한 중요한 어휘 자원인 감정자질(Sentiment Feature)의 의미지향성(Semantic Orientation) 추정을 위해 일반적인 특성과 영역(Domain) 의존적인 특성을 반영하여 한국어 문서 감정분류(Sentiment Classification)의 성능 향상을 얻을 수 있는 기법을 제안한다. 감정자질의 의미지 향성은 검색 엔진을 통해 추출한 각 감정 자질의 스니핏(Snippet)과 실험 말뭉치를 이용하여 추정할 수 있다. 검색 엔진을 통해 추출된 스니핏은 감정자질의 일반적인 특성을 반영하며, 실험 말뭉치는 분류하고자 하는 영역 의존적인 특성을 반영한다. 이렇게 얻어진 감정자질의 의미지향성 수치는 각 문장의 감정강도를 추정하기 위해 이용되며, 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정자질의 가중치를 책정한다. 최종적으로 학습 과정에서 긍정 문서에서는 긍정 감정자질, 부정 문서에서는 부정 감정자질을 대상으로 추가 가중치를 부여하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능향상을 보였다.

  • PDF

대화형 상품 검색 시스템에서 의미 구조 생성에 관한 연구 (Generation of a Semantic Structure on a Conventional Goods Search System)

  • 정혜경;배우정;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-204
    • /
    • 2006
  • 인터넷 쇼핑몰 분야에서 한국어 인터페이스에 대한 필요성이 대두되면서 이와 관련한 연구가 진행되어 왔다. 이러한 기존 연구들의 문제점은 다른 응용 분야에 대한 확장성이 떨어지고, 대화식 질의 문장을 처리하기 위해 필요한 상황 지식을 사용할 수 없다는 것이다. 확장성을 위해 한국어 인터페이스는 내부 구현의 변경 없이 도메인 지식의 교체만으로 다른 분야에 대한 적용이 쉬워야 한다. 아울러, 한국어 질의 문장을 SQL이나 ACL과 같은 여러 응용 분야의 인공 언어에 쉽게 변환할 수 있으려면 모호성이 전혀 없는 의미 구조로 표현되어야 한다. 이렇게 표현된 의미 구조는 상황 지식의 표현과 적용을 용이하게 한다. 본 논문은을 Sowa의 개념 구조를 이용하여 의사 의미 구조를 유형 정의, 관계형 정의, 액터와 같은 도메인 지식베이스를 이용하여 표준 의미 구조로 변환하는 시스템을 제안한다. 본 논문은 먼저 필요한 도메인 지식베이스의 종류와 역할 등을 설명하고, 상황 지식을 이용하여 불완전한 의미 구조를 완전한 의미 구조로 변환하는 방법을 보인다. 아울러, 같은 의미를 갖는 여러 형태의 의사 의미 구조가 하나의 표준 의미 구조로 변환됨으로서 시스템의 일관성을 유지하는데 용이함을 보일 것이다. 본 시스템에서 생성한 의미구조는 중간 언어의 역할을 하므로, 제안하는 한국어 인터페이스 시스템은 데이터베이스 분야뿐만 아니라 에이전트 분야, 시맨틱 웹 분야 등에서도 손쉽게 적용할 수 있다는 장점을 가진다.

  • PDF

딥러닝을 이용한 한국어 어의 중의성 해소 (A Word Sense Disambiguation for Korean Language Using Deep Learning)

  • 김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.380-382
    • /
    • 2019
  • 어의 중의성 문제는 자연어 분석 과정에서 공통적으로 발생하는 문제로 한 가지의 단어 표현이 여러 의미로 해석될 수 있기 때문에 발생한다. 이를 해결하기 위한 어의 중의성 해소는 입력 문장 중 여러 개의 의미로 해석될 수 있는 단어가 현재 문맥에서 어떤 의미로 사용되었는지 분류하는 기술이다. 어의 중의성 해소는 입력 문장의 의미를 명확하게 해주어 정보검색의 성능을 향상시키는데 중요한 역할을 한다. 본 논문에서는 딥러닝을 이용하여 어의 중의성 해소를 수행하며 기존 모델의 단점을 극복하여 입력 문장에서 중의적 단어를 판별하는 작업과 그 단어의 의미를 분류하는 작업을 동시에 수행하는 모델을 제안한다.

  • PDF

온톨로지 기반의 지능형 번역 에이전트를 이용한 실시간 번역 연구 (Using Machine Translation Agent Based on Ontology Study of Real Translation)

  • 김수경;김경아;안기홍
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2006년도 춘계학술대회
    • /
    • pp.229-233
    • /
    • 2006
  • 기계번역(Machine Translaton, MT), 다국어 정보 검색, 의미 정보 검색 등에 대한 연구는 시소러스, 지식베이스, 사전 검색, 의미망, 코퍼스등과 같은 다양한 방법으로 이루어지고 있다. 시맨틱 웹이 등장과 시맨틱 웹 기반 기술의 발전에 따라 위 연구들을 시맨틱 웹에 적용시킬 필요성도 제안되었다. 특히 한국어 시소러스, 워드넷(WordNet), 전자 세종 사전, 가도까와(Kadokawa) 시소러스와 같은 지식베이스가 개발되었으나 활용 분야에 따라 그 구축 방법론이 다르게 적용되어, 위 연구에 효과적으로 통용될 수 있는 지식베이스는 실질적으로 구축되지 못한 실정이다. 따라서 본 연구에서는 세종 사전과 가도까와 시소러스, 한/일 기계 번역 사전 그리고 전문 용어 사전을 기반으로 한국어와 일본어 지식베이스를 위한 사전 온톨로지 서버를 정의하여 의미 정보를 구성하고, Semantic Web Rule Markup Language (이하 SWRL)을 이용해 구문 정보 규칙을 정의한다. 그리고 SWRL 기반 정방향 추론 엔진을 이용하여 번역에 필요한 추론 엔진을 구성하고 문장 구문형성 규칙 추론 엔진을 통해 사용자에게 한국어와 일본어의 문장 구성 변환을 제공한다. 본 연구는 현재 기계 번역이 갖고 있는 다의성, 술부 어순의 차이, 경어체 등 아직 해결해야 할 많은 부분들에 대한 해결 방안으로서 시맨틱 웹 기반 기술과의 활용방안을 제시하고자 한다.

  • PDF