• 제목/요약/키워드: 연관 어휘

검색결과 81건 처리시간 0.025초

연관 어휘 추출을 통한 질의어 관련 이슈 탐지 (Query Related Issue Detection using Related Term Extraction)

  • 김제상;김동성;조효근;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2013
  • 근래 트위터와 페이스북 등의 SNS(Social Network Service)에서 일반 대중의 관심사나 트렌드 등의 이슈를 탐지하는 많은 연구가 이루어지고 있다. 본 논문에서는 검색어에 대한 연관 어휘 추출을 통해 검색어에 연관된 이슈나 화제를 트위터에서 추출하기 위한 방법을 제안한다. 본 논문에서는 연관성이 높은 단어는 서로 가깝게 발생할 것으로 기대하고, 단어 간 거리가 가까울수록, 공기빈도가 높을수록 커지는 단어연관도 계산법을 제안한다. 연관도 값이 임계치를 넘는 어휘를 연관 어휘로 보고 네트워크의 형태로 관련 이슈를 제시한다.

  • PDF

어휘관계 정보와 질의개념연관도를 반영한 정보검색 성능 향상 기법 (Information Retrieval Based on Word Relationships and Degree of Query Concept)

  • 김준길;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.451-454
    • /
    • 2010
  • 정보검색 분야에서 어휘 불일치 문제를 해결하기 위해 질의에서의 어휘 사이의 관계를 반영하는 것은 필수적인 요구사항이 되었다. 본 논문에서는 문장-문장 번역쌍을 이용하여 어휘 번역확률을 계산하였고, 어휘관계 정보를 반영하는 번역기반 언어모델에 어휘와 질의 개념과의 연관 정도를 반영한 모델을 제안한다. 뉴스 컬렉션 집합인 TREC AP 컬렉션에 대한 비교실험을 하였다. 실험결과에서 언어모델보다 어휘 관계를 반영한 번역기반 언어모델의 성능이 향상되었고 어휘의 질의개념 연관도를 반영한 모델이 번역기반 언어모델보다 성능이 향상됨을 보였다.

단어간의 연관성을 고려한 어휘 체인 기반 자동 요약 (Automatic Summarization based on Lexical Chains considering Word Assocication)

  • 송영인;한경수;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.300-305
    • /
    • 2002
  • 자동 문서 요약 분야에서 대상 문서를 컴퓨터가 이해할 수 있는 형태로 어떻게 파악하고 구조화할 것인가는 중요한 이슈가 되어 왔다. 문서에 출현한 단어들은 Bag of Words 가정처럼 서로 독립적으로 존재하는 것이 아니라 문서가 쓰여진 의도에 따라 서로 간의 의미적, 혹은 지시적으로 연관되어 있다. 이러한 단어간의 연관성은 결속성(cohesion)이라고 표현하며, 이를 이용한 자동 방법으로 Barzilay의 어휘 체인(lexical chain)을 사용한 자동 방법이 대표적이다. 본 연구에서는 단어간의 연관성과 영문 시소러스인 워드넷(wordnet)에서 단어의 위치 정보를 사용하여 어휘 체인의 성능을 개선하였고, 대상 문서의 개념을 어휘 체인에 기반해 표현하여 자동의 성능을 개선하는 방안을 제시한다.

  • PDF

질문대답 아카이브에서 어휘 연관성을 이용한 질문 분류 (Question Classification Based on Word Association for Question and Answer Archives)

  • 김설영;이경순
    • 정보처리학회논문지B
    • /
    • 제17B권4호
    • /
    • pp.327-332
    • /
    • 2010
  • 보통 두 세 개의 어휘로 구성된 질문 분류에서 어휘의 다양한 표현으로 인한 어휘 불일치문제는 성능 저하의 주요 원인이다. 따라서 질문 분류에서 어휘 사이의 연관성을 반영하는 것이 필수적이다. 본 논문에서는 같은 범주의 질문-질문 쌍들에 대해 계산한 어휘 번역확률을 번역기반 언어모델에 반영하여 질문을 분류하는 방법을 제안한다. 실험에서 야후!앤써 질문대답 아카이브를 이용해서 전체 질문-대답 쌍들에 대해서 번역확률을 계산하는 것보다 같은 범주에 속하는 질문-질문 쌍들에 대해서 번역확률을 계산하는 것이 질문 분류에서 더 좋은 번역확률인 것을 증명한다.

트위터를 이용한 질의어 관련 이슈 탐지를 위한 인접도 행렬 기반 연관 어휘 추출 (Related Term Extraction with Proximity Matrix for Query Related Issue Detection using Twitter)

  • 김제상;조효근;김동성;김병만;이현아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권1호
    • /
    • pp.31-36
    • /
    • 2014
  • 트위터와 페이스북 등의 SNS(Social Network Service)는 일반 대중의 관심사나 트렌드 등의 이슈를 탐지하기 좋은 지식원이다. 본 논문에서는 검색 질의어에 관련된 이슈나 화제를 질의어에 대한 연관 어휘로 보고, 이를 트위터에서 추출하기 위한 방법을 제안한다. 제안하는 방법에서는 질의어와 연관성이 높은 단어는 질의어와 가까운 위치에서 자주 발생한다고 가정하고, 단어 간 거리에 반비례하고 공기 빈도에 비례하는 단어 간 인접도의 합으로 단어간 연관도를 구한다. 구해진 연관도 값이 임계치를 넘는 어휘를 연관 어휘로 보고 네트워크의 형태로 관련 이슈를 제시한다. 제안한 방법에서는 네트워크의 특성을 분석하여 복합어를 손쉽게 탐지할 수 있다.

단어 간 연관성 측정을 통한 문맥 철자오류 교정 (Context-sensitive Spelling Correction using Measuring Relationship between Words)

  • 최성기;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1362-1365
    • /
    • 2013
  • 한국어 텍스트에 나타나는 오류어의 유형은 크게 단순 철자오류와 문맥 철자오류로 구분할 수 있다. 이중 문맥 철자오류는 문맥의 의미 통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있는 오류로서 철자오류 중 교정 난도가 가장 높다. 문맥 철자오류의 유형은 발음 유상성에 따른 오류, 오타 오류, 문법 오류, 띄어쓰기 오류로 구분할 수 있다. 본 연구에서는 오타 오류에 의해 발생하는 문맥 철자오류를 어의 중의성 해소와 같은 문제로 보고 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 제안한다. 미리 생성한 교정 어휘 쌍을 대상으로 교정 어휘 쌍의 각 어휘와 주변 문맥 간 의미적 연관성을 통계적으로 측정하여 문맥 철자오류를 검색하고 교정한다. 제안한 방법을 적용한 결과 3개의 교정 어휘 쌍 모두 90%를 넘는 정확도를 보였다.

의미속성 기반의 개념망을 위한 어휘 연관도 측정 (A Measurement of Lexical Relationship for Concept Network Based on Semantic Features)

  • 옥은주;이왕우;이수동;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.146-154
    • /
    • 2001
  • 본 논문에서는 개념망 구축을 위해 사전 뜻풀이말에서 추출 가능한 의미속성의 분포 정보를 기반으로 어휘 연관도를 측정하고자 한다. 먼저 112,000여 개의 사전 뜻풀이말을 대상으로 품사 태그와 의미 태그가 부여된 코퍼스에서 의미속성을 추출한다. 추출 가능한 의미속성은 체언류, 부사류, 용언류 등이 있는데 본 논문에서는 일차적으로 명사류와 수식 관계에 있는 용언류 중 관형형 전성어미('ㄴ/은/는')가 부착된 것을 대상으로 한다. 추출된 공기쌍 45,000여 개를 대상으로 정제 작업을 거쳐 정보이론의 상호 정보량(MI)을 이용하여 명사류와 용언류의 연관도를 측정한다. 한편, 자료의 희귀성을 완화하기 위해 수식 관계의 명사류와 용언류는 기초어휘를 중심으로 유사어 집합으로 묶어서 작업을 하였다. 이러한 의미속성의 분포 정보를 통해 측정된 어휘 연관도는 의미속성의 공유 정도를 계산하여 개념들간에 계층구조를 구축하는 데 이용할 수 있다.

  • PDF

어휘 번역확률과 질의개념연관도를 반영한 검색 모델 (Retrieval Model Based on Word Translation Probabilities and the Degree of Association of Query Concept)

  • 김준길;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.183-188
    • /
    • 2012
  • 정보 검색에서 성능 저하의 주요 요인은 사용자의 질의와 검색 문서 사이에서의 어휘 불일치 때문이다. 어휘 불일치 문제를 해결하기 위해 본 논문에서는 어휘 번역확률을 이용한 번역기반 언어모델에 질의개념연관도를 반영한 검색 모델을 제안한다. 어휘관계 정보를 획득하기 위하여 문장-다음문장 쌍을 이용하여 어휘 번역확률을 계산하였다. 제안모델의 유효성을 검증하기 위해 TREC AP 컬렉션에 대해 실험하였다. 실험결과에서 제안모델이 언어모델에 비해 아주 우수한 성능향상을 보였고, 번역기반 언어모델에 비해서도 높은 성능을 나타냈다.

통신보조기기용 어휘 예측 시스템의 구조 (Design of word prediction system for Assistive Communication System)

  • 황인정;김효진;이은주;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 하계종합학술대회논문집
    • /
    • pp.169-172
    • /
    • 2000
  • 본 연구에서는 청각장애인용 통신보조기기에 적용하기 위한 어휘예측 시스템의 기본구조를 제안한다. 통신보조기기의 어휘는 사용자의 환경을 고려한 어휘이므로, 어휘 예측 시스템도 사용자의 환경과 실생활에서 쉽게 이용할 수 있는 방향으로 고안되어야 한다. 따라서 어휘예측 시스템은 사용자의 환경을 정의하고, 중심어휘와 장소별 도메인에서의 어휘를 발췌한다. 발췌된 어휘는 말뭉치와 의미함축의 원리를 이용하여 분류한다. 분류된 어휘는 문법적 지식을 바탕으로 가상 네트워크를 구성한다. 가상네트워크에서의 어휘는 명사, 조사, 동사의 3부분으로 나눈 후 의미함축과 말뭉치로부터 파생된 어휘를 근접한 거리에 위치시킨다. 동일한 네트워크상에서 어휘의 위치는 문법적 연관성, 빈도수 등을 이용하여 정한다. 따라서 본 연구에서는 어휘예측은 명사, 조사, 동사에서 가장 근접한 어휘를 연결하여 간단한 문장을 작성할 수 있는 어휘 예측 시스템의 기본구조를 제안한다.

  • PDF

양국어 어휘분류망의 자동 구축 (Automatic Construction of Lexical Classification Net for Two Languages)

  • 황금하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.389-396
    • /
    • 1999
  • 본 연구에서는 이미 만들어진 양국어 단일 언어 어휘 분류체계를 이용하여 양국어 어휘 분류등급 간의 개념유사도에 의한 양국어 분류체계간의 연관 관계를 구축하고자 한다. 중국어 유의어사전과 한국어 분류어휘표를 이용하여 양국어 어휘 분류체계에서의 분류등급 간의 개념유사성 및 양국어간의 어휘 유사성에 의하여 어휘분류망을 자동 구축한다. 자동 구축된 어휘분류망을 통하여 한국어 분류어휘표의 어휘 구성 및 분류체계에 대한 분석 평가를 진행할 것이며 나아가 한국어 분류어휘표에 대한 어휘 및 분류체계에 대한 보완을 시도하고자 한다. 본 연구는 한국어 자체 어휘 분류체계의 구축 방법론의 연구에도 어느 정도 도움될 것으로 기대한다.

  • PDF