• 제목/요약/키워드: 연관 어휘

검색결과 81건 처리시간 0.027초

사전에 나타난 인지정보를 이용한 단어 개념의 지식표현 (Knowledge Representation of Concept Word Using Cognitive Information in Dictionary)

  • 윤덕한;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.118-125
    • /
    • 2004
  • 인간의 언어지식은 다양한 개념 관계를 가지며 서로 망(network)의 모습으로 연결되어 있다. 인간의 언어지식의 산물 중에서 가장 체계적이며 구조적으로 언어의 모습을 드러내고 있는 결과물이 사전이라고 할 수 있다. 본 논문에서는 이러한 사전 뜻풀이 말에서 개념 어휘와 자동적인 지식획득을 통하여 의미 정보를 구조적으로 추출한다. 이러한 의미 정보가 추출되면서 동시에 자동적으로 개념 어휘의 의미 참조 모형이 구축된다. 이러한 것은 사전이 표제어 리스트와 표제어를 기술하는 뜻풀이말로 이루어진 구조의 특성상 가능하다. 먼저 172,000여 개의 사전 뜻풀이말을 대상으로 품사 태그와 의미 태그가 부여된 코퍼스에서 의미 정보를 추출하는데, 의미분별이 처리 된 결과물을 대상으로 하기 때문에 의미 중의성은 고려하지 않아도 된다. 추출된 의미 정보를 대상으로 정제 작업을 거쳐 정보이론의 상호 정보량(Ml)을 이용하여 개념 어휘와 의미 정보간에 연관도를 측정한 후, 개념 어휘간의 유사도(SMC)를 구하여 지식표현의 하나로 연관망을 구축한다.

  • PDF

위치적 연관성과 어휘적 유사성을 이용한 웹 이미지 캡션 추출 (Web Image Caption Extraction using Positional Relation and Lexical Similarity)

  • 이형규;김민정;홍금원;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.335-345
    • /
    • 2009
  • 이 논문은 웹 문서의 이미지 캡션 추출을 위한 방법으로서 이미지와 캡션의 위치적 연관성과 본문과 캡션의 어휘적 유사성을 동시에 고려한 방법을 제안한다. 이미지와 캡션의 위치적 연관성은 거리와 방향 관점에서 캡션이 이미지에 상대적으로 어떻게 위치하고 있는지를 나타내며, 본문과 캡션의 어휘적 유사성은 이미지를 설명하고 있는 캡션이 어휘적으로 본문과 어느 정도 유사한지를 나타낸다. 이미지와 캡션을 독립적으로 고려한 자질만을 사용한 캡션 추출 방법을 기저 방법으로 놓고 제안하는 방법들을 추가적인 자질로 사용하여 캡션을 추출하였을 때, 캡션 추출 정확률과 캡션 추출 재현율이 모두 향상되며, 캡션 추출 F-measure가 약 28% 향상되었다.

격틀집합을 이용한 한국어 형용사 유형 분류 (The Classification of Korean Adjectives using Case Frame Set)

  • 전지은;최재웅
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.254-261
    • /
    • 2006
  • 형용사 분류에 격틀이 중요한 역할을 한다는 주장은 여러 연구에서 제기된 바 있다. 본 연구에서는 격틀이 의미 분류에 기여하는 바를 보다 체계적으로 검토하기 위하여 '격틀집합'을 활용한다. 격틀집합은 한 개의 어휘가 취할 수 있는 격틀의 집합을 말한다. 격틀집합에 근거하여 형용사를 분류할 경우, 의미적으로 연관성이 높은 그룹으로 나뉠 수 있다는 가설을 바탕으로 이러한 가설의 타당성을 검증하고 이를 입증하는 것이 본 연구의 목적이다. 아울러 본 연구에서는 그러한 가설을 검증하기 위한 구체적인 방법론을 제시한다. 격틀집합정보는 세종전자사전에 들어있는 어휘별 격틀정보를 추출하여 활용한다. 본 연구 결과 도출된 총 101개의 격틀집합 중에서 한 개의 격틀만을 갖는 유형과 어휘목록이 5개미만인 유형을 제외한 12개의 격틀집합이 주요 분석 대상으로, 본 연구에서는 그 중에서 6개를 자세히 분석한다. 격틀집합별 어휘들을 살펴보면 의미적 연관성이 파악되지 않는 어휘들도 일부 포함되어 있기는 하나, 대부분은 의미적으로 상관관계가 있음을 확인할 수 있었다 이와 같은 방법론을 통해 국어 형용사 전체의 유형, 더 나아가 국어 용언을 분류하는데 본 연구의 가설과 방법론이 활용될 수 있다.

  • PDF

어휘의미망을 이용한 중국어 비감독 어의 중의성 해소 (Chinese Unsupervised Word Sense Disambiguation using WordNet)

  • 롄광저;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.365-368
    • /
    • 2012
  • 어의 중의성 해소는 자연어처리에서 중요한 역할을 한다. 감독 중의성 해소 방법은 비감독 중의성 해소 방법보다 높은 성능을 나타내지만, 구축비용이 큰 대규모 의미부착 말뭉치가 필요하다. 본 논문에서는 중국어 어휘의미망(HowNet)과 의미 미부착 말뭉치를 이용한 중국어 비감독 어의 중의성 해소 방법을 제안한다. 의미 미부착 말뭉치에서 통계정보를 추출하고, 중국어 어휘 의미망에서 중의성 어휘의 의미별 형제어를 추출하여 중의성 어휘의 주변 문맥에 나타나는 어휘와 카이제곱검정(${\chi}^2$-test)에 의한 독립성 검정을 통해 어휘 간 연관성을 판단하고 중의성 해소를 한다. 본 논문에서 제안한 중의성 해소방법의 성능을 SemEval-2007 평가데이터에서 측정한 결과 명사와 동사에서 각각 64.7%, 49.4%를 나타냈다. 이는 SemEval-2007 중국어 비감독 중의성 해소에서 가장 높은 성능을 나타낸 시스템보다 13.1%, 13.9% 높은 성능이다.

클릭로그를 이용한 연관키워드 수집 (Relevant Keyword Collection using Click-log)

  • 안광모;서영훈;허정;이충희;장명길
    • 정보처리학회논문지B
    • /
    • 제19B권2호
    • /
    • pp.149-154
    • /
    • 2012
  • 본 논문은 사용자가 웹 검색을 위해 입력한 키워드와 그 키워드에 의해서 접근한 웹문서의 URL을 이용하여 연관키워드(relevant keyword)를 수집하는데 목적이 있다. 서로 다른 키워드들이라 할지라도 각각의 키워드들이 동일하게 링크된 URL의 수가 많다면, 그 키워드들은 서로 관련성이 높을 것이라는 것이 본 논문의 주된 가정이다. 실제로 이를 검증하기 위해 사용자가 입력한 키워드와 이 키워드를 이용하여 접근한 URL의 정보가 담겨있는 포털사이트의 클릭로그 데이터를 이용하여 URL과 키워드들의 쌍을 추출한 후, 연관키워드 집합을 생성하였다. 그 결과, 실험에서는 최소지지도(minimum support)가 10일 때, 유사어휘 수준에서의 정확도는 89.32%를 보였으며, 유사 어휘는 아니나 관련성이 있는 어휘 수준에서는 99.03%의 정확도를 보였다. 본 논문에서 제안하는 접근 방법은 언어에 독립적이고, 실세계의 데이터로부터 관련성이 있는 단어를 수집할 수 있다는 장점이 있다.

평균 상호정보량에 기반한 동음이의어 중의성 해소 (Homonym Disambiguation based on Average Mutual Information)

  • 허정;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.159-166
    • /
    • 2005
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구에서는 평균 상호정보량에 기반한 동음이의어 의미 중의성 해소 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 연구들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 상호정보량을 가지는 어휘 쌍의 비율, 의미 별 빈도 정보와 뜻풀이의 길이를 가중치로 반영하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 500여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 두 가지 유형의 실험을 수행하였다. 실험 결과는 평균 상호정보량만을 이용하였을 때 62.04%의 정확률을 보였고, 가중치를 활용하였을 때 83.42%의 정확률을 보였다.

  • PDF

글의 응집성을 포착하기 위한 개연규칙 (Abductive Rules for Text Cohesion)

  • 김곤;양재군;김민찬;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.517-520
    • /
    • 2004
  • 본 논문에서는 글의 응집성을 포착하기 위하여 개연규칙을 활용한다. 개연규칙은 문장 구성성분들의 문장간 개연적 연결상황을 나타내고, 글의 인과 성향이나 담화작용을 반영한다. 글을 이해하기 위한 대표적인 속성에는 글에 긴밀성을 부여하는 응집성이 있다. 글의 응집성을 파악하기 위한 대표적인 언어학적 도구나 지식으로는 어휘사슬을 들 수 있다. 이에 본 논문에서는 주어진 예문의 어휘사슬을 개연규칙으로 찾아낸 개연사슬과 비교해 보았다. 그 결과, 중요도가 높은 어휘사슬과 대응하는 개연사슬을 발견할 수 있었다. 개연사슬은 종래의 어휘사슬의 기능을 포함할 뿐만 아니라, 줄거리 단위, 단서구 용법, 문장사이의 개연성 등을 감지하여 문장간의 의미적 연관성을 포착할 수 있다. 이는 개연규칙을 활용하여 글의 화제문을 효과적으로 선별할 수 있음을 보인다.

  • PDF

질의의 위치와 문맥을 반영한 클러스터 기반 재순위화 (Reranking Clusters based on Query Term Position and Context)

  • 조승현;장계훈;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.471-474
    • /
    • 2010
  • 질의와 질의 주변에 나오는 어휘는 의미적으로 연관되어있다는 가정하에 질의뿐만 아니라 질의 주변에 나오는 문맥 어휘들도 가중치를 높여준다면 검색에 효율을 높일 수 있을 것이다. 본 논문에서는 질의와 질의 주변에 나오는 문맥 어휘들에게 가중치를 주어 질의 어휘의 위치 가중치를 반영한 문서를 표현하고, 위치 가중치가 반영된 문서 벡터들 사이의 유사도를 계산하여 클러스터 기반 재순위화를 하여 성능을 향상시키는 방법을 제안한다. 뉴스 집합인 TREC AP 문서를 이용하여 언어모델, 위치 가중치를 이용한 언어모델, 클러스터 기반 재순위화 모델의 비교실험을 통해 유효성을 검증한다.

단어의 의미연상을 이용한 시소러스 설계 (Thesaurus Construction Using Word Association)

  • 한승희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2006년도 제13회 학술대회 논문집
    • /
    • pp.233-238
    • /
    • 2006
  • 본 연구에서는 단어의 의미연상을 이용하여 시소러스를 작성해봄으로써 탐색 시소러스 구축에 있어 단어연상검사법의 적용가능성을 살펴보았다. 문헌정보학 분야를 대상으로 단어연상검사를 실시한 후 자극어와 반응어간의 의미관계를 파악하고 반응어와 통제어휘를 비교 분석하였다. 실험 및 분석결과, 단어연상검사를 이용하면 다양한 연관관계 용어들을 시소러스에 포함시킬 수 있으며, 통제어휘집에 나타난 하위관계와 동등관계 용어들을 어느 정도 반영할 수 있다는 것을 확인하였다. 단어의 의미연상을 이용하여 구축된 탐색 시소러스는 정보검색환경에서 질의확장에 응용될 수 있다.

  • PDF

술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출 (String Kernel-based Relation Extraction using Lexical Patterns of Predicate-Argument Structure)

  • 정창후;최성필;전홍우;홍순찬;정한민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.327-329
    • /
    • 2012
  • 문서 내에 존재하는 중요한 개체들 간의 관계를 자동으로 추출할 때 개체와 개체 사이의 상호작용 표현에 중요하게 관여하는 핵심자질을 잘 선택할수록 빠르고 정확하게 관계 추출을 수행할 수 있다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 관계 추출 방법을 제안한다. 제안된 시스템의 성능 평가를 위해서 과학기술문헌에 존재하는 중요한 개체들 간의 연관관계 추출 성능 평가를 수행하는 테스트컬렉션을 자체적으로 구축하였으며 실험을 통하여 제안된 방법의 성능을 측정하였다. 정확도 실험 결과, 스트링 커널의 입력으로 문장 전체를 사용한 경우에는 55.0693%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.0331%, 그리고 술어-논항 구조의 어휘 패턴 문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다.