• 제목/요약/키워드: 의미 태깅

검색결과 109건 처리시간 0.027초

TagBench: 언어 정보 태깅 도구 (TagBench: a tagging tool for linguistic information)

  • 서형원;김재훈;최명길;남유림;권홍석
    • 한국마린엔지니어링학회:학술대회논문집
    • /
    • 한국마린엔지니어링학회 2012년도 전기공동학술대회 논문집
    • /
    • pp.279-279
    • /
    • 2012
  • 일반적으로 한글 문서에 포함된 각종 언어 정보(형태소, 구묶음, 기반구의 품사나 의미 정보 등)를 일일이 수정하는 것에는 많은 어려움이 따른다. 또한 지금껏 개발된 언어 정보 수정 도구들은 이런 언어 정보를 쉽게 수정할 수 없다. 따라서 본 논문에서는 한글 문서의 각종 언어 정보를 쉽게 태깅하고 수정할 수 있도록 도와주는 TagBench를 제안한다.

  • PDF

개체명 사전 기반의 반자동 말뭉치 구축 도구 (A Semi-automatic Annotation Tool based on Named Entity Dictionary)

  • 노경목;김창현;천민아;박호민;윤호;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

개체명 사전 기반의 반자동 말뭉치 구축 도구 (A Semi-automatic Annotation Tool based on Named Entity Dictionary)

  • 노경목;김창현;천민아;박호민;윤호;김재균;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

TagPlus: 폭소노미에서 동의어 태그를 이용한 검색 시스템 (TagPlus: A Retrieval System using Synonym Tag in Folksonomy)

  • 이선숙;용환승
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권3호
    • /
    • pp.255-262
    • /
    • 2007
  • 태깅은 사용자들이 공유된 콘텐츠에 키워드의 형태로 메타 데이터를 추가하는 과정이다. 최근 이러한 태깅은 웹 상 에서 더 많은 사용자들에게 사용되어지고 있는 추세인데, 이런 태깅 사이트는 사용자가 북마크, 사진, 비디오 등의 콘텐츠에 태그를 추가할 수 있도록 한다. 본 논문에서는 사용자의 참여를 바탕으로 하는 태깅 시스템의 구조와 배경 지식 또 이런 시스템이 가지는 다양한 의미와 한계들을 분석한다. 또한 WordNet 데이터베이스의 동의어 집합을 태그의 검색에 적용한 TagPlus 시스템을 제안하고 Flickr 이미지 공유 시스템으로부터 동의어 태그 검색을 가능하도록 구현하였다.

  • PDF

디지털 도서관을 위한 소셜 태깅의 의미: 이용자 협력을 활용한 디지털 지식 생성 (Implications of Social Tagging for Digital Libraries: Benefiting from User Collaboration in the Creation of Digital Knowledge)

  • 최윤선
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.225-239
    • /
    • 2010
  • 본 연구는 이용자 협력에 의한 소셜 태깅(social tagging)이 웹 자원을 위한 디지털 지식 생성에 활용될 수 있으며, 태깅의 양질성(quality)과 효율성이 실증적으로 증명될 수 있는가를 다루었다. 이 논고는 특별히 소셜 태깅의 색인 일관성(indexing consistency)을 평가하고 전문가들의 색인 일관성과 비교하여 분석하였다. 많은 수의 색인자들 간의 색인 일관성을 측정하기 위해 벡터 공간 모델(Vector Space Model)에 기반한 두 가지의 유사성 측정 공식을 사용하였다. 본 연구는 웹자원 관리에 있어서 소셜 태깅의 활용성 증진에 공헌하며, 디지털 도서관 환경에서 새롭게 생성되는 자료들에 대한 보다 적합한 어휘를 개발하는 데에 있어 소셜 지식을 적극적으로 수용할 필요가 있다고 주장한다. 또한 두 가지 공식에 의한 비교분석은 두 공식에서의 비슷한 색인 경향을 보여주면서 보다 신뢰적인 결과를 제공하였다.

다중 얼굴 태깅 자동화 (Automatic Tagging Scheme for Plural Faces)

  • 이충연;이재동;진성아
    • 전자공학회논문지CI
    • /
    • 제47권3호
    • /
    • pp.11-21
    • /
    • 2010
  • 최근 웹페이지의 생성 및 웹이 가진 정보량이 기하급수적으로 늘면서 사용자의 검색 목적을 파악하여 효율을 높이기 위한 다양한 방법이 연구되고 있으며, 태깅 시스템이 하나의 대안으로 떠오르고 있다. 태깅 시스템은 인터넷 사용자로 하여금 태그라고 불리는 메타데이터를 글, 사진, 동영상 등에 부여하도록 함으로써 콘텐츠의 검색 및 브라우징을 편리하게 하는 시스템이다. 이처럼 태그는 해당 페이지의 대표 키워드를 의미하므로 콘텐츠 분류의 기준을 마련할 수 있으나, 사용자에 의해 직접 입력되어야 하는 수고가 필요하고, 또한 무분별한 태깅으로 인해 오히려 분류에 방해가 되는 등의 문제점들이 있다. 본 논문에서는 이러한 태깅의 문제를 해결하기 위한 방법으로 얼굴인식 알고리즘을 활용한 영상콘텐츠 내에서의 다중 얼굴 태깅 자동화 방법을 제시한다. 이를 위해 먼저 여러 얼굴검출 방법 중 Haar-like features와 AdaBoost 알고리즘을 이용하여 빠른 속도와 높은 정확도로 영상콘텐츠 내에서 얼굴 영역을 검출한다. 이후 PCA와 고유얼굴을 이용하여, 검출해 낸 얼굴을 데이터베이스에 미리 저장해 놓은 프로필 사진과 비교, 인식해냄으로써 해당 인물에 대한 정보를 불러와서 자동으로 태깅하는 시스템을 구현하였다. 이러한 새로운 방식의 태깅 기술은 현존하는 사진공유, 쇼핑, 검색 등의 수많은 웹서비스에 적용이 가능하며, 특히 소셜네트워크서비스에서의 사진 관리나 인물검색 등에서 활용할 때 큰 효과를 보일 것으로 기대된다.

도서관목록에서 폭소노미 적용의 의미와 한계 (Meaning and Limitations of Folksonomy in Library Cataloging)

  • 노지현
    • 한국도서관정보학회지
    • /
    • 제40권4호
    • /
    • pp.381-400
    • /
    • 2009
  • 이 연구는 폭소노미에 대한 우리 도서관계의 보다 근원적인 이해를 도모하고, 그를 통해 우리 도서관의 실정에 보다 적합한 폭소노미에 대한 접근 및 수용 방법을 강구해 보고자 하는데 목적이 있다. 구체적으로, 이 연구는 관련 문헌에 대한 조사와 분석에 근거하여, (1) 폭소노미가 등장하게 된 배경과 그에 내재된 철학적 의미를 도서관목록의 전통적 의미에 견주면서 살펴보고, 이어 (2) 폭소노미를 바라보는 북미 문헌정보학계의 관점과 도서관 현장에서의 구체적인 적용 사례를 소개하고, 더불어 (3) 폭소노미의 적용 결과를 둘러싼 북미 도서관 현장에서의 유용성 논의에 대해 분석함으로써, 긍극적으로 (4) 폭소노미의 수용에 앞서 우리 도서관계가 고민해야할 과제와 취해야 할 전략에 대해 논의하였다.

  • PDF

의미처리 기반의 한글-한자 변환 시스템 (korean-Hanja Translation System based on Semantic Processing)

  • 김홍순;신준철;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.398-401
    • /
    • 2011
  • 워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.

격틀 사전과 하위 범주 정보를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling Using Case Frame Dictionary and Subcategorization)

  • 김완수;옥철영
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1376-1384
    • /
    • 2016
  • 기계가 사람과 같이 문장을 처리하게 하려면 사람이 쓴 문장을 토대로 사람이 문장을 통해 발현하는 모든 문장의 표현 양상을 학습해 사람처럼 분석하고 처리할 수 있어야 한다. 이를 위해 기본적으로 처리되어야 할 부분은 언어학적인 정보처리이다. 언어학에서 통사론적으로 문장을 분석할 때 필요한 것이 문장을 성분별로 나눌 수 있고, 문장의 핵심인 용언을 중심으로 필수 논항을 찾아 해당 논항이 용언과 어떤 의미역 관계를 맺고 있는지를 파악할 수 있어야 한다. 본 연구에서는 국립국어원 표준국어대사전을 기반으로 구축한 격틀사전과 한국어 어휘 의미망에서 용언의 하위 범주를 자질로 구축한 CRF 모델을 적용하여 의미역을 결정하는 방법을 사용하였다. 문장의 어절, 용언, 격틀사전, 단어의 상위어 정보를 자질로 구축한 CRF 모델을 기반으로 하여 의미역을 자동으로 태깅하는 실험을 한 결과 정확률이 83.13%로 기존의 규칙 기반 방법을 사용한 의미역 태깅 결과의 정확률 81.2%보다 높은 성능을 보였다.

위키피디아 기반의 의미 연관성을 이용한 태깅된 웹 이미지의 검색순위 조정 (Tagged Web Image Retrieval Re-ranking with Wikipedia-based Semantic Relatedness)

  • 이성재;조수선
    • 한국멀티미디어학회논문지
    • /
    • 제14권11호
    • /
    • pp.1491-1499
    • /
    • 2011
  • 오늘날 이미지, 동영상과 같은 멀티미디어 데이터를 웹 공간에 저장하고 검색할 때, 태그를 이용하는 추세는 보편화되어 있다. 본 논문에서는 태깅된 웹 이미지의 검색에서 태그들의 의미적 중요도를 계산하고, 이를 이용하여 검색 순위를 조정하는 시도를 소개한다. 일반적으로 웹상에 저장된 대부분의 사진 이미지들은 실제로는 중요하지 않지만 사용자의 주관적인 판단으로 추가된 태그들을 다수 포함하고 있으며, 이들은 태그의 단순 비교방식으로 이미지를 검색할 때 정확도를 떨어트리는 주요 원인이 된다. 따라서 어떤 이미지에 붙은 수많은 태그들 중에서 의미적으로 보다 중요한 태그들을 찾아내어 검색에 이용한다면 더욱 만족스러운 검색 결과를 얻을 수 있다. 본 논문에서는 위키피디아 기반의 의미 연관성을 활용하여 검색어 또는 다른 태그들과의 의미 연관성이 높은 태그를 해당 이미지의 대표 태그로 판단하고 이를 이용하여 검색 순위를 조정하는 방법을 제안한다. 실험 결과, 방대한 온라인 백과사전인 위키피디아를 이용하여 계산된 의미적 연관성을 이용함으로써 기존의 연구에 비해 향상된 결과를 얻을 수 있었다.