• 제목/요약/키워드: 의미 태깅

검색결과 109건 처리시간 0.025초

협력적 북마킹의 태킹 행태 분석 (Analysis of the usage Pattern of Tagging in Collaborative Bookmarking)

  • 최준연;김용수
    • 한국콘텐츠학회논문지
    • /
    • 제9권7호
    • /
    • pp.193-201
    • /
    • 2009
  • 웹문서의 특성을 표현하기 위해 키워드 형태로 부여하는 태깅의 이용이 다양한 웹서비스에서 확산되고 있다. 온라인 즐겨찾기 서비스라고 말할 수 있는 협력적 북마킹 서비스에서도 태깅이 중요한 역할을 수행하는데, 사용자가 부여한 태그는 자신의 북마크를 손쉽게 검색하고 타사용자의 웹문서 검색을 정교하게 만들어준다. 본 연구에서는 사용자들의 태깅 데이터를 분석하여 웹문서와 사용자의 태그 수에 영향을 주는 요인이 무엇인가를 탐색하였다. 웹문서의 태그 수에는 웹문서의 특성보다 사용자의 특성에 따라 더 큰 편차를 보였으며, 이것은 사용자의 성향이 태그의 다양성에 더 큰 영향을 미친다는 것을 의미한다. 또한 추종적 사용자보다는 가장 먼저 웹문서를 북마킹하는 선도적 사용자들이 더 많은 태그를 생성하는데 기여하는 것으로 나타났다. 풍부하고 다양한 태깅을 통해 서비스의 품질을 향상시키기 위해서는 선도적 사용자들에 대한 보상과 인센티브를 통해 더 많은 지식을 생성할 수 있도록 해야 한다는 시사점을 제공한다.

나이브 베이즈 분류기를 이용한 의미제약이 강화된 한국어 복합명사 의미 분석 (A Semantic Analysis of Korean Compound Nouns with Enforced Semantic Constraints using a Na${\ddot{i}}$ve Bayes Classifier)

  • 이용훈;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.102-106
    • /
    • 2011
  • 본 논문에서는 사전 원어정보를 이용한 기존 방법에 나이브 베이즈 분류기를 추가로 이용하는 의미제약 기술에 대하여 소개한다. 의미제약은 의미 분석의 전처리 단계로서 부분적으로 중의성을 해소하여 입력된 복합명사의 분석 정확도 뿐만 아니라 전체적인 분석시간의 단축에도 큰 도움을 준다. 나이브 베이즈 분류기를 이용하는 방법은 사전의 의존성으로 인해 제약할 수 없는 2-gram을 대상으로 제약을 시도한다. 분류기를 위한 학습데이터는 의미 태깅된 기분석 2-gram사전을 이용하여 U-WIN의 관계정보와 사전 그리고 패턴들에 의해 생성된다. 원어정보로 해결하지 못하는 34.63%의 2-gram중 2.83%에 대해 추가로 제약에 성공 하였다.

  • PDF

하위범주화 사전의 구축 및 자동 확장 (Development and Automatic Extraction of Subcategorization Dictionary)

  • 이수선;박현재;우요섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.179-181
    • /
    • 2000
  • 한국어의 통사적, 의미적 중의성 해결을 위해 하위범주화 사전을 구축하였다. 용언에 따라 제한될 수 있는 문형 패턴과 의미역(semantic roles) 정보의 표준을 정하여 이를 부가하였고 구축한 하위범주화 사전이 명사에 대한 의미를 갖고 있는 계층 시소러스 의미사전과 연동하도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 말뭉치와 구문분석된 말뭉치를 통해 검증 작업을 수행했다. 이 과정에서 자동으로 하위범주 패턴에 대한 빈도 정보나, 연어정보, 각 의미역과 용언의 통계적 공기 정보 등을 추출하여 하위범주화사전에 추가시켰다. 또한 여기서 얻은 정보를 기준으로 하위범주화 사전을 자동으로 확장하는 알고리즘을 적용하여 확장시켰다.

  • PDF

사전 뜻풀이를 이용한 용언 의미 군집화 (Semantic Clustering of Predicate using Word Definition in Dictionary)

  • 배영준;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.46-51
    • /
    • 2010
  • 한국어의 어휘의미 정보를 명확히 파악하기 위해서는 어휘 의미 체계를 구축해야 한다. 본 논문에서는 어휘 의미 체계 구축의 단계 중 하나인 용언의 의미 군집화를 연구하였다. 주어 및 목적어의 논항 구조와 선택 제약정보, 부사의 결합정보를 이용한 이전의 연구와는 달리 의미태깅이 된 사전 뜻풀이의 용언정보를 이용하여 용언의 의미 군집화와 간단한 계층화를 시도하였다. 그리고 특정 부류의 일반 샘플을 이용했던 특정 용언의 부류가 아닌 사전에 존재하는 대부분의 용언들을 대상으로 연구를 진행하였다.

  • PDF

정보검색의 시맨틱웹 지향 설계에 관한 연구 - 온톨로지와 소셜태깅을 활용한 탐험적 발견행위 모델개발을 중심으로 - (A Study of a Semantic Web Driven Architecture in Information Retrieval: Developing an Exploratory Discovery Model Using Ontology and Social Tagging)

  • 조명대
    • 한국비블리아학회지
    • /
    • 제21권3호
    • /
    • pp.151-163
    • /
    • 2010
  • 이 논문에서는 기존 정보검색모델에서의 문제점을 살펴보고 그 대안을 제시하고 있다. 정보환경의 변화에 따라 '개념'중심의 새로운 정보조직인 온톨로지와 소셜태깅은 탐험적 발견행위를 가능하게 해줄 수 있다. 이들을 통해 어느 한 이용자의 머릿속에 있는 생각을 인터넷상의 수많은 사람의 머릿속에 있는 생각을 연결해주고 있다. 이러한 상호작용을 통한 연결고리를 통해서 이젠 이용자들이 탐험적으로, 적극적으로 정보를 찾아 나서고 있다. 이에 본 연구의 목적은 질적인 연구방법론으로 온톨로지와 소셜태깅에서 제공되는 수많은 탐색촉진제의 존재를 밝힌 후, 하나의 탐험적 발견행위 모델을 만들어내는 것이다. 그 결과는 먼저 3개의 상위그룹이 형성되었다. 첫째, 브라우징 및 모니터링으로 어떤 대상을 인지 및 집중하는 단계, 둘째, 의미부여로 적극적인 참여 및 공유하는 단계이며 셋째는 더 적극적으로 생각을 확장시켜나가면서 스스로 사회적 학습을 하는 단계였다. 제일 첫 그룹에는 정보요구인지, 소셜공간에서 도움 필요성인지, 도움을 받을 수 있는 자료 발견, 일단 멈춤, 그 대상에 집중등의 단계가 있었다. 두 번째 그룹에는 적극적 의미형성, 소셜 북마킹 및 태깅, 소셜 네트워크에서 나눔, 처음 정보요구를 더 구체화하는 단계가 있었다. 세 번째는, 발견적인 소셜학습, 우연한 정보 발견, 창조적 생각을 유발, 문제 해결 능력향상 등의 총 13단계를 발견하게 되었다. 이 모델은 이용자들이 탐험적 발견행위를 할 수 있는 능력을 향상하게 시키는 정보시스템 디자인에 공헌할 수 있을 것이다.

두문자어 의미 태깅 방법 (A Method for Acronym Sense Tagging)

  • 황명권;정도헌;성원경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1199-1201
    • /
    • 2011
  • 본 논문은 의미적 정보처리에서 걸림돌이 되는 두문자어(Acronym)의 의미처리를 위한 전체적인 구조설계를 포함하고 있다. 두문자어는 일반적으로 복합어에서 의미가 큰 단어의 첫 번째 문자들로 구성된다. 두문자어를 구성하는 복합어는 다른 일반 명사들과 달리 대부분 고유한 의미를 갖고 있기 때문에 정보처리에서 의미 파악의 핵심적인 역할을 수행할 수 있다. 본 논문은 문서에서 출현하는 두문자어의 정확한 의미를 판단하기 위한 방법을 제안하며 현재까지 진행된 결과에 대해 언급하도록 한다.

계층형 문장 구조 인코더를 이용한 한국어 의미역 결정 (Hierarchical Learning for Semantic Role Labeling with Syntax Information)

  • 김봉수;김정욱;황태선;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-202
    • /
    • 2021
  • 의미역 결정은 입력된 문장 내 어절간의 의미 관계를 예측하기 위한 자연어처리 태스크이며, 핵심 서술어에 따라 상이한 의미역 집합들이 존재한다. 기존의 연구는 문장 내의 서술어의 개수만큼 입력 문장을 확장해 순차 태깅 문제로 접근한다. 본 연구에서는 확장된 입력 문장에 대해 구문 분석을 수행 후 추출된 문장 구조 정보를 의미역 결정 모델의 자질로 사용한다. 이를 위해 기존에 학습된 구문 분석 모델의 파라미터를 전이하여 논항의 위치를 예측한 후 파이프라인을 통해 의미역 결정 모델을 학습시킨다. ALBERT 사전학습 모델을 통해 입력 토큰의 표현을 얻은 후, 논항의 위치에 대응되는 표현을 따로 추상화하기 위한 계층형 트랜스포머 인코더 레이어 구조를 추가했다. 실험결과 Korean Propbank 데이터에 대해 F1 85.59의 성능을 보였다.

  • PDF

분포 정보를 이용한 의미 중의성을 지닌 한국어 동사의 의미 분별 (Korean Verb Senses Disambiguation Using Distributional Information from Corpora)

  • 조정미;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-61
    • /
    • 1995
  • 본 논문에서는 말뭉치로부터의 분포 정보를 이용하여, 의미 중의성을 지닌 한국어 동사의 의미를 분별하고자 한다. 분포 정보란 말뭉치내에서 목적어-서술어 관계에 있는 명사와 동사의 분포를 의미한다. 이 분포 정보는 명사 분포와 동사 분포로 나누어 생각할 수 있는데, 본 논문에서는 이 두가지 분포 정보를 사용함으로써 명사 분포만을 이용하였을 때 나타나는 자료 부족 현상을 등사 분포 정보를 이용하여 보완하였다. 분포 정보간의 유사도 계산은 정보 이론에서 사용하는 상대 엔트로피를 이용한다. 품사가 태깅된 50만 단어의 한국어 말뭉치로부터 분포 정보들을 추출하여 한국어 동사 10개에 대해 실험하였다.

  • PDF

D-Tag를 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using D-Tag)

  • 김은수;도수종;박천음
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-40
    • /
    • 2022
  • 본 논문에서는 시퀀스 레이블링 문제(sequence labeling problem)인 개체명 인식에 사용할 새로운 태깅 포맷인 Delimiter tag (D-tag)를 소개한다. 시퀀스 레이블링 문제에서 사용하는 BIO-tag 포맷은 개체명 레이블을 B (beginning)와 I (inside) 의미의 레이블로 확장하여 타겟 클래스의 수가 2배 증가한다. 또한 BIO-tag 포맷을 사용할 경우, 모델이 B와 I 를 잘못 분류하는 문제가 발생하며, 레이블 수가 많은 세부 분류 개체명의 경우에는 label confusion을 야기한다. 본 논문에서 제안한 D-tag 포맷은 타겟 클래스의 수를 증가시키지 않기 때문에 앞서 언급한 문제를 해결할 수 있다. 실험 결과, D-tag를 사용하여 학습한 모델이 BIO-tag를 사용한 경우보다 더 좋은 성능을 보여, 유망함을 확인하였다.

  • PDF

뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축 (Chunking Annotation Corpus Construction for Keyword Extraction in News Domain)

  • 김태영;김정아;김보희;오효정
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.595-597
    • /
    • 2020
  • 빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.

  • PDF