• 제목/요약/키워드: semantic classification

검색결과 329건 처리시간 0.029초

SNS 이미지 의미정보 분석 및 분류에 관한 연구 (A Study on the semantic information analysis and classification for SNS image)

  • 이성재;조성우;조수선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.507-509
    • /
    • 2012
  • 많은 사용자가 직접 글을 작성하고 데이터를 업로드 하는 SNS 서비스의 데이터 분류 및 분석에서 빅 데이터 활용방안이 다양하게 논의되고 있다. 특히 기존에 활용하던 텍스트 기반의 분류에서 이미지, 동영상에 대한 분류가 다양하게 시도되고 있다. 본 논문에서는 위키피디아를 이용한 이미지 태그의 의미정보를 바탕으로 플리커에서 샘플 이미지를 추출하고 이를 활용하여 'bag of visual word' 기법으로 사용자가 업로드한 이미지를 자동 분류하는 방법을 소개한다.

고정키어구 추출을 통한 디지털 문서의 도메인 특정 주석 (Domain Specific Annotation of Digital Documents through Keyphrase Extraction)

  • 이람 파티마;이영구;이승룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1389-1391
    • /
    • 2011
  • In this paper, we propose a methodology to annotate the digital documents through keyphrase extraction using domain specific taxonomy. Limitation of the existing keyphrase extraction algorithms is that output keyphrases may contain irrelevant information along with relevant ones. The quality of the generated keyphrases by the existing approaches does not meet the required level of accuracy. Our proposed approach exploits semantic relationships and hierarchical structure of the classification scheme to filter out irrelevant keyphrases suggested by Keyphrase Extraction Algorithm (KEA++). Our experimental results proved the accuracy of the proposed algorithm through high precision and low recall.

클래스분류 학습이 Self-Supervised Transformer의 saliency map에 미치는 영향 분석 (Analysis of the effect of class classification learning on the saliency map of Self-Supervised Transformer)

  • 김재욱;김현철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.67-70
    • /
    • 2022
  • NLP 분야에서 적극 활용되기 시작한 Transformer 모델을 Vision 분야에서 적용하기 시작하면서 object detection과 segmentation 등 각종 분야에서 기존 CNN 기반 모델의 정체된 성능을 극복하며 향상되고 있다. 또한, label 데이터 없이 이미지들로만 자기지도학습을 한 ViT(Vision Transformer) 모델을 통해 이미지에 포함된 여러 중요한 객체의 영역을 검출하는 saliency map을 추출할 수 있게 되었으며, 이로 인해 ViT의 자기지도학습을 통한 object detection과 semantic segmentation 연구가 활발히 진행되고 있다. 본 논문에서는 ViT 모델 뒤에 classifier를 붙인 모델에 일반 학습한 모델과 자기지도학습의 pretrained weight을 사용해서 전이학습한 모델의 시각화를 통해 각 saliency map들을 비교 분석하였다. 이를 통해, 클래스 분류 학습 기반 전이학습이 transformer의 saliency map에 미치는 영향을 확인할 수 있었다.

  • PDF

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

워드넷 기반 특징 추상화를 통한 웹문서 자동분류시스템의 성능향상 (Improving Hypertext Classification Systems through WordNet-based Feature Abstraction)

  • 노준호;김한준;장재영
    • 한국전자거래학회지
    • /
    • 제18권2호
    • /
    • pp.95-110
    • /
    • 2013
  • 본 논문은 기계학습 기법에 기반한 웹문서 자동분류 시스템의 성능을 높이기 위한 새로운 형태의 특징가공 기법을 제안한다. 제안 기법은 하이퍼텍스트 웹문서에 대한 자동분류를 효과적으로 수행하기 위해 하이퍼링크 관계를 활용하여 특징 집합을 확장시킨다. 웹문서는 하이퍼링크 관계를 통해 서로 연결된 구조를 가지며, 그 관계는 많은 경우 연관도가 높은 문서들 간에 존재한다. 이러한 링크 정보가 분류모델의 주요 인자가 되는 특징 집합의 질을 높이는 중요한 역할을 수행할 수 있다. 제안 기법의 기본 아이디어는 워드넷 온톨로지를 기반으로 분류 대상 문서와 인접 문서들에 포함된 단어(특징)들 간의 의미적 유사도를 평가함으로써 다수의 특징들로 구성된 추상화된 개념적 특징을 생성하는 것이다. 여기서 유사도 함수는 워드넷 안에서 특징들 간의 상/하위어 관계 정보를 정량적으로 계산하게 된다. 분류모델의 구축시 추상화된 개념 특징은 일반 특징과 동일하게 간주하여 보다 정확한 분류 모델을 구축하는데 기여한다. Web-KB 문서집합을 이용한 실험을 통해 제안 기법이 기존 기법 보다 우수함을 보였다.

무인항공기 및 인공지능을 활용한 도시지역 토지피복 분류 기법의 공간적 재현성 평가 (Spatial Replicability Assessment of Land Cover Classification Using Unmanned Aerial Vehicle and Artificial Intelligence in Urban Area)

  • 박건웅;송봉근;박경훈;이흥규
    • 한국지리정보학회지
    • /
    • 제25권4호
    • /
    • pp.63-80
    • /
    • 2022
  • 현실의 공간을 가상의 공간으로 구현하여 문제를 분석하고 예측하는 기술이 개발되면서, 복잡한 도시 내의 정밀한 공간정보를 취득하는 것이 중요해지고 있다. 본 연구는 복잡한 경관을 가진 도시지역을 대상으로 무인항공기를 통해 영상을 취득하고 고해상도 영상에 적합한 영상분류 기법인 객체기반 영상분석 기법과 의미론적 분할 기법을 적용하여 토지피복 분류를 수행하였다. 또한, 동일시기에 수집된 영상을 바탕으로 인공지능이 학습하지 않은 지역에 대해 각 인공지능 모형의 토지피복 분류 재현성을 확인하고자 하였다. 학습 지역을 대상으로 인공지능 모형을 학습하였을 때, 토지피복 분류 정확도가 OBIA-RF는 89.3%, OBIA-DNN은 85.0%, U-Net의 경우 95.3%로 분석되었다. 재현성을 평가하기 위해 검증 지역에 인공지능 모형을 적용하였을 때, OBIA-RF는 7%, OBIA-DNN은 2.1%, U-Net은 2.3%의 정확도가 감소하였다. 형태학적인 특성과 분광학적인 특성을 모두 고려한 U-Net이 토지피복 분류 정확도 및 재현성 평가에서 우수한 성능을 보이는 것으로 나타났다. 본 연구의 결과는 정밀한 공간정보가 중요해짐에 따라 기초자료 생성 방법으로써 도시환경 연구분야에 기여할 수 있을 것으로 판단된다.

식품 위생 정보화를 위한 식단 정보 온톨로지 구축과 활용 (Ontology Construction of Diet Data for Food Hygiene Informatization)

  • 차경애;여선동;윤성욱;홍원기
    • 재활복지공학회논문지
    • /
    • 제11권1호
    • /
    • pp.21-27
    • /
    • 2017
  • IT기술의 발달에 따라 다양한 분야가 정보화 되고 있으나, 식품 위생 분야의 정보화 연구는 활발하지 못하다. 그 중 예방차원의 계획적 식품위생관리시스템인 HACCP(Hazard Analysis and Critical Control Point) 시스템은 여러 식단 정보들의 연관관계로 도출되는 복잡한 업무로 진행되기 때문에 정보화가 쉽지 않아 각종 기록 업무 등이 수작업으로 시행되고 있어, 정보의 정확성을 보장하기 어렵다. 본 논문에서는 HACCP 시스템의 정보 신뢰성 확보와 운영절차의 효율성을 증대시키기 위하여 식재료, 조리법 및 식품군 특성, 식자재 등 정보들 간의 의미를 저장하는 식품 정보 온톨로지를 구축하고, 이를 검증하기 위하여 온톨로지를 기반으로 HACCP 식단을 자동 분류하는 정보화 어플리케이션을 개발하였다. 이러한 식품 정보 온톨로지는 식단분류를 위한 정보의 접근성을 높이고, 정보들 간의 연관관계를 기록함으로써 식품 정보의 효율적인 검색 및 광범위한 활용이 가능하며, 자동화된 정보 관리를 통한 HACCP 운영 정보의 신뢰성을 향상시킬 수 있다.

NMF 기반의 용어 가중치 재산정을 이용한 문서군집 (Document Clustering using Term reweighting based on NMF)

  • 이주홍;박선
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권4호
    • /
    • pp.11-18
    • /
    • 2008
  • 문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해(NMF, non-negative matrix factorization)를 기반한 용어 가중치 재산정 방법을 이용하여서 사용자의 요구에 적합한 군집결과를 얻도록 하는 새로운 군집모델을 제안한다. 제안된 모델은 군집형태에 대한 사용자 요구와 기계에 의한 군집 형태의 차이를 최소화하기 위하여 사용자 피드백에 의한 가중치가 재계산된 용어를 이용한다. 또한 제안방법은 용어의 가중치 재계산과 문서군집에 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 적용하지 않은 문서군 방법에 비하여 좋은 성능을 보인다.

  • PDF

효율적인 상품등록을 위한 워드넷 기반의 오픈마켓 카테고리 검색 시스템 (A WordNet-based Open Market Category Search System for Efficient Goods Registration)

  • 홍명덕;김장우;조근식
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권9호
    • /
    • pp.17-27
    • /
    • 2012
  • 여러 오픈마켓에서 판매자가 동일한 상품을 등록할 시에 각 오픈마켓마다 다른 기준으로 제공되는 카테고리로 인하여 카테고리 선정에 어려움이 발생한다. 본 논문에서는 판매자가 오픈마켓에서 상품 등록 시 다른 오픈마켓에서 기 판매하고 있는 상품의 카테고리와 의미적으로 가장 연관성이 높은 카테고리를 추천하는 방법을 제안한다. 이때 입력받은 카테고리를 의미 분석하는 방법으로 형태소 분석, Wiki 낱말사전, WordNet, Google 번역 서비스를 사용하여 추출된 색인어로 카테고리를 검색한 후, 의미적 연관성 측정을 통하여 가장 의미가 비슷한 카테고리를 추천하는 방법이다. 실험 결과로 색인어 기반의 검색방법 보다 제안하는 의미분석 검색방법이 정확한 검색결과를 보여주어 시스템의 신뢰도를 향상시켰으며, 카테고리를 선택하는데 드는 시간비용을 절감해주는 것을 보인다.

대학 학사행정 기록물의 토픽맵 기반 검색시스템 설계에 관한 연구 (A Study on the Design of a Topic Map-based Retrieval System for the Academic Administration Records of Universities)

  • 신지유;정영미
    • 한국기록관리학회지
    • /
    • 제16권1호
    • /
    • pp.175-193
    • /
    • 2016
  • 토픽맵은 방대한 양의 정보를 의미론적 연관관계에 따라 분류, 조직하여 탐색할 수 있도록 효율적인 검색을 제공하기 위해 제안된 도구이다. 본 연구는 대학의 교직원들이 학사행정 대학기록물 검색시 의미기반 검색을 통해 보다 적합한 검색결과를 제공받을 수 있도록 토픽맵 기반 대학기록물 검색시스템을 설계한 것이고 그 과정을 보여준다. 본 연구를 위해 D대학의 2년간 학사행정 기록물들이 사용되었고 의미관계를 구조화하기 위해 대학의 업무 기능 분류표를 참조하였다. 온토피아 옴니게이트를 사용하여 토픽맵을 구축하였다. 대학의 학사행정 관련 기록물의 토픽은 총 626개로 나타났고, 토픽 타입은 학사업무, 교직원, 학적, 대학, 학생, 기타로 구성하였다. 관계는 토픽들간의 연관으로 6개 유형이 나타났고, 어커런스 타입은 등록구분, 등록번호, 등록일, 수신자, 제목, 기안자, 분류번호 등의 7개로 정의하였다. 본 연구에서 설계된 토픽맵 기반의 검색시스템의 관계적 속성은 대규모 기록물을 쉽게 탐색하고 지식의 우연한 발견을 가능하게 할 것으로 기대된다.