• 제목/요약/키워드: 태깅 단위

검색결과 60건 처리시간 0.029초

블로그 검색에서의 태그 계층구조를 이용한 포스트 군집화 (Post Clustering Method using Tag Hierarchy for Blog Search)

  • 이기준;김경민;이명진;김우주;홍준석
    • 한국전자거래학회지
    • /
    • 제16권4호
    • /
    • pp.301-319
    • /
    • 2011
  • 웹 3.0으로 진화중인 웹 환경 하에서 블로그는 사용자 주도적인 웹의 특성을 가장 잘 표현하는 집합체 중 하나로, 기존의 웹 정보자원과 구분되는 새로운 형태의 지식베이스로써의 역할을 담당하고 있다. 기존의 웹 정보자원들이 사이트 단위로 광범위한 주제를 다루었던 것에 반해, 블로그의 정보자원은 사용자의 관심사에 따라 특정 정보들이 블로그 단위로 밀집되어 있으며 또한 사용자 태깅에 의해 게시된 정보자원에 대한 분류기준을 가지고 있다. 본 연구에서는 이러한 블로그의 특징들을 이용하여 보다 좀 더 효과적인 정보검색에 활용하기 위하여 블로그의 제목 키워드나 태그를 활용하여 태그 계층구조를 만들고 그 계층구조를 적용한 포스트군집화 방법론을 개발하여 기존의 블로그 검색과는 다른 특성을 가진 검색결과를 제시하였다. 이를 위하여 블로그 태그간의 관계성이 반영된 태그 계층구조를 생성하고 태그 유사도에 따른 태그군집화 방법을 개발하였다. 본 논문은 제안된 방법론을 구현한 프로토타입 시스템을 통해 실제사례에서의 연구의 적용 가능성을 판단하였으며, 군집 유사도 평가기준인 CSIM(Cluster SIMilarity)을 사용하여 골든 스탠다드의 유사도 비교를 통해 개발된 방법론과 시스템의 성과를 평가하였다.

한국어 대화 엔진에서의 문장 분류 (Sentence Classification for Korean Dialog Engine)

  • 최동현;박일남;임재수;백슬예;이미옥;신명철;김응균;신동렬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.210-214
    • /
    • 2018
  • 본 논문에서는 한국어 대화 엔진에서의 문장 분류 방법에 대해서 소개한다. 문장 분류시 말뭉치에서 관찰되지 않은 표현들을 포함한 입력 발화를 처리하기 위하여, 태깅되지 않은 뉴스 데이터로부터 일반적인 단어 의미 벡터들이 훈련 및 성능 평가되었고, 이를 문장 분류기에 적용하였다. 또한, 실 서비스에 적용 가능한 빠른 분류 속도를 유지함과 동시에 문제에 특화된 의미 벡터들을 학습하기 위하여, 기존에 사용되던 캐릭터 기반 의미 벡터 대신 도메인 특화 단어 의미 벡터의 사용이 제안되었다. 실험 결과, 자체 구축된 테스트 말뭉치에 대하여 본 논문에서 제안된 시스템은 문장 단위 정확률 96.88, 문장당 평균 실행 시간 12.68 msec을 기록하였다.

  • PDF

용언구에 기반한 한영 기계번역 시스템 : 'CaptionEye/KE' (Korean-to-English Machine Translation System based on Verb-Phrase : 'CaptionEye/KE')

  • 서영애;김영길;서광준;최승권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.269-272
    • /
    • 2000
  • 본 논문에서는 ETRI에서 개발 중인 용언구에 기반한 한영 기계번역 시스템 CaptionEye/KE에 대하여 논술한다. CaptionEye/KE는 대량의 고품질 한-영 양방향 코퍼스로부터 추출된 격틀사전 및 대역패턴, 대역문 연결패턴 등의 언어 지식들을 바탕으로 하여, 한국어의 용언구 단위의 번역을 조합하여 전체 번역을 수행한다. CaptionEye/KE는 변환방식의 기계번역 시스템으로서, 크게 한국어 형태소 분석기, 한국어 구문 분석기, 부분 대역문 연결기, 부분 대역문 생성기, 대역문 선택/정련기, 영어형태소 생성기로 구성된다. 입력된 한국어 문장에 대해 형태소 분석 및 태깅을 수행한 후, 격틀사전을 이용하여 구문구조를 분석하고 의존 트리를 생성해 낸다. 이렇게 생성된 의존 트리로부터 대역문 연결패턴을 이용하여 용언구들간의 연결에 대한 번역을 수행한 후 대역패턴을 이용하여 각 용언구들을 번역하고 문장 정련과정을 거쳐 영어 문장을 최종 생성한다.

  • PDF

한국어 수사구조 분류체계 수립 및 주석 코퍼스 구축 (Building an RST-tagged Corpus and its Classification Scheme for Korean News Texts)

  • 노은정;이연수;김연우;이도길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.33-38
    • /
    • 2016
  • 수사구조는 텍스트의 각 구성 성분이 맺고 있는 관계를 의미하며, 필자의 의도는 논리적인 구조를 통해서 독자에게 더 잘 전달될 수 있다. 따라서 독자의 인지적 효과를 극대화할 수 있도록 수사구조를 고려하여 단락과 문장 구조를 구성하는 것이 필요하다. 그럼에도 불구하고 지금까지 수사구조에 기초한 한국어 분류체계를 만들거나 주석 코퍼스를 설계하려는 시도가 없었다. 본 연구에서는 기존 수사구조 이론을 기반으로, 한국어 보도문 형식에 적합한 30개 유형의 분류체계를 정제하고 최소 담화 단위별로 태깅한 코퍼스를 구축하였다. 또한 구축한 코퍼스를 토대로 중심문장을 비롯한 문장 구조의 특징과 분포 비율, 신문기사의 장르적 특성 등을 살펴봄으로써 텍스트에서 응집성의 실현 양상과 구문상의 특징을 확인하였다. 본 연구는 한국어 담화 구문에 적합한 수사구조 분류체계를 설계하고 이를 이용한 주석 코퍼스를 최초로 구축하였다는 점에서 의의를 갖는다.

  • PDF

저작관련 요소분석을 통한 폭소노미 태그의 활용 방안에 관한 연구: LibraryThing을 중심으로 (A Study on the Application of LibraryThing Folksonomy Tags through the Analysis of Elements related with Work)

  • 김동숙;정연경
    • 정보관리학회지
    • /
    • 제27권1호
    • /
    • pp.41-60
    • /
    • 2010
  • 본 연구에서는 FRBR의 저작 단위로 태그(tag)가 부여되고 있는 LibraryThing에 나타난 태그를 활용하여, 소설(Fiction) 분야 태그들의 특성, 패턴의 형식적인 측면과 동시에 태그의 내용 분석을 시도하였다. 저작의 서지사항 기술 용어, LCSH 용어와 비교하여 관련 정도를 파악하였고, 이에 포함되지 않는 기타 태그의 출처는 어디인지, 저작의 어떤 측면을 표현하고 있는지, 저작과 연계하여 태그의 용어를 살펴보았다. 특히 소설이란 한 분야로 한정함으로써, 소설만이 가지는 특성인 소설의 3요소(주제, 구성, 문체), 소설 구성의 3요소(인물, 사건, 배경)를 반영한 태그를 파악하여, 향후 소설 정보의 조직 및 검색 요소로서 활용할 수 있는 가능성을 보여주었다. 이를 통해 기존의 색인어를 보완하는 폭소노미 태그의 역할을 규명하고 태깅시스템이 나아갈 새로운 방향을 제시하였다.

감정로그 자동화 기록을 위한 표정인식 어플리케이션 개발 (Development of facial recognition application for automation logging of emotion log)

  • 신성윤;강선경
    • 한국정보통신학회논문지
    • /
    • 제21권4호
    • /
    • pp.737-743
    • /
    • 2017
  • 지능형 라이프로그 시스템은 언제(When), 어디서(Where), 누구와 함께(Who), 어떤 상황에서(What, How), 일어나는 정보, 즉 사용자의 일상에서 발생되는 시간, 인물, 장면, 연령대, 감정, 관계, 상태, 위치, 이동 경로 등의 다양한 상황정보들을 인식하여 태그를 달아 사용자의 일상생활을 기록하고 쉽고 빠르게 접근하도록 제공하는 것이다. 상황인식은 자동태킹(Auto-Tagging) 기술과 생체인식 기술인 얼굴인식을 이용해, 태그(Tag) 단위의 정보를 자동으로 생성하고 분류되어 상황정보 DB을 구축한다. 상황정보 DB에는 지리정보, 위치정보, 날씨정보, 감정정보 등을 포함하고 있다. 본 논문에서는 감정정보를 자동으로 기록하기 위해서 능동형태 모델 방법을 사용해 무표정과 웃는표정을 인식하는 어플리케이션을 개발하였다.

스마트 기기 신호 간섭에 의한 수동형 UHF 대역 RFID 태그의 인식 거리 감소에 관한 연구 (Read Range Reduction in Passive UHF RFID Tag by Smart Device Signal Interference)

  • 권종원;송태승;조원서
    • 한국전자파학회논문지
    • /
    • 제25권1호
    • /
    • pp.83-91
    • /
    • 2014
  • 현재 단품 단위 태깅(Item-level tagging)을 위한 UHF 대역 RFID Tag는 원거리 인식 거리와 저가 등의 장점들 때문에 유통산업 현장에서 폭발적으로 확대 보급되고 있다. 그러나 스마트폰과 태블릿 시장의 확대에 따라 실제 현장에서는 RFID 태그와 스마트 기기 간의 신호 간섭 문제가 예상된다. 이로 인해 RFID 태그는 인식률 및 인식 거리 감소 등 성능 저하가 발생하고 있다. 특히 KT에서는 최근 900 MHz 대역의 LTE 주파수와 구형 RFID 기술의 심각한 간섭 문제를 시연회를 통해 강조하였다. 이에 따라 본 논문에서는 스마트 기기로부터 송신되는 신호로 부터 수동형 UHF 대역 RFID 태그의 간섭 내성 측정 방법을 제안한다. 또한, 시중에 유통 중인 3개의 RFID 태그용 인레이(Inlay)를 선정하여 신호 간섭에 따른 인식 거리 감소 결과를 PCR 지수를 이용하여 정량적으로 비교 평가하였다. 그 결과, 신호 간섭 영향 측면에서 WCDMA 시스템에 비해 LTE 시스템이 약 3배 정도 강하며, 일부 태그의 인식 거리 성능은 약 60 % 저하되었다.

공간적 자기상관성의 정도에 따른 MAUP에서의 스케일 효과 연구 - LBSNS 데이터를 중심으로 - (A Study on Scale Effects of the MAUP According to the Degree of Spatial Autocorrelation - Focused on LBSNS Data -)

  • 이영민;권필;유기윤;허용
    • 대한공간정보학회지
    • /
    • 제24권1호
    • /
    • pp.25-33
    • /
    • 2016
  • 포인트 속성의 위치 기반 소셜 네트워크 서비스(Location-Based Social Network Services, LBSNS) 데이터를 멀티스 케일의 타일맵상에 효과적으로 시각화하기 위해서는 격자 기반으로 군집화하여 표현해야 할 필요성이 있다. 이때 격자의 크기 및 개수를 결정해야 하는데, 이에 대한 기준은 정해진 것이 없으며 데이터의 종류와 분석 목적에 따라 달라지므로 연구자의 주관이 개입될 수밖에 없다. 이때 연구 결과에 영향을 끼치는 공간단위 임의성의 문제(Modifiable Areal Unit Problem, MAUP)가 발생한다. 본 연구에서는 LBSNS 중 지오태깅(geotagging)된 트위터(Twitter) 데이터를 대상으로 하여 이러한 MAUP의 영향을 스케일 효과(scale effect)의 측면에서 탐색해 보고자 하였다. 이를 위해 공간오차모델(spatial error model)을 이용하여 데이터의 공간적 자기상관성(spatial autocorrelation)의 정도를 조절하였으며, 이에 대해 격자의 크기를 달리함에 따른 공간적 자기상관성의 변화를 Moran's I를 통해 분석하였다. 실험 결과, 원 데이터에는 양의 공간적 자기상관성이 존재하는 것을 확인하였으며, 이러한 경우에는 공간오차모델의 공간자기회귀계수(spatial autoregressive coefficient)의 값이 증가할수록 공간적 자기상관성이 감소하는 것을 알 수 있었다. 이러한 특성을 이용하여 트위터 데이터의 공간적 자기상관성의 강도를 5단계로 조절하였으며, 각 단계에 대하여 격자의 크기를 9단계로 나누어 각각에서의 Moran's I를 계산하였다. 그 결과, 합역 수준이 높아질수록 공간적 자기상관성이 증가하다가 격자의 크기가 600m에서 1,000m 사이일 때 감소하는 것을 알 수 있었으며, 공간적 자기상관성이 강할수록 MAUP에서의 스케일 효과는 감소하는 경향이 있는 것을 확인하였다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

주요국 국가서지 현황조사를 통한 국가서지의 최신 경향 분석 (Current Trends for National Bibliography through Analyzing the Status of Representative National Bibliographies)

  • 이미화;이지원
    • 한국비블리아학회지
    • /
    • 제32권1호
    • /
    • pp.35-57
    • /
    • 2021
  • 본 연구는 국가서지의 최신 경향을 분석하고자 문헌연구, 홈페이지분석, 사서 대상 설문조사를 실시하였다. 분석 결과 첫째, 한 국가 출판물의 기록이라는 국가서지의 정의에 부합하기 위해서 국가서지에 인쇄에서 전자자원까지 다양한 자료가 수록되도록 하였으나 현실적으로 모든 자료가 포함될 수 없으므로 제외사항이 있었다. 보편적인 국가서지 선정기준을 작성하는 것은 불가능하며, 국가의 특성을 반영하고, 분석을 바탕으로 한 타당하고 포괄적인 수록범위를 마련하는 방안이 필요하다. 둘째, 국가서지를 효율적으로 생성하기 위해 출판사 및 도서관 등과 협력이 이루어지고 있다. 국가서지 생성의 효율성을 위해 표준화 및 일관성, 디지털 자원에 대한 컬렉션 단위 메타데이터 기술, 링크드데이터를 활용한 국가서지 생성 등과 같이 국가서지 발행 및 생성에서 변화가 모색되어야 한다. 셋째, 국가서지는 국가서지 온라인 검색 시스템, 링크드데이터 검색, PDF, OAI-PMH, SRU, Z39.50을 이용한 MARC 다운로드, RDF/XML 형식의 대량 다운로드 형태 등으로 발행되고 있고, 온라인목록과 통합되거나 별도로 구축되기도 한다. 다만, 국가서지와 온라인목록은 통합 도서관 시스템을 이용해 데이터 재사용 방식으로 구축될 필요가 있다. 넷째, 국가서지를 위한 차별화된 기능으로 다양한 브라우징 기능과 함께 이용자 태깅, 국가서지 통계 등 다양한 서비스를 제공하고 있다. 추가적으로 국가서지 빅데이터 분석, 전자 출판물과의 링크, 링크드데이터의 대량 다운로드 서비스가 제공되어야 하며, 차별화된 서비스 개발을 위해서는 이용자의 요구를 파악하고, 이를 반영한 한 개방 서비스를 마련해야 할 것이다. 본 연구에서 분석된 국가서지의 최신 경향 및 고려사항을 통해 국내 및 국외 국가서지의 발전적 변화를 모색할 수 있을 것이다.