• 제목/요약/키워드: 문서감정

검색결과 65건 처리시간 0.027초

트윗 감정 분류를 위한 다양한 기계학습 자질에 대한 비교 연구 (Comparative Study of Various Machine-learning Features for Tweets Sentiment Classification)

  • 홍초희;김학수
    • 한국콘텐츠학회논문지
    • /
    • 제12권12호
    • /
    • pp.471-478
    • /
    • 2012
  • 문서를 대상으로 한 다양한 감정 분류 연구가 진행되어 왔으며, 최근에는 트윗 감정 분류에 그대로 적용되고 있다. 그러나 이러한 연구들은 트윗의 구조, 이모티콘, 철자 오류 그리고 신조어와 같은 트윗의 특징을 고려하지 않아 좋은 성능을 보이지 못하고 있다. 본 논문에서는 기계학습을 기반으로 다양한 자질을(이모티콘 극성, 리트윗 극성, 사용자 극성, 대체 어휘)사용하여 실험하여 트윗 감정 분류 성능의 영향을 확인하였다. 기계 학습기 SVM(Support Vector Machine) 기반의 감정 분류 실험으로 이모티콘 극성 자질과 사용자 극성 자질이 트윗 감정 분류 모델의 성능 향상에 기여를 하는 것을 알 수 있었다. 이와 비교하여 리트윗 극성과 대체 어휘 자질은 트윗 감정 분류 모델에 큰 영향이 없는 것을 알 수 있었다.

실행코드 비교 감정에서 주변장치 분석의 유효성 (Study on the comparison result of Machine code Program)

  • 김도현;이규대
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제16권1호
    • /
    • pp.37-44
    • /
    • 2020
  • 소프트웨어의 유사성 비교는 소스코드를 대상으로 한다. 소스코드는 프로그램 언어로 표현된 개발자의 지적 저작권으로 보호된다. 문서형식으로 작성된 프로그램 소스코드는 개발자의 전문지식과 아이디어가 포함된 내용을 포함하고 있다. 소프트웨어 저작권의 불법도용을 판단하기 위한 감정 작업은 원본과 비교본의 소스 코드를 대상으로 파일의 구성과 내용을 검증하는 방법으로 수행된다. 그러나 실제적으로 피고소인 측의 불성실한 목적물 제공으로 소스코드의 일대일 비교감정이 어려운 상황이 증가하고 있다. 이 경우 실행코드에 대한 비교감정이 수행되어야 하며, 역어셈블 방법, 역공학기법, 기능실행의 시퀀스 분석 등의 간접적인 방법이 적용된다. 본 논문에서는 소스코드제공이 어려운 상황에서 시스템과 실행코드 파일을 대상하는 하는 감정 사례를 통해 간접적인 비교결과의 유효성에 대해 분석하고, 감정결과에 활용하는 방안을 제시한다.

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법 (Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification)

  • 김정인;박상진;김형주;최준호;김한일;김판구
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.51-59
    • /
    • 2020
  • 인터넷의 발달과 스마트폰의 보급으로 인하여 그에 따른 소셜 미디어 문화가 형성됨에 따라 PC통신부터 지금까지 소셜 미디어 신조어가 그 문화로 자리 잡아가고 있다. 소셜 미디어의 등장과 사람들의 가교역할을 해주는 스마트폰의 보급화로 신조어가 생기고 빈번하게 사용되고 있는 추세이다. 신조어의 사용은 다양한 문자 제한 메신저의 문제점을 해결하고 짧은 문장을 사용하여 데이터를 줄이는 등 많은 장점을 가지고 있다. 그러나 신조어에는 사전적인 의미가 없으므로 데이터 마이닝 기술이나 빅데이터와 같은 연구에서 사용되는 알고리즘의 성능 저하와 연구에 제약사항이 발생한다. 따라서 본 논문에서는 웹 크롤링을 통해 텍스트 데이터를 추출하고, 텍스트 마이닝과 오피니언 마이닝을 통해 의미부여 및 단어들에 대한 감정적 분류를 통한 문장의 오피니언 파악을 진행하고자 한다. 실험은 다음과 같이 3단계로 진행하였다. 첫째, 소셜 미디어에서 새로운 단어를 수집하여 수집된 단어는 긍정적이고 부정적인 학습을 받게 하였다. 둘째, 표준 문서를 사용하여 감정적 가치를 도출하고 검증하기 위해 TF-IDF를 사용하여 데이터의 감정적 가치를 측정하기 위해 명사 빈도수를 측정한다. 신조어와 마찬가지로 분류된 감정적 가치가 적용되어 감정이 표준 언어 문서로 분류되는지 확인하였다. 마지막으로, 새로 합성된 단어와 표준 감정적 가치의 조합을 사용하여 장비 기술의 비교분석을 수행하였다.

감정대상 프로그램의 마스터 매뉴얼 유사성 비교에 관한 연구 (A Study on the Comparison of Similarity between Master Manuals of Appraisal Program)

  • 전병태;이창훈
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제15권2호
    • /
    • pp.1-7
    • /
    • 2019
  • 프로그램 유사성 분석은 실질적 유사성과 의거성 분석으로 이루어진다. 실질적 유사성은 프로그램 소스 코드가 정량적으로 어느 정도 유사한가에 대한 판단이다. 의거성은 프로그램내의 주석이나 그 외 여러 가지 정황적 증거를 분석을 통해 유사성 정도를 판단한다. 매뉴얼의 경우, 의거성 분석의 대상이 될 수가 있다. 매뉴얼은 다음과 같이 3종류로 구분될 수 있다. 첫째, 마스터 매뉴얼은 제품의 개발 단계에서 작성하는 문서로서 해당 제품과 해당 제품의 파생 제품에 대한 모든 기능이 포함된 사용 설명서이다. 둘째, 고객 매뉴얼은 1차 고객이자 주문자에게만 공개하는 설명서이다. 셋째, 사용자 매뉴얼은 최종 OEM 생산단계에서 적용되는 문서로써 최종 구매자에게 공개되는 설명서이다. 본 논문에서는 피의자들로부터 압수한 마스터 매뉴얼과 피의자들이 인터넷 상에서 제공하고 있는 마스터 매뉴얼을 비교한다. 그리고 이 마스터 매뉴얼이 얼마나 유사하고 피해 회사만의 독창적이면서 재산적 가치를 포함하는지 여부를 판단한다.

지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구 (An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI))

  • 이지혜;정영미
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.451-462
    • /
    • 2009
  • 본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

문서 분류의 개선을 위한 단어-문자 혼합 신경망 모델 (Hybrid Word-Character Neural Network Model for the Improvement of Document Classification)

  • 홍대영;심규석
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1290-1295
    • /
    • 2017
  • 문서의 텍스트를 바탕으로 각 문서가 속한 분류를 찾아내는 문서 분류는 자연어 처리의 기본 분야 중 하나로 주제 분류, 감정 분류 등 다양한 분야에 이용될 수 있다. 문서를 분류하기 위한 신경망 모델은 크게 단어를 기본 단위로 다루는 단어 수준 모델과 문자를 기본 단위로 다루는 문자 수준 모델로 나누어진다. 본 논문에서는 문서를 분류하는 신경망 모델의 성능을 향상시키기 위하여 문자 수준과 단어 수준의 모델을 혼합한 신경망 모델을 제안한다. 제안하는 모델은 각 단어에 대하여 문자 수준의 신경망 모델로 인코딩한 정보와 단어들의 정보를 저장하고 있는 단어 임베딩 행렬의 정보를 결합하여 각 단어에 대한 특징 벡터를 만든다. 추출된 단어들에 대한 특징 벡터를 바탕으로, 주의(attention) 메커니즘을 이용한 순환 신경망을 단어 수준과 문장 수준에 각각 적용하는 계층적 신경망 구조를 통해 문서를 분류한다. 제안한 모델에 대하여 실생활 데이터를 바탕으로 한 실험으로 효용성을 검증한다.

감정분석과 오피니언 마이닝: 2007-2016 (Sentiment Analysis and Opinion Mining: literature analysis during 2007-2016)

  • 이가베;이효맹;유효문;강선경;이현창;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.160-161
    • /
    • 2017
  • 감정 분석 및 의견 마이닝은 지난 15 년 동안 연구 분야가 등장하면서 사람들의 의견, 감정, 평가, 태도 및 감정을 글쓰기 언어의 광산 및 감정 분석 (OMSA)에서 분석하고 계산 방법론을 제공하는 분야입니다 주로 비 구조화 된 데이터를 처리하여 의견을 추출하고 그들의 감정을 파악합니다. 상대적으로 새롭지 만 빠르게 성장하는 연구 분야는이 기간 동안 많이 바뀌 었습니다. 이 논문은 2007-2016 년 동안 OMSA에서 수행 된 연구 작업의 과학적 분석을 제시합니다. 문헌 분석을 위해 Web of Science (WoS) 데이터베이스에서 색인 된 연구 출판물을 입력 자료로 사용합니다. 출판 데이터는 계산 방식으로 분석되어 연도 별 출판 패턴, 출판물, 연구 분야의 성장률을 파악합니다. 이 간행물에서 사용되는 대중적 접근법 (기계 학습 및 어휘 기반), OMSA의 주요 응용 분야 및 정서 분석 작업의 수준 (문서, 문장 또는 측면 수준)을 식별하기 위해 데이터에 대한보다 상세한 수동 분석도 수행됩니다.

  • PDF

송신자의 감정 표현을 자동 인식하는 전자 메일 클라이언트의 설계 (Design of E-mail Client based on Automatic Recognition for Sender's Feeling)

  • 김나영;김용진;이상곤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.205-209
    • /
    • 2007
  • 인터넷과 핸드폰의 보급으로 컴퓨터 사용자가 전자 메일 통한 통신 방법이 활발하다. 전자 메일의 사용은 개인적인 일은 물론 기업 사무, 광고 메일, 뉴스, 광고 메일 등 폭넓게 이용되고 있다. 전자 메일 클라이언트에 자연언어처리의 고급 기능의 탑재와 컴퓨터 바이러스 혹은 스팸 메일을 방지하는 고기능이 임베디드 되어야 한다. 자연언어처리 기법을 이용하여 전자 메일의 내용에 포함된 작성자의 "즐거움", "성남", "슬픔"등 인간의 복잡한 감정 표현을 송신과 수신 프로세서에서 이해시키며, 전자 메일을 송신하기 전문서의 내용 중에 불쾌한 표현을 제거하여 문서 교정을 독려하는 지능적인 전자 메일 클라이언트 시스템을 설계하였다.

  • PDF

감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템 (Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments)

  • 고민수;신효필
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.669-696
    • /
    • 2010
  • 본 논문은 한 문서의 전체 의미는 각 부분의미의 합성이라는 관점에서 미리 반자동으로 구축된 감정어휘 평가사전을 기반으로 한 시스템을 제안한다. 인간의 의사 결정 과정과 유사한 방식으로 의사 결정 과정을 모델링하려는 노력으로써 본 ARSSA 시스템은 개별 리뷰의 의미값 연산과 자료 분류를 통해 감정 표현이 나타난 영화평 리뷰의 자동 등급화에 대한 연구를 수행한다. 이는 {'평점' : '리뷰'} 이항구조로 이루어진 현재의 평점 부여 형식에서 발생하는 두 변항의 불연속성 문제를 해결해보려는 목적을 가진다. 이는 어휘 의미 합성 과정에서 반영된 추상적 의미들의 합성 함수를 통해 실현될 수 있다. 시스템의 성능 실험에서 네이버 무비에서 확보한 1000개의 리뷰에 대한 10-fold 교차 검증 실험이 수행되었다. 이 실험은 기존에 부여된 평점과 비교하여 감정어휘 평가사전을 이용하였을 때 85%의 F1 Score를 보였다.

  • PDF

디지털 문서 콘텐츠 보호를 위한 문서 복제 탐지 시스템에 관한 연구 (A Study on the Document Copy Detection System for Protection of Digital Document Contents)

  • 김헌
    • 디지털콘텐츠학회 논문지
    • /
    • 제7권3호
    • /
    • pp.199-205
    • /
    • 2006
  • 컴퓨터 기술의 향상과 정보의 중요성이 더해지면서 갈수록 지적재산권에 대한 침해와 표절이 증가하고 있다. 표절과 불법 복제가 성행하고 있지만 이에 대한 대처 방법과 연구가 국내외적으로 아직까지 미흡한 실정이다. 표절의 판별과 감정에는 일일이 사람들의 손을 거쳐야 하며 많은 시간과 자원의 소요가 뒤 따른다. 따라서 좀 더 효율적인 방법론과 객관적이고 시스템적인 접근이 필요하다고 본다. 또한 불법적인 지적재산권 침해에 대응한 관리 및 탐지 기술이 더욱 중요해졌음을 의미한다. 본 논문에서는 소중한 지적재산권을 효과적으로 관리 및 탐지하는 기술과 이론을 제시하고자 한다. 또한 기존 DRM 솔루션들이 가지고 있는 장단점들을 분석하여 좀 더 효율적인 디지털 콘텐츠 관리 및 탐지 시스템을 제안하게 되었다.

  • PDF