• 제목/요약/키워드: 부정어휘

검색결과 48건 처리시간 0.025초

한국어 문서 감정분류를 위한 감정 자질 가중치 강화 기법 (A Weight Boosting Method of Sentiment Features for Korean Document Sentiment Classification)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.201-206
    • /
    • 2008
  • 본 논문은 한국어 문서 감정분류에 기반이 되는 감정 자질의 가중치 강화를 통해 감정분류의 성능 향상을 얻을 수 있는 기법을 제안한다. 먼저, 어휘 자원인 감정 자질을 확보하고, 확장된 감정 자질이 감정 분류에 얼마나 기여하는지를 평가한다. 그리고 학습 데이터를 이용하여 얻을 수 있는 감정 자질의 카이 제곱 통계량(${\chi}^2$ statics)값을 이용하여 각 문장의 감정 강도를 구한다. 이렇게 구한 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정 자질의 가중치를 강화시킨다. 마지막으로 긍정 문서에서는 긍정 감정 자질만 강화하고 부정 문서에서는 부정 감정 자질만 강화하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우 보다 약 2.0%의 성능 향상을 보였다.

  • PDF

어휘 정보와 구문 패턴에 기반한 단일 클래스 분류 모델 (One-Class Classification Model Based on Lexical Information and Syntactic Patterns)

  • 이현구;최맹식;김학수
    • 정보과학회 논문지
    • /
    • 제42권6호
    • /
    • pp.817-822
    • /
    • 2015
  • 관계 추출은 질의응답 및 지식확장 등에 널리 사용될 수 있는 주요 정보추출 기술이다. 정보추출에 관한 기존 연구들은 관계 범주가 수동으로 부착된 대용량의 학습 데이터를 필요로 하는 지도 학습모델을 기반으로 이루어져 왔다. 최근에는 학습 데이터 구축을 위한 인간의 노력을 줄이기 위해 원거리 감독법이 제안되었다. 그러나 원거리 감독법은 분류 문제를 해결하는데 필수적인 부정 학습 데이터를 수집하기 어렵다는 단점이 있다. 이러한 원거리 감독법의 단점을 극복하기 위해 본 논문에서는 부정 데이터 없이 학습이 가능한 단일 클래스 분류 모델을 제안한다. 입력 데이터로부터 긍정 데이터를 선별하기 위해서 제안 모델은 벡터 공간 상에서 어휘 정보와 구문 패턴에 기반한 유사도 척도를 사용하여 입력 데이터가 내부 범주에 속하는지 그렇지 않은지 판단한다. 실험에서 제안 모델은 대표적인 단일 클래스 분류 모델인 One-class SVM보다 높은 성능(0.6509 F1-점수, 0.6833 정밀도)을 보였다.

의미정보모델 구축을 위한 색채정보의 수집과 정량적 분석 (Collecting and Analyzing Color Information for Constructing Semantic Information Model)

  • 류기곤;선동언;김현철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.232-235
    • /
    • 2011
  • 지식표현은 일반적으로 논리, 규칙, 프레임 또는 의미망 형태로 표현되며, 최근에는 의미망을 이용한 온톨로지 형태로 표현되고 있다. 이러한 지식표현 방법은 개념을 설명하는 문맥적인 정보나 개념들 간의 구조적인 정보를 이용하여 개념에 대한 지식을 논리적으로 표현하는데 중점을 두었다. 하지만, 지식표현에 사용되는 의미정보는 사람에 의해 수집되고 정제되기 때문에 많은 시간, 비용 및 인력이 필요하다는 한계가 있고, 새로운 의미를 추가하거나 기존의 의미를 수정하는 것이 매우 어렵다는 한계가 있다. 색채는 특정 대상이나 개념에 대한 의미, 연상, 상징 등 객관적인 특징 뿐 아니라 시대, 나라, 문화와 같은 사회적 배경을 반영하기 때문에, 정보를 제공하고 감성을 전달하는 효과적인 수단으로 사용되고 있다. 이에 본 논문은, 색채를 이용한 의미정보모델 구축을 위해, 색채정보를 수집하고 정량적으로 분석하는 방법을 제안한다. 긍정/부정/불안/중립으로 구성된 감성어휘 273개를 이용하여 이미지를 수집한 결과 총 130,944개의 이미지를 수집하였다. 이미지에는 여러 가지 사물, 행동, 배경, 색채 등 다양한 정보가 혼재되어 있어 감성어휘와 연관된 색채를 구별하기 어렵기 때문에 이미지를 직관적으로 설명할 수 있는 사용자 태그를 별도로 수집하였다. 태그는 총 2,836,395개를 수집하였고 각 이미지와 그룹에서의 가중치를 구하였다. 태그의 가중치를 통해 이미지가 그룹 내에서 갖는 중요도를 판별하였고, 각 그룹 별로 상위 30%의 이미지를 추출하여 대표 색채를 분석하였다.

한용운 시조의 내면 세계와 표현 미학 (A Study on HanYongUn's Sijo)

  • 전재강
    • 한국시조학회지:시조학논총
    • /
    • 제43권
    • /
    • pp.177-206
    • /
    • 2015
  • 본 논문은 한용운의 시조를 작품의 내면세계와 표현 미학으로 나누어 살펴 보았다. 현대 시인 한용운은 승려, 독립운동가, 시인, 소설가를 겸하는 그 생애는 물론 그가 남긴 문학 업적에서도 현대시를 비롯하여 한시, 시조, 산시, 동요 등 다양한 시가는 물론 현대 소설까지 남긴 비중 있는 작가이다. 그의 시조 문학은 현대 시인이 고전 시가의 한 갈래인 시조를 창작했다는 점, 그간 시조 작가층으로 승려가 없었는데 승려의 신분으로 시조를 지었다는 점, 또한 한시까지 창작했다는 점에서 그의 시조는 작가 개인은 물론 당대 문단에서도 중요한 의의를 가지는 것이라 판단하고 그 시조의 본질을 구명하기 위하여 그의 다른 갈래 작품과 부분적으로 연관하면서 논의를 진행했다. 그 시조의 내면 세계는 이념과 현실, 일상 등 크게 세 가지로 나타났다. 그가 시조에서 보여준 이념은 불교와 유교였는데 구체적으로 단순한 두 이념의 교조적 반복이나 선전이 아니라 각 이념의 완고한 관행의 틀을 극복하고 새로운 방향을 제시하는 것이었다. 불교 이념의 경우 수행을 통한 깨닫기라는 일반적 순서와 과정을 비판하고 선(禪)의 입장에서 본래성불의 정신을 일깨워 주었고, 유교의 경우에는 당대 사회가 요구하는 행동과 실천의 중요성을 강조하는 방식으로 이념이 표현되었다. 그리고 현실에서는 일반 민중의 구체적 삶의 현실은 물론 민족의 간고한 현실을 표현하였다. 또한 일상에서는 그가 접하는 대상이나 인물, 계절 등을 제재로 하여 객관물과 상관에서 유발된 정서를 표현하였는데 특히 님이라는 절대 존재와의 관계에서 유발되는 정서를 집중적으로 표현하였다. 한용운 시조의 이런 내면세계는 그의 현대시가 님과 관련한 내용에, 한시가 일상의 내용에 각기 치중해 있는 것과는 달리 폭넓은 주제성을 보여주는 것이었다. 다음 표현 미학을 보면 작품을 이루는 가장 저층의 어휘에서 시상의 전개, 수사 기법 등의 세 개 항으로 나누어서 살펴보았다. 어휘에서는 이념을 표현한 작품군의 경우 불교나 유교 이념의 핵심이 되는 체언과 서술어가 주로 사용되고 있었다. 예를 들어 불교 이념 작품의 경우 '소를 찾는다' 유교이념의 경우 나라를 걱정하는 입장에서 상징적으로 달, 무궁화를 가져와서 '달은 비친다. 무궁화는 심는다'는 서술어와 연관시켜 표현하는 것이 특징이다. 그리고 현실을 보여 주는 경우에는 현실에 당면한 인물, 예를 들면 '마누라, 공장, 아씨' 등 현실을 살아가는 인물과 그 주변을 나타내는 용어를 주로 가져 와서 거기에 이들이 하는 행위로서 '손을 젓다, (빨래를) 씻다' 등의 서술어를 호응시킴으로써 현실의 간고함을 드러냈다. 일상의 경우 그가 접하는 대상사물, 대상인물, 현상 등을 주체어로, 여기에 호응하는 서술어를 이어 붙였다. 어휘상의 이러한 특성은 그의 현대시가 님과 관련한 어휘에 치중하고 그의 한시가 일상의 삶을 드러내는 어휘에 치우쳐 있는 것과는 달랐다. 작품의 시상 전개의 미학에서는 이념을 표현한 경우 '부정->부정->주장'이나 '의문->의문->판단'으로 시상을 전개하여 이념에 대한 주장이나 정확한 판단에 이르는 과정을 내세우는 시상 전개 방법을 사용하고 있고, 현실의 경우는 '호칭->질문->대답행위'나 '질문->호칭->질문'의 순서로 시상을 전개하여 당면한 현실의 절박함을 시적 대상 인물과의 대화를 통하여 현장감과 생동감 있게 드러내는 방식을 취하고 있다. 그리고 일상을 표현한 작품군의 경우에는 '감탄적 제시->감탄적 제시->결과'나 '대상 인물-의문-감탄'의 순서로 시상을 전개하여 시적 화자가 일상에서 겪는 다양한 정서를 정감 있게 표현하는 데에 기여하는 시상 전개의 방법을 취하고 있다. 이러한 시상 전개의 방식은 한시의 도식적 기승전결의 방식이나 현대시에서 일방적으로 하소연하고 이를 나열해 나가는 것과는 다른 다양한 방식이었다. 작품의 수사 미학에서 보면 장면을 현재적 관점에서 상황을 생생하게 보이는데 필요한 돈호법을 포함하는 문답법을 가장 많이 구사했고, 시적 화자의 인식이나 주장을 강하게 드러낼 때 설의법, 그가 일으킨 정서를 강렬하게 표현할 때 영탄법을 주로 사용하고 있다. 반복법과 대구법을 많이 사용하여 같은 내용을 강조하거나 심각하게 드러내는 역할을 하게 하였다. 수사법상에서도 그의 현대시가 상징적 님과의 관계를 집중적으로 드러내면서 '---ㅂ니다'를 반복하는 반복법, 같은 문장을 마주 세우는 대구법, 문맥상 은유와 역설을 사용하는 경우나, 한시에서 대구법을 주로 구사한 경우와는 다른 것으로 나타났다.

  • PDF

일반적, 영역 의존적 특성을 반영한 감정 자질의 의미지향성 추정 방법 (A Semantic Orientation Prediction Method of Sentiment Features Based on the General and Domain-Dependent Characteristics)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-159
    • /
    • 2009
  • 본 논문은 한국어 문서 감정분류를 위한 중요한 어휘 자원인 감정자질(Sentiment Feature)의 의미지향성(Semantic Orientation) 추정을 위해 일반적인 특성과 영역(Domain) 의존적인 특성을 반영하여 한국어 문서 감정분류(Sentiment Classification)의 성능 향상을 얻을 수 있는 기법을 제안한다. 감정자질의 의미지 향성은 검색 엔진을 통해 추출한 각 감정 자질의 스니핏(Snippet)과 실험 말뭉치를 이용하여 추정할 수 있다. 검색 엔진을 통해 추출된 스니핏은 감정자질의 일반적인 특성을 반영하며, 실험 말뭉치는 분류하고자 하는 영역 의존적인 특성을 반영한다. 이렇게 얻어진 감정자질의 의미지향성 수치는 각 문장의 감정강도를 추정하기 위해 이용되며, 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정자질의 가중치를 책정한다. 최종적으로 학습 과정에서 긍정 문서에서는 긍정 감정자질, 부정 문서에서는 부정 감정자질을 대상으로 추가 가중치를 부여하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능향상을 보였다.

  • PDF

MUSE 감성주석코퍼스를 활용한 문장 극성과 키워드 극성간의 불일치 현상에 대한 분석 (Evaluation of the Discordance between Sentence Polarities and Keyword Polarities by Using MUSE Sentiment-Annotated Corpora)

  • 조동희;신동혁;주희진;채병열;자오 원카이;남지순
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.195-200
    • /
    • 2016
  • 본 연구는 MUSE 감성 코퍼스를 활용하여 문장의 극성과 키워드의 극성이 얼마만큼 일치하고 일치하지 않은지를 분석함으로써 특히 문장의 극성과 키워드의 극성이 불일치하는 유형에 대한 연구의 필요성을 역설하고자 한다. 본 연구를 위하여 DICORA에서 구축한 MUSE 감성주석코퍼스 가운데 IT 리뷰글 도메인으로부터 긍정 1,257문장, 부정 1,935문장을, 맛집 리뷰글 도메인으로부터는 긍정 2,418문장, 부정 432문장을 추출하였다. UNITEX를 이용하여 LGG를 구축한 후 이를 위의 코퍼스에 적용하여 나타난 양상을 살펴본 결과, 긍 부정 문장에서 반대 극성의 키워드가 실현된 경우는 두 도메인에서 약 4~16%의 비율로 나타났으며, 단일 키워드가 아닌 구나 문장 차원으로 극성이 표현된 경우는 두 도메인에서 약 25~40%의 비교적 높은 비율로 나타났음을 확인하였다. 이를 통해 키워드의 극성에 의존하기 보다는 문장과 키워드의 극성이 일치하지 않는 경우들, 가령 문장 전체의 극성을 전환시키는 극성전환장치(PSD)가 실현된 유형이나 문장 내 극성 어휘가 존재하지 않지만 구 또는 문장 차원의 극성이 표현되는 유형들에 대한 유의미한 연구가 수행되어야 비로소 신뢰할만한 오피니언 자동 분류 시스템의 구현이 가능하다는 것을 알 수 있다.

  • PDF

MUSE 감성주석코퍼스를 활용한 문장 극성과 키워드 극성간의 불일치 현상에 대한 분석 (Evaluation of the Discordance between Sentence Polarities and Keyword Polarities by Using MUSE Sentiment-Annotated Corpora)

  • 조동희;신동혁;주희진;채병열;자오 원카이;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-200
    • /
    • 2016
  • 본 연구는 MUSE 감성 코퍼스를 활용하여 문장의 극성과 키워드의 극성이 얼마만큼 일치하고 일치하지 않은지를 분석함으로써 특히 문장의 극성과 키워드의 극성이 불일치하는 유형에 대한 연구의 필요성을 역설하고자 한다. 본 연구를 위하여 DICORA에서 구축한 MUSE 감성주석코퍼스 가운데 IT 리뷰글 도메인으로부터 긍정 1,257문장, 부정 1,935문장을, 맛집 리뷰글 도메인으로부터는 긍정 2,418문장, 부정 432문장을 추출하였다. UNITEX를 이용하여 LGG를 구축한 후 이를 위의 코퍼스에 적용하여 나타난 양상을 살펴 본 결과, 긍 부정 문장에서 반대 극성의 키워드가 실현된 경우는 두 도메인에서 약 4~16%의 비율로 나타났으며, 단일 키워드가 아닌 구나 문장 차원으로 극성이 표현된 경우는 두 도메인에서 약 25~40%의 비교적 높은 비율로 나타났음을 확인하였다. 이를 통해 키워드의 극성에 의존하기 보다는 문장과 키워드의 극성이 일치하지 않는 경우들, 가령 문장 전체의 극성을 전환시키는 극성전환장치(PSD)가 실현된 유형이나 문장 내 극성 어휘가 존재하지 않지만 구 또는 문장 차원의 극성이 표현되는 유형들에 대한 유의미한 연구가 수행되어야 비로소 신뢰할만한 오피니언 자동 분류 시스템의 구현이 가능하다는 것을 알 수 있다.

  • PDF

Methodology for Identifying Key Factors in Sentiment Analysis by Customer Characteristics Using Attention Mechanism

  • Lee, Kwangho;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.207-218
    • /
    • 2020
  • 최근 온라인 리뷰의 증가와 분석 기술의 발달로 인해 온라인 리뷰 분석에 대한 관심과 수요가 지속적으로 증가하고 있다. 하지만 리뷰 분석을 다룬 기존의 연구는 동일한 어휘라도 각 어휘에 담긴 감정은 리뷰어에 따라 서로 다를 수 있다는 점을 반영하지 못했다는 한계를 갖는다. 따라서 본 연구에서는 고객의 등급에 따라 고객군을 분류하고, 각 고객군별로 리뷰 분석을 수행하여 그 차이를 분석한 결과를 제시하였다. 의류 전문 쇼핑몰인 'M'사의 리뷰에 대한 분석을 수행한 결과, 쇼핑몰 사용도가 높은 고객의 경우 가격적인 요소가, 쇼핑몰 사용도가 낮은 고객의 경우 쇼핑몰에 소개된 내용과 실제 제품의 일치 정도가 제품의 긍/부정 평가에 크게 영향을 미치는 것으로 파악되었다. 제안 방법론은 고객군별로 제품 평가에 중요하게 영향을 미치는 요소를 식별함으로써, 차별화된 마케팅 전략을 수립하는 데에 효과적으로 활용될 수 있을 것으로 기대한다.

결합가 이론에 의한 독일어 감정동사 연구 (Valenztheoretische Untersuchung der deutschen Emotionsverben)

  • 김수남
    • 한국독어학회지:독어학
    • /
    • 제6집
    • /
    • pp.23-55
    • /
    • 2002
  • 이 논문의 목적은 수없이 많은 독일어 동사들 가운데 사람의 심리-감정을 표현하는 동사, 소위 감정동사(Emotionsverben: Verben der Gefuhlsbewegung)를 하나의 어휘-의미장(lexikalisch-semantisches Feld)으로 보고 이들의 통사구조 및 의미구조를 파악하여 결합가 모형화 하는 것이다. 우리는 감정동사의 통사 구조 및 의미구조를 기술하기 위해 동사 중심의 결합가 이론과 격이론을 이론적$\cdot$방법론적 토대로 삼았다. 또한 우리는 감정동사를 보충어의 수와 형태에 따라 크게 세 가지 그룹, 즉 2개의 보충어를 갖는 그룹 I(이 그룹에 속하는 동사들은 무생물(사물)을 주어로 갖는다)과 그룹 II(이 그룹에 속하는 동사들은 유생물(사람)을 주어로 갖는다) 그리고 3개의 보충어를 갖는 그룹 III(사람과 사람간의 관계를 나타낸다)으로 구분하였다. 예증을 위해 개별 동사에 대해 용례를 제시했다. 2개의 보충어를 갖는 그룹 II를 보충어의 수의성 여부에 따라 하위 분류했다. 보충어의 형태는 명사구(Sn, Sd, Sa, Sa)와 전치사구(pS)에 한정했으며 - 지면관계상 개별 동사의 예문으로 제시하진 않았지만 - 문장형태의 보충어, 예를 들어 dass-문장(Nsdass)과 부정사문(Inf)도 고려하여 통사적 문형(syntaktisches Satzmodell)과 의미적문형(semantisches Satzmodell)에서 제시하였다. 결국 이 논문은 독일어를 배우는 이들에게 독일어 동사의 통사구조 및 의미구조를 보다 쉽게 설명할 수 있는 하나의 방법론을 제시함은 물론, 나아가서는 결합가 사전에서 동사 내항 기술을 위한 기본적인 토대를 제공할 것이다

  • PDF

상품평의 언어적 분석을 통한 상품 평가 요약 시스템 (Product Evaluation Summarization Through Linguistic Analysis of Product Reviews)

  • 이우철;이현아;이공주
    • 정보처리학회논문지B
    • /
    • 제17B권1호
    • /
    • pp.93-98
    • /
    • 2010
  • 본 논문에서는 폭발적으로 증가하고 있는 상품평을 효과적으로 활용하기 위해 언어적 분석을 통하여 상품 평가를 요약하는 시스템을 제안한다. 시스템에서는 스커트 상품 분류의 경우 '디자인'과 '재질'과 같이, 상품을 평가하는 기준이 되는 항목에 대한 상품평의 부정과 긍정의 극성 여부를 판별하여 그래프 형태로 요약하여 제시한다. 본 논문에서는 작은 시드 어휘와 문맥에 기반한 자동 확장 방법을 사용하여 평가 항목 별 평가 어휘 극성 사전을 구축하여 평가 항목에 대한 상품평의 극성을 판정한다. 제안한 방식은 여러 온라인 쇼핑몰의 실제 상품평에 대한 실험에서 극성 사전 추출에서 평균 69.8%의 정확율과 문장별 극성 식별에서 평균 81.8%의 정확율을 보였다.