• 제목/요약/키워드: 언어 분석 자질

검색결과 156건 처리시간 0.02초

자질 가중치의 재조정을 통한 감정 분류 (Sentiment Classification Using Feature Reweighting)

  • 서형원;김형철;김재훈;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2009
  • 이 논문은 한글 뉴스 기사의 댓글에 대한 감정 분류 방법을 제안한다. 제안된 방법은 기계학습을 이용하는데 본 논문에서는 자질의 가중치를 재조정하는 좀 색다른 방법을 제안한다. 일반적으로 댓글은 독자들이 특정 기사에 대해서 어떠한 감정을 가지고 있는지를 파악하는 중요한 단서가 된다. 그런데 독자들의 감정은 가사에 어떤 분야에 속하느냐에 영향을 받는다. 예를 들면 정치 기사는 부정적인 댓글은 많이 포함하고 있으며 인물 기사는 긍정적인 기사를 많이 포함한다. 이 논문은 이와 같은 댓글의 속성을 이용해서 기사의 원문과 기사의 분야 정보를 이용하여 가중치를 조정한다. 제안된 시스템의 성능을 평가하기 위해 신문 기사와 댓글을 수집하여 감정 말뭉치를 구축하였으며 감정자질을 추출하기 위해 감정 사전을 구축하였다. 제안된 시스템의 $F_1$ 척도는 92.2%였으며 원문의 감정 단어와 분야 정보가 댓글의 감정을 분류하는데 중요한 자질임을 알 수 있었다.

  • PDF

감성분석에서 순환신경망의 예측 설명 (Explaining predictions of Recurrent Neural Network in Sentiment Analysis)

  • 배장성;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-130
    • /
    • 2019
  • 최근 순환신경망은 여러 자연어처리 분야에서 좋은 성능을 보이고 있다. 하지만 순환신경망의 복잡한 네트워크 구조 때문에 순환신경망이 어떠한 근거로 예측 결과를 제시했는지 해석하기 어려운 문제점이 있다. 따라서, 순환신경망이 적용된 자연어처리 시스템이 도출한 결과의 타당성을 제공하고 자연어처리 시스템에 중요한 자질을 선별하기 위한 연구가 필요하다. 본 논문에서는 자연어처리 분야의 하나인 감성분석에서 순환신경망의 예측을 분석한다. 학습된 감성분석 시스템의 예측을 해석하기 위해 입력 자질에 대한 민감도 분석을 수행하고 이를 어텐션 메커니즘과 비교하고 그 결과에 대해 설명한다.

  • PDF

도메인 적응 기술을 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Domain Adaptation Technique)

  • 임수종;배용진;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF

질문 특성을 고려한 커뮤니티 질의응답 시스템(cQA) 자질 추출 방법 (Feature Extraction for Community Question Answering System(cQA) considering Question Characteristic)

  • 박용민;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.119-121
    • /
    • 2014
  • 커뮤니티 질의응답 시스템(cQA)은 기존에 구축된 '질문-답' 쌍에서 사용자의 질문과 비교하여 유사도 순으로 결과를 보여주는 시스템이다. 본 논문에서는 '국립국어원'의 질의응답 게시판에 적용 가능한 '커뮤니티 질의응답 시스템'을 소개하고, 국립국어원 질의응답 게시판의 질문 특성을 분석하여 cQA의 성능 향상을 위한 자질 추출 방법을 제시한다.

  • PDF

뉴스 클러스터링 개선을 위한 문서 임베딩 및 이미지 분석 자질의 활용 (Document Embedding and Image Content Analysis for Improving News Clustering System)

  • 김시연;김상범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.104-108
    • /
    • 2015
  • 많은 양의 뉴스가 생성됨에 따라 이를 효과적으로 정리하는 기법이 최근 활발히 연구되어왔다. 그 중 뉴스클러스터링은 두 뉴스가 동일사건을 다루는지를 판정하는 분류기의 성능에 의존적인데, 대부분의 경우 BoW(Bag-of-Words)기반 벡터유사도를 사용하고 있다. 본 논문에서는 BoW기반의 벡터유사도 뿐 아니라 두 문서에 포함된 사진들의 유사성 및 주제의 관련성을 측정, 이를 분류기의 자질로 추가하여 두 뉴스가 동일사건을 다루는지 판정하는 분류기의 성능을 개선하는 방법을 제안한다. 사진들의 유사성 및 주제의 관련성은 최근 각광을 받는 딥러닝기반 CNN과 신경망기반 문서임베딩을 통해 측정하였다. 실험결과 기존의 BoW기반 벡터유사도에 의한 분류기의 성능에 비해 제안하는 두 자질을 사용하였을 경우 3.4%의 성능 향상을 보여주었다.

  • PDF

자동 띄어쓰기에서 글쓴이 의도를 반영한 자질의 활용 (Exploiting Features of Writer's Intent in Automatic Spacing)

  • 이정욱;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.528-531
    • /
    • 2021
  • 띄어쓰기에 대한 오류는 한국어 처리 전반에 영향을 주므로 자동 띄어쓰기는 필수적인 요소이다. 글쓴이의 대부분은 띄어쓰기 오류를 범하지 않으므로 글쓴이의 의도가 띄어쓰기 시스템에 반영되어야 한다. 그러나 대부분의 자동 띄어쓰기 시스템은 모든 띄어쓰기 정보를 제거하고 새로이 공백문자를 추가하는 방법으로 띄어쓰기를 수행한다. 이런 문제를 완화하기 위해서 본 논문에서는 기계학습에서 글쓴이의 의도가 반영된 자질을 추가하는 방법을 제안한다. 실험을 위해서 CRFs(Conditional Random Fields)를 사용하여 기존 시스템과 사용자의 의도를 반영한 띄어쓰기 시스템과의 성능을 비교하고 분석한다.

  • PDF

가사정보를 이용한 음악 추천 시스템 (Music Recommender System based on Lyrics Information)

  • 장근탁;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.42-45
    • /
    • 2010
  • 본 연구에서는 한국의 대중가요의 가사 정보를 형태소 단위로 분석하고 이 정보를 기반으로 노래의 감정을 분류하여 추천하는 시스템을 제안한다. 이 시스템을 구축하기 위해서 수집된 노래의 가사는 형태소를 분석하여 각 형태소를 자질로 결정하고, 사용되는 분류기는 ME 모델을 이용해서 학습된다. 이 학습된 분류기는 자질의 수에 따라 그 성능이 분석되고, 분류기를 사용한 추천 시스템은 랜덤하게 생성된 데이터 집합에 대해서 얼마나 정확하게 노래를 추천하는 지를 분석한다.

  • PDF

담화 정보를 이용한 음성 인식 후처리 (Post Correction of Speech Recognition using Discourse Information)

  • 김주희;강상우;선충녕;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-151
    • /
    • 2010
  • 본 연구는 대화 시스템에서 처리되는 사용자 발화의 의도 분석 기법과 담화 정보를 사용하여 음성 인식 결과로서의 인식 후보 문장들을 재순위하는 방법을 제안한다. 담화 정보는 사용자 발화의 의도 분석에 매우 중요한 자질로 사용되고 있기 때문에 음성 인식 결과들의 후보를 선택하는 문제에서도 담화 정보는 매우 중요한 자질로 사용될 수 있다. 음성 인식 결과의 후보 문장들을 모두 의도 분석 과정을 거치고 각각의 후보 의도들과 이전 담화 정보의 연관성을 이용하여 음성 인식 결과를 재순위화 한다. 실험을 통하여 재순위 과정을 수행한 결과 1순위 음성 인식 결과는 재순위 과정을 거치지 않는 결과에 비해 7.08%의 오류 감소율을 보였다.

  • PDF

불-한 전문분야 기계보조번역 워크벤치 TransFranCo (French-Korean Computer-Assisted Translation Workbench, TransFranCo)

  • 정휘웅;임용석;윤애선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2005년도 춘계학술대회
    • /
    • pp.255-260
    • /
    • 2005
  • 번역 메모리(Translation Memory)는 오늘날 기계번역에 있어 통계기반 접근법이나 형태-통사적 접근법 모두에 있어 가장 중요한 요소로 평가되고 있다. 그러나 번역 메모리는 언어의 자질 및 각 용례를 통합적으로 관리해야 하며, 이를 기계가 자동으로 처리해주어야 하는 어려움이 있다. 최근에는 이러한 문제점을 해결하기 위해 다국적 기업을 중심으로 기계보조번역(Computer Aided Translation) 환경에 대한 연구가 활발히 이루어지고 있으나, 언어적인 특성 보다는 번역 메모리의 저장/대치적 측면에서 주요 연구가 이루어지고 있다. 이 논문에서는 번역 메모리 정보가 보다 높은 재사용성을 보이기 위해서는 다양한 언어자질값을 담을 수 있어야 한다고 보고, 이를 효율적으로 관리/구축할 수 있는 기계보조번역 워크벤치의 framework을 제시한다. 언어분석을 위한 대상언어로는 교역 및 기술 측면에서 영어, 일어, 중국어 다음으로 영향력이 높은 불어를 채택하며, 기존 기계보조번역 방식에 대한 고찰을 통해 개선된 번역 메모리 관리, 자동분석/번역 모듈 및 협업(collaboration) 방안에 대해 소개하고, 향후 발전방향에 대해 논의한다.

  • PDF

시간부사 '증경(曾經)', '이경(已經)' 시상(時相) 자질 중한 대조분석 (Time Adverb 'Cengjing (曾經)' and 'Yijing (已經) Tense and Aspect of the Comparative Analysis of the Characteristics of China and South Korea)

  • 한경숙
    • 비교문화연구
    • /
    • 제42권
    • /
    • pp.451-474
    • /
    • 2016
  • 본고는 현대중국어 시간부사 '증경(曾經)'과 '이경(已經)'의 관련 통사구조와 이에 상응하는 한국어 통사구조에 대한 고찰을 통하여 관련 구조 의미소 '시상(時相)(tense and aspect)' 특징을 분석하였고 두 부사의 차이점을 찾아보았다. 아울러 중한 두 언어에서 이들이 나타내는 자질의 같은 점과 다른 점을 찾아냈고 이를 통하여 분석의 타당성(Descriptive adequacy)을 확보하고 나아가 설명적 타당성(Explanatory adequacy)으로 이끌어 내고자 하였다. '증경(曾經)'은 상 범주의 하위 범주인 '과거경험상', '성사상', '과거지속상' 등 자질을 갖고 있고 시제 범주의 하위 범주인 '과저시제' '과거경험상' 등 자질을 겸하고 있기도 하다. 한국어의 '_었(았)_', '_었었_', '_적이 있_'과 대응관계를 이루고 있다. '증경(曾經)'은 하나의 통사구조에서 상과 시제 두 가지 자질을 갖고 있다. '이경(已經)'은 '완료상'과 완료상의 하위 범주인 '과거경험상', 그리고 미완료상의 하위범주인 '과거지속상' 등 자질을 갖고 있고 시제 범주의 하위 범주인 '과거시제', '현재시제', '미래시제' 등 시제 자질도 갖고 있으며 '상태의 변화' 자질도 갖고 있다. 한국어의 '_었(았)_', '_고_', '_었었_', '곧' 등과 대응관계를 이루고 있다. '증경(曾經)'과 동태조사 '과(過)'를 비교하자면 '증경(曾經)'은 상 범주와 시제 범주를 겸하고 있다지만 '과(過)'는 그 수식 범위가 술어밖에 없기에 상적 특징만 갖고 있다. 그리고 심층구조에서 '증경(曾經)'은 술어의 앞에서 술어를 포함한 술어 뒤에 출현한 조사, 목적어, 보어 모두와 통어 관계를 갖고 있지만, '과(過)'는 그 앞의 술어만 수식한다. '이경(已經)'이 '진행상' 자질을 가진 부사 '재(在)'를 수식할 수 있지만, '증경(曾經)'은 불가능하다. 중국어와 한국어 두 언어는 이렇게 시간 표현에서 많은 차이를 보이고 있다. 중국어의 '과거경험상', '성사상', '과거지속상' 등 상 자질과 '과거시제' 자질을 갖고 있는 시간부사 '증경(曾經)', 그리고 '과거경험상', '과거지속상' 등 상 자질 그리고 '과거시제', '현재시제', '미래시제' 등 시제 자질을 갖고 있는 시간부사 '이경(已經)' 등이 한국어에서는 '완료상', '지속상' 자질과 '과거시제' 자질로 대응된다는 것을 알 수 있다. 그만큼 중국어와 한국어 두 언어의 시간 체계는 서로 많은 차이를 보이고 있다. 이는 한중 두 나라 사람들의 사유 방식의 차이와 문화적인 차이에서 비롯됐을 것으로 사료된다.