• 제목/요약/키워드: Voice and Text Analysis

검색결과 69건 처리시간 0.026초

CosmoScriBe 2.0: 한국어 전사 도구의 개발 (CosmoScriBe 2.0 : The development of Korean transcription tools)

  • 곽선동;장문수
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.323-329
    • /
    • 2014
  • 구어 연구에서는 음성 데이터를 문자로 옮기는 전사(Transcription)라는 과정이 필요하다. 전사 작업을 보조하는 프로그램을 전사도구라고 하는데, 발화 내용을 비롯하여, 발화 시간, 화자 정보 등의 많은 정보를 기록하는 다양한 기능을 제공한다. 이로 인하여 컴퓨터 사용에 익숙하지 않은 사용자는 숙지하는데 어려움이 있다. 또한 전사 도구는 국내에서 개발된 것이 거의 없어서 한국어 환경에 적합하지 않는 경우가 많다. 본 논문에서는 효율적인 한국어 전사를 지원하면서 비숙련자도 도구를 쉽고 빠르게 적응할 수 있는 전사 도구를 제안한다. 이를 위해 비숙련자를 위한 사용자 친화적인 인터페이스 환경을 제공한다. 또한 전사 과정에서 발생할 수 있는 실수를 최소화하기 위해 전사 지원 기능을 제공한다. 마지막으로 데이터 신뢰성을 위한 시스템 구조를 제공한다. 제안하는 도구에 대해 전사 경험의 유무에 따라 사용성 평가를 하였으며, 평가결과는 전체적으로 전사 속도 향상 및 전사 지원 기능이 편리한 것으로 나타났다.

텍스트 마이닝기법을 활용한 '자해' 및 '자살' 관련 트위터 게시물 분석 (Analysis of Twitter Post with 'Self-Iinjury' and 'Ssuicide' Using Text Mining)

  • 이유리;권호인
    • 한국심리학회지 : 문화 및 사회문제
    • /
    • 제29권1호
    • /
    • pp.147-170
    • /
    • 2023
  • 본 연구는 트위터에서 나타나는 '자해' 및 '자살' 관련 게시물의 주요 등장 단어와 핵심 토픽을 탐색하여 그 의미를 파악하고자 하였다. 연구대상은 2019년 10월 29일부터 2020년 11월 30일까지 관련 해시태그를 포함한 '자해' 및 '자살' 관련 해시태그를 포함한 트위터 게시물이었다. 수집된 게시물을 바탕으로 텍스트 마이닝을 실시한 결과, '자해' 관련 6개, 자살 관련 5개로, 총 11개의 핵심토픽이 도출되었다. 토픽에 담긴 주요 메시지를 살펴보면 온라인 상에서는 오프라인에서 표현하기 어려운 자해와 자살 경험을 솔직하게 표현하고 있으며, 도움요청의 경로로 SNS를 활용하고 있었다. 또한 '자해' 및 '자살' 관련 게시물에서 공통 특징과 차별적 특징이 있었다. '자해' 관련 토픽에는 자해의 정서조절 및 대인관계적 기능이 주로 드러난 반면, '자살' 관련 메시지에는 자살 예방 및 사회문제 등에 대한 메시지가 보다 분명하게 드러났다. 이러한 결과는 자해 및 자살사고를 경험한 사람들과 국민들의 자해 및 자살 관련 이슈에 대한 의견을 이해할 수 있고, 효과적인 자해 및 자살예방 및 개입 방안을 모색한다는 점에서 의의가 있겠다.

SNS 감성분석을 이용한 정보 추출 방법론에 관한 연구 (Study on the Methodology for Extracting Information from SNS Using a Sentiment Analysis)

  • 홍두표;정하림;박상민;한음;김홍회;윤일수
    • 한국ITS학회 논문지
    • /
    • 제16권6호
    • /
    • pp.141-155
    • /
    • 2017
  • 최근 SNS 이용이 활발해짐에 따라 많은 사람들이 특정 이벤트 등에 대한 자신들의 생각을 비정형 데이터인 텍스트 형태로 자신의 SNS에 게시하고 있다. 이에 따라 금융, 유통 등 다양한 분야에서 이미 SNS를 이용하여 서비스 만족도 조사, 소비자 요구사항 모니터링, 대선 후보 선호도 등을 수행하고 있다. 하지만 교통 분야에서는 감성분석과 같은 비정형 데이터 분석을 활용하는 사례가 부족한 실정이다. 이에 본 연구에서는 한국도로공사에서 수집한 비정형 데이터인 고속도로 VOC 데이터를 이용하여 교통분야에서 사용할 수 있는 감성분석 방법론을 개발하였다. 개발된 감성분석 방법론은 수집된 비정형 데이터에 대한 형태소 분석, 감성사전 구축, 감성 판별 등으로 구성되어 있다. 개발된 방법론은 고속도로 관련 트윗 데이터를 이용하여 검증하였다. 분석 결과, 분석 기간 동안 고속도로와 관련하여 공사, 사고에 대한 정보 전달이 많이 이루어졌음을 짐작할 수 있었다. 또한 공사 및 사고로 인해 발생한 지체에 대하여 이용자들의 불만이 높았던 것으로 판단된다. 결론적으로 SNS 감성분석이 교통분야에서도 의미 있는 정보추출이 가능한 기법임을 확인하였다.

오피니언 마이닝을 이용한 지능형 VOC 분석시스템 (Intelligent VOC Analyzing System Using Opinion Mining)

  • 김유신;정승렬
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.113-125
    • /
    • 2013
  • 기업 경영에 있어서 고객의 소리(VOC)는 고객 만족도 향상 및 기업의사결정에 매우 중요한 정보이다. 이는 비단 기업뿐만 아니라 대고객, 대민원 업무를 처리하는 모든 조직에 있어서도 동일하다. 때문에 최근에는 기업뿐만 아니라 공공, 의료, 금융, 교육기관 등 거의 모든 조직이 VOC를 수집하여 활용하고 있다. 이러한 VOC는 방문, 전화, 우편, 인터넷게시판, SNS 등 다양한 채널을 통해 전달되지만, 막상 이를 제대로 활용하기는 쉽지 않다. 왜냐하면, 고객이 매우 감정적인 상태에서 고객의 주관적 의사를 음성 또는 문자로 표출하기 때문에 그 형식이나 내용이 정형화되어 있지 않고 저장하기도 어려우며 또한 저장하더라도 매우 방대한 분량의 비정형 데이터로 남기 때문이다. 본 연구는 이러한 비정형 VOC 데이터를 자동으로 분류하고 VOC의 유형과 극성을 판별할 수 있는 오피니언 마이닝 기반의 지능형 VOC 분석 시스템을 제안하였다. 또한 VOC 오피니언 분석의 기준이 되는 주제지향 감성사전 개발 프로세스와 각 단계를 구체적으로 제시하였다. 그리고 본 연구에서 제시한 시스템의 효용성을 검증하기 위하여 의료기관 홈페이지에서 수집한 4,300여건의 VOC 데이터를 이용하여 병원에 특화된 감성어휘와 감성극성값을 도출하여 감성사전을 구축하고 이를 통해 구현된 VOC분류 모형의 정확도를 비교하는 실험을 수행하였다. 그 결과 "칭찬, 친절함, 감사, 무사히, 잘해, 감동, 미소" 등의 어휘는 매우 높은 긍정 오피니언 값을 가지며, "퉁명, 뭡니까, 말하더군요, 무시하는" 등의 어휘들은 강한 부정의 극성값을 가지고 있음을 확인하였다. 또한 VOC의 오피니언 분류 임계값이 -0.50일 때 가장 높은 분류 예측정확도 77.8%를 검증함으로써 오피니언 마이닝 기반의 지능형 VOC 분석시스템의 유효성을 확인하였다. 그러므로 지능형 VOC 분석시스템을 통해 VOC의 실시간 자동 분류 및 대응 우선순위를 도출하여 고객 민원에 대해 신속히 대응한다면, VOC 전담 인력을 효율적으로 운용하면서도 고객 불만을 초기에 해소할 수 있는 긍정적 효과를 기대해 볼 수 있을 것이다. 또한 VOC 텍스트를 분석하고 활용할 수 있는 오피니언 마이닝 모형이라는 새로운 시도를 통해 향후 다양한 분석과 실용 프레임워크의 기틀을 제공할 수 있을 것으로 기대된다.

랭보의 「야만」의 난해성 : '자기텍스트성'과 '의미' (Abstruseness of Rimbaud's Barbare : Autotextuality and Meaning)

  • 신옥근
    • 비교문화연구
    • /
    • 제43권
    • /
    • pp.327-354
    • /
    • 2016
  • 랭보의 산문시집 "일뤼미나시용"의 "야만"은 형식이나 주제, 비유 등이 난해한 시로 유명하다. 본고는 작품의 난해성을 연구하기 위해 먼저 문법적 구조를 분석하였고, 그런 다음 시의 의미를 살펴보기 위해 저자의 다른 작품과 비교하는 자기텍스트성을 분석하였다. 자기텍스트성은 스티브 머피가 제시한 랭보 산문시 해석의 방법론으로서 저자의 작품과 맺는 내적 상호텍스트성을 말한다. "야만"의 경우 일반적 상호텍스트성의 연구가 없는 것은 아니지만 시의 의미를 크게 규명하지 못한다고 본다. "야만"의 난해성은 무의미 시의 예로 간주되기도 한다. 하지만 시 구조 분석과 자기텍스트성을 통해 볼 때, "야만"은 무의미가 아니라 의미를 구축하고 있다. 이 시는 일반적 운문시나 산문시와 달리 전체가 명사 구문의 비유로만 이루어져 있다. "야만"은 랭보 고유의 문맥에서 파괴, 화합, 재생의 순수한 힘을 의미한다. "야만"은 보들레르의 "이 세상 끝 어디라도"에 대한 랭보 식 답으로, 북극의 불카누스의 화산에 도달하는 영원한 여성의 목소리로 대변되는 현장이라 할 수 있다. "야만"의 읽기는 "일뤼미나시용"의 난해성을 읽어내는 하나의 방법론이 될 수 있다. 본고에서 우리는 "야만"의 언어적 지표의 분석과 자기텍스트성, 그리고 시가 침묵하고 있는 희열과 고독의 이해가 하나의 접근법이 될 수 있음을 분석하였다. 이러한 접근법을 통해 우리는 "일뤼미나시용"의 파편을 개개의 방식으로 연결하고 조합해서 파편들의 스토리를, 모험을 재구성할 수 있으리라 본다.

국내 랜덤 챗 어플리케이션에서 사용자의 행위에 따른 아티팩트 분석 (Artifacts Analysis of Users Behavior in Korea Random Chat Application)

  • 서승희;남기훈;김역;이창훈
    • 디지털포렌식연구
    • /
    • 제12권3호
    • /
    • pp.1-8
    • /
    • 2018
  • 랜덤 챗 어플리케이션은 사용자들을 무작위로 연결하고 문자, 음성, 영상 채팅하도록 서비스를 제공함으로써 연인 또는 배우자를 찾을 수 있도록 돕는 소셜 데이트 어플리케이션의 일종이다. 최근 저렴한 비용으로 빠르고 편리하게 이성을 만날 수 있다는 점에서 세계적으로 그 수요가 급증하고 있다. 하지만 악의적 의도를 가진 이들에 의해 조건만남(성매매), 마약거래의 중개 창구로 활용되고 있으며 앱 사용자들 간의 실제 만남 이후 발생하는 각종 사건들로 인해 강력 범죄의 원인으로 작용하고 있다. 이러한 사실을 비추어 볼 때 랜덤 챗 어플리케이션은 조건 만남(성매매)이나 마약 거래에 대한 입증 자료나 만남 후 발생한 강간, 납치, 살인 등의 용의자 검거를 위한 각종 단서를 제공할 가능성이 높다. 이에 따라 랜덤 챗 어플리케이션에 대한 디지털 포렌식 관점에서의 분석이 필요하나 현재 관련 연구는 전무하다. 따라서 본 논문에서는 랜쳇, 앙톡, 썸팅, 다톡, 모두의 채팅, 돛단배 등 국내 랜덤 챗 어플리케이션 6종을 사용자 행위 관점에서 분석하였다. 또한 그 결과로 채팅 메시지 송수신, 채팅방 추가/삭제, 친구 추가/차단, 계정 생성 등의 사용자 행위에 따른 아티팩트로 매시지 송수신 시간, 내용, 송수신자, 친구 프로필, 계정 생성 시간 등을 확인하였다.

AI면접 대상자에 대한 다면적 평가방법론 -얼굴인식, 음성분석, 자연어처리 영역의 융합 (Multifaceted Evaluation Methodology for AI Interview Candidates - Integration of Facial Recognition, Voice Analysis, and Natural Language Processing)

  • 지현욱;이상진;문성민;이재열;이동은;임규상
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.55-58
    • /
    • 2024
  • 최근 각 기업의 AI 면접시스템 도입이 증가하고 있으며, AI 면접에 대한 실효성 논란 또한 많은 상황이다. 본 논문에서는 AI 면접 과정에서 지원자를 평가하는 방식을 시각, 음성, 자연어처리 3영역에서 구현함으로써, 면접 지원자를 다방면으로 분석 방법론의 적절성에 대해 평가하고자 한다. 첫째, 시각적 측면에서, 면접 지원자의 감정을 인식하기 위해, 합성곱 신경망(CNN) 기법을 활용해, 지원자 얼굴에서 6가지 감정을 인식했으며, 지원자가 카메라를 응시하고 있는지를 시계열로 도출하였다. 이를 통해 지원자가 면접에 임하는 태도와 특히 얼굴에서 드러나는 감정을 분석하는 데 주력했다. 둘째, 시각적 효과만으로 면접자의 태도를 파악하는 데 한계가 있기 때문에, 지원자 음성을 주파수로 환산해 특성을 추출하고, Bidirectional LSTM을 활용해 훈련해 지원자 음성에 따른 6가지 감정을 추출했다. 셋째, 지원자의 발언 내용과 관련해 맥락적 의미를 파악해 지원자의 상태를 파악하기 위해, 음성을 STT(Speech-to-Text) 기법을 이용하여 텍스트로 변환하고, 사용 단어의 빈도를 분석하여 지원자의 언어 습관을 파악했다. 이와 함께, 지원자의 발언 내용에 대한 감정 분석을 위해 KoBERT 모델을 적용했으며, 지원자의 성격, 태도, 직무에 대한 이해도를 파악하기 위해 객관적인 평가지표를 제작하여 적용했다. 논문의 분석 결과 AI 면접의 다면적 평가시스템의 적절성과 관련해, 시각화 부분에서는 상당 부분 정확도가 객관적으로 입증되었다고 판단된다. 음성에서 감정분석 분야는 면접자가 제한된 시간에 모든 유형의 감정을 드러내지 않고, 또 유사한 톤의 말이 진행되다 보니 특정 감정을 나타내는 주파수가 다소 집중되는 현상이 나타났다. 마지막으로 자연어처리 영역은 면접자의 발언에서 나오는 말투, 특정 단어의 빈도수를 넘어, 전체적인 맥락과 느낌을 이해할 수 있는 자연어처리 분석모델의 필요성이 더욱 커졌음을 판단했다.

  • PDF

인공지능(AI) 스피커에 대한 사회구성 차원의 발달과정 연구: 제품과 시기별 공진화 과정을 중심으로 (A study of Artificial Intelligence (AI) Speaker's Development Process in Terms of Social Constructivism: Focused on the Products and Periodic Co-revolution Process)

  • 차현주;권상희
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.109-135
    • /
    • 2021
  • 본 연구는 전통뉴스 보도에 나타난 인공지능(AI)스피커 뉴스 텍스트 분석을 통해 인공지능(AI) 스피커 발달과정을 분류하고 시기별 제품별 특성을 파악하였다. 또한 AI 스피커 사업자 제품별 뉴스 보도와 시기별 뉴스 보도간의 상관관계를 분석하였다. 분석에 사용된 이론적 배경은 뉴스의 프레임과 토픽프레임이다. 분석방법으로는 LDA 방식을 활용한 토픽모델링(Topic Modeling)과 의미연결망분석이 사용되었으며, 추가로 'UCINET'중 QAP분석을 적용하였다. 연구방법은 내용분석 방법으로 2014년부터 2019년까지 AI 스피커 관련 2,710건의 뉴스를 1차로 수집하였고, 2차적으로 Nodexl 알고리즘을 이용하여 토픽프레임을 분석하였다. 분석 결과 첫째, AI 스피커 사업자 유형별 토픽 프레임의 경향은 4개 사업자(통신사업자, 온라인 플랫폼, OS 사업자, IT디바이스 생산업자) 특성에 따라 다르게 나타났다. 구체적으로, 온라인 플랫폼 사업자(구글, 네이버, 아마존, 카카오)와 관련한 프레임은 AI 스피커를 '검색 또는 입력 디바이스'로 사용하는 프레임의 비중이 높았다. 반면 통신 사업자(SKT, KT)는 모회사의 주력 사업인 IPTV, 통신 사업의 '보조 디바이스' 관련한 프레임이 두드러지게 나타났다. 나아가 OS 사업자(MS, 애플)는 '제품의 의인화 및 음성 서비스' 프레임이 두드러지게 보였으며, IT 디바이스 생산업자(삼성)는 '사물인터넷(IoT) 종합지능시스템'과 관련한 프레임이 두드러지게 나타났다. 둘째, AI 스피커 시기별(연도별) 토픽 프레임의 경향은 1기(2014-2016년)에는 AI 기술 중심으로 발달하는 경향을 보였고, 2기(2017-2018년)에는 AI 기술과 이용자 간의 사회적 상호 작용과 관련되어 있었으며, 3기(2019년)에는 AI 기술 중심에서 이용자 중심으로 전환되는 경향을 나타냈다. QAP 분석 결과, AI 스피커 발달에서 사업자별과 시기별 뉴스 프레임이 미디어 담론의 결정요인에 의해 사회적으로 구성되는 것을 알 수 있었다. 본연구의 함의는 AI 스피커 진화는 사업자별, 발달시기별로 모회사 기업의 특성과 이용자 간의 상호작용으로 인한 공진화 과정이 나타냄을 발견할 수 있었다. 따라서 본 연구는 AI 스피커의 향후 전망을 예측하고 그에 따른 방향성을 제시하는 데 중요한 시사점을 제공한다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.