• 제목/요약/키워드: 텍스트 데이터 분석

검색결과 1,095건 처리시간 0.025초

텍스트 마이닝을 활용한 데이터 거버넌스 연구 동향 분석: 2009년~2021년 국내 학술지 논문을 중심으로 (The Study on Data Governance Research Trends Based on Text Mining: Based on the publication of Korean academic journals from 2009 to 2021)

  • 정선경
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.133-145
    • /
    • 2022
  • 연구 목적은 데이터 거버넌스의 연구 동향을 파악하고자 하였다. 연구 대상은 데이터 거버넌스 개념과 전략이 제시되기 시작한 2009년부터 2021년까지의 논문 158편을 대상으로 하였다. 주요 연구방법은 텍스트 마이닝을 활용하였고, 주요 방법은 빈도분석, 워트클라우드, 네트워크 분석 및 토픽 모델링 기법을 사용하여 분석하였다. 연구 결과 최빈 키워드는 정보, 빅데이터, 관리, 정책, 정부, 법률, 스마트가 확인되었다. 또한 네트워크 분석 결과 데이터 산업 정책, 데이터 거버넌스 성과, 국방, 거버넌스, 데이터 공공 등의 주제로 연관된 연구 수행이 이루어지고 있었다. 토픽 모델링을 통해 도출된 4개 토픽은 "데이터 거버넌스 정책", "데이터 거버넌스 플랫폼", "데이터 거버넌스 관련 법률", "데이터 거버넌스 구현"이며, 이중 "데이터 거버넌스 플랫폼" 관련 연구는 증가 추세를 보였고, "데이터 거버넌스 구현"은 축소되고 있는 경향이었다. 본 연구는 데이터 거버넌스 관련 연구를 종합적으로 정리하였다. 데이터 거버넌스는 조직 차원의 데이터 경영 및 데이터 통합 정책, 관련 기술 등 관련 분야와 다양한 시각에서 연구영역 확대가 필요하다. 향후 해외데이터 거버넌스들을 대상으로 한 분석 대상을 확대하고 4차산업혁명, 인공지능, 메타버스 등 데이터 기반 미래 산업이 요구되는 산업 분야에서의 연구 방향과 정책 방향 수립 관련 후속 연구를 기대할 수 있다.

텍스트 마이닝 통합 애플리케이션 개발: KoALA (Application Development for Text Mining: KoALA)

  • 전병진;최윤진;김희웅
    • 경영정보학연구
    • /
    • 제21권2호
    • /
    • pp.117-137
    • /
    • 2019
  • 빅데이터 시대를 맞아 다양한 도메인에서 수없이 많은 데이터들이 생산되면서 데이터 사이언스가 대중화 되었고, 데이터의 힘이 곧 경쟁력인 시대가 되었다. 특히 전 세계 데이터의 80% 이상을 차지하는 비정형 데이터에 대한 관심이 부각되고 있다. 소셜 미디어의 발전과 더불어 비정형 데이터의 대부분은 텍스트 데이터의 형태로 발생하고 있으며, 마케팅, 금융, 유통 등 다양한 분야에서 중요한 역할을 하고 있다. 하지만 이러한 소셜 미디어를 활용한 텍스트 마이닝은 수치형 데이터를 활용한 데이터 마이닝 분야에 비해 접근이 어렵고 복잡해 기대에 비해 그 활용도가 높지 못한 실정이다. 이에 본 연구는 프로그래밍 언어나 고사양 하드웨어나 솔루션에 의존하지 않고, 쉽고 간편한 소셜 미디어 텍스트 마이닝을 위한 통합 애플리케이션으로 Korean Natural Language Application(KoALA)을 개발하고자 한다. KoALA는 소셜 미디어 텍스트 마이닝에 특화된 애플리케이션으로, 한글, 영문을 가리지 않고 분석 가능한 통합 애플리케이션이다. 데이터 수집에서 전처리, 분석, 그리고 시각화에 이르는 전 과정을 처리해준다. 본 논문에서는 디자인 사이언스(design science) 방법론을 활용해 KoALA 애플리케이션을 디자인, 구현, 적용하는 과정에 대해서 다룬다. 마지막으로 블록체인 비즈니스 관련 사례를 들어 KoALA의 실제 활용방안에 대해서 다룬다. 본 논문을 통해 소셜 미디어 텍스트 마이닝의 대중화와 다양한 도메인에서 텍스트 마이닝의 실무적, 학술적 활용을 기대해 본다.

개체단위 감정분석을 위한 글로벌 텍스트&로컬 텍스트 통합 방법 (Global Text & Local Text Integration Method for Aspect-Based Sentiment Analysis)

  • 임특;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.414-416
    • /
    • 2022
  • 개체단위 감정분석(Aspect-Based Sentiment Analysis)는 자연어 처리에서 중요한 연구분야이다. 이는 입력 문장중에 존재하는 aspect term 의 감정 극성을 분석하는 것이 목적이다. 이 분야에서 현재 많이 사용되는 모델은 대부분 로컬 텍스트 또는 로컬 덱스트와 aspect term 사이의 관계에 주목하고 있다. 로켈 텍스트에 비해 글로벌 텍스트는 로컬 텍스트 뒤에 aspect term 내용을 추가해서 문장중에 있는 aspect term 내용을 더 깊게 학습할 수 있다고 생각한다. 본 논문에서는 새로운 masked attention 메커니즘을 사용하고 attention 메커니즘의 입력으로 글로벌 텍스트중에 있는 로컬 텍스트를 가로채어 전체 글로벌 텍스트의 내용과 융합한다. 이 방법은 semeval2014 데이터 셋에서 매우 좋은 결과를 얻었다.

텍스트 분석 기술 및 활용 동향 (Investigations on Techniques and Applications of Text Analytics)

  • 김남규;이동훈;최호창
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.471-492
    • /
    • 2017
  • 최근 데이터의 양 자체가 해결해야 할 문제의 일부분이 되는 빅데이터(Big Data) 분석에 대한 수요와 관심이 급증하고 있다. 빅데이터는 기존의 정형 데이터 뿐 아니라 이미지, 동영상, 로그 등 다양한 형태의 비정형 데이터 또한 포함하는 개념으로 사용되고 있으며, 다양한 유형의 데이터 중 특히 정보의 표현 및 전달을 위한 대표적 수단인 텍스트(Text) 분석에 대한 연구가 활발하게 이루어지고 있다. 텍스트 분석은 일반적으로 문서 수집, 파싱(Parsing) 및 필터링(Filtering), 구조화, 빈도 분석 및 유사도 분석의 순서로 수행되며, 분석의 결과는 워드 클라우드(Word Cloud), 워드 네트워크(Word Network), 토픽 모델링(Topic Modeling), 문서 분류, 감성 분석 등의 형태로 나타나게 된다. 특히 최근 다양한 소셜미디어(Social Media)를 통해 급증하고 있는 텍스트 데이터로부터 주요 토픽을 파악하기 위한 수요가 증가함에 따라, 방대한 양의 비정형 텍스트 문서로부터 주요 토픽을 추출하고 각 토픽별 해당 문서를 묶어서 제공하는 토픽 모델링에 대한 연구 및 적용 사례가 다양한 분야에서 생성되고 있다. 이에 본 논문에서는 텍스트 분석 관련 주요 기술 및 연구 동향을 살펴보고, 토픽 모델링을 활용하여 다양한 분야의 문제를 해결한 연구 사례를 소개한다.

한국어 경제 도메인 텍스트 속성 기반 감성 분석을 위한 말뭉치 주석 요소 연구 (A study of Corpus Annotation for Aspect Based Sentiment Analysis of Korean financial texts)

  • 박서윤;장연지;강예지;강혜린;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.232-237
    • /
    • 2022
  • 본 논문에서는 미세 조정(fine-tuning) 및 비지도 학습 기법을 사용하여 경제 분야 텍스트인 금융 리포트에 대해 속성 기반 감성 분석(aspect-based sentiment analysis) 데이터셋을 반자동적으로 구축할 수 있는 방법론에 대한 연구를 수행하였다. 구축 시에는 속성기반 감성분석 주석 요소 중 극성, 속성 카테고리 정보를 부착하였으며, 미세조정과 비지도 학습 기법인 BERTopic을 통해 주석 요소를 자동적으로 부착하는 한편 이를 수동으로 검수하여 데이터셋의 완성도를 높이고자 하였다. 데이터셋에 대한 실험 결과, 극성 반자동 주석의 경우 기존에 구축된 데이터셋과 비슷한 수준의 성능을 보였다. 한편 정성적 분석을 통해 자동 구축을 동일하게 수행하였더라도 기술의 원리와 발달 정도에 따라 결과가 상이하게 달라짐을 관찰함으로써 경제 도메인의 ABSA 데이터셋 구축에 여전히 발전 여지가 있음을 확인할 수 있었다.

  • PDF

딥러닝 모델의 정확도 향상을 위한 감성사전 기반 대용량 학습데이터 구축 방안 (A Method of Constructing Large-Scale Train Set Based on Sentiment Lexicon for Improving the Accuracy of Deep Learning Model)

  • 최민성;박상민;온병원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.106-111
    • /
    • 2018
  • 감성분석(Sentiment Analysis)은 텍스트에 나타난 감성을 분석하는 기술로 자연어 처리 분야 중 하나이다. 한국어 텍스트를 감성분석하기 위해 다양한 기계학습 기법이 많이 연구되어 왔으며 최근 딥러닝의 발달로 딥러닝 기법을 이용한 감성분석도 활발해지고 있다. 딥러닝을 이용해 감성분석을 수행할 경우 좋은 성능을 얻기 위해서는 충분한 양의 학습데이터가 필요하다. 하지만 감성분석에 적합한 학습데이터를 얻는 것은 쉽지 않다. 본 논문에서는 이와 같은 문제를 해결하기 위해 기존에 구축되어 있는 감성사전을 활용한 대용량 학습데이터 구축 방안을 제안한다.

  • PDF

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 (100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models)

  • 비립;강예지;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF

감성 분석 화장품 사용자 리뷰에 대한 속성기반 감성분석 (Aspect-based Sentiment Analysis on Cosmetics Customer Reviews)

  • 정희원;정영섭
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.13-16
    • /
    • 2024
  • 온라인상에 인간의 감성을 담은 리뷰 데이터가 꾸준히 축적되어왔다. 이 텍스트 데이터를 분석하고 활용하는 일은 마케팅에 있어서 중요한 자산이 될 것이다. 이와 관련된 Aspect-Based Sentiment Analysis(ABSA) 연구는 한글에 있어서는 데이터 부족을 이유로 거의 선행연구가 없는 실정이다. 본 연구에서는 최근 공개된 데이터 셋을 바탕으로 하여 화장품 도메인에 대한 소비자들의 리뷰 텍스트와 사전 라벨링 된 속성, 감성 극성을 기반으로 ABSA를 진행한다. Klue RoBERTa base 모델을 활용하여 데이터를 학습시키고, Python Kiwipiepy 등으로 전처리한 결과를 대시보드로 시각화하여 분석하기 쉬운 환경을 마련하는 방법을 제시한다.

  • PDF

텍스트 데이터 시각화를 위한 MVC 프레임워크 (A MVC Framework for Visualizing Text Data)

  • 최광선;정교성;김수동
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.39-58
    • /
    • 2014
  • 빅데이터의 중요성에 대한 인식이 확산되고, 관련한 기술이 발전됨에 따라, 최근에는 빅데이터의 처리와 분석의 결과를 어떻게 시각화할 것인지가 매우 관심 받는 주제로 부각되고 있다. 이는 분석된 결과를 보다 명확하고 효과적으로 전달하는 데에 있어서 데이터의 시각화가 매우 효과적인 방법이기 때문이다. 시각화는 분석 시스템과 사용자가 소통하기 위한 하나의 그래픽 사용자 인터페이스(GUI)를 담당하는 역할을 한다. 통상적으로 이러한 GUI 부분은 데이터의 처리나 분석의 결과와 독립될 수록 시스템의 개발과 유지보수가 용이하며, MVC(Model-View-Controller)와 같은 디자인 패턴의 적용을 통해 GUI와 데이터 처리 및 관리 부분 간의 결합도를 최소화하는 것이 중요하다. 한편 빅데이터는 크게 정형 데이터와 비정형 데이터로 구분할 수 있는데 정형 데이터는 시각화가 상대적으로 용이한 반면, 비정형 데이터는 시각화를 구현하기가 복잡하고 다양하다. 그럼에도 불구하고 비정형 데이터에 대한 분석과 활용이 점점 더 확산됨에 따라, 기존의 전통적인 정형 데이터를 위한 시각화 도구들의 한계를 벗어나기 위해 각각의 시스템들의 목적에 따라 고유의 방식으로 시각화 시스템이 구축되는 현실에 직면해 있다. 더욱이나 현재 비정형 데이터 분석의 대상 중 대부분을 차지하고 있는 텍스트 데이터의 경우 언어 분석, 텍스트 마이닝, 소셜 네트워크 분석 등 적용 기술이 매우 다양하여 하나의 시스템에 적용된 시각화 기술을 다른 시스템에 적용하는 것이 용이하지 않다. 이는 현재의 텍스트 분석 결과에 대한 정보 모델이 서로 다른 시스템에 적용될 수 있도록 설계되지 못하는 경우가 많기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위하여 다양한 텍스트 데이터 분석 사례와 시각화 사례들의 공통적 구성 요소들을 식별하여 표준화된 정보 모델인 텍스트 데이터 시각화 모델을 제시하고, 이를 통해 시각화의 GUI 부분과 연결할 수 있는 시스템 모델로서의 시각화 프레임워크인 TexVizu를 제안하고자 한다.

수학 담화에서 나타나는 교사의 감성적 언어 빈도 분석 (The Frequency Analysis of Teacher's Emotional Response in Mathematics Class)

  • 손복은;고호경
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제32권4호
    • /
    • pp.555-573
    • /
    • 2018
  • 본 연구는 텍스트 마이닝 기법을 활용하여 수학수업에서 나타나는 교사의 감성적 언어를 확인하고자 하였다. 이를 위해 우수 수업 동영상을 활용하여 수업에서 발생하는 교사의 수업 언어 데이터를 수집하였다. 추출한 비정형 데이터에 대한 분석 과정은 데이터 수집, 데이터 전처리, 텍스트 마이닝 분석의 세 가지 단계로 진행하였다. 분석 결과 수학 수업에서 오고가는 담화 중에서 교사의 감성적 반응을 나타내는 언어는 거의 나타나지 않았으며, 이를 통해 수업의 정의적 영역 측면에서의 시사점을 도출하였다.