• 제목/요약/키워드: Unstructured Text Data

검색결과 228건 처리시간 0.033초

텍스트 마이닝 기법을 활용한 설문 문항 개선에 관한 연구 (A Study on Questionnaire Improvement using Text Mining)

  • 백연지;정창현
    • 해양환경안전학회지
    • /
    • 제26권2호
    • /
    • pp.121-128
    • /
    • 2020
  • 국민의 해양안전문화 수준을 객관적으로 측정하고 해양안전문화 확산을 위한 자료로 활용하고자 2018년에 해양안전문화지수를 개발하였다. 안전문화지수를 산출하는 방법은 안전문화에 영향을 줄 만한 이슈를 포함해야 하고 현 실태를 측정할 수 있는 문항으로 구성되어야 한다. 또한, 사회적·경제적 변화에 따라 지속적인 검증과 보완이 요구된다. 해양 전문가에 의해 설계된 설문 문항이 국민의 관심사와 요구를 잘 반영하고 있는지 확인하기 위해 915명의 해양안전 관련 제안 내용을 분석하였다. 비정형 데이터인 해양안전 제안 내용을 분석하기 위해 텍스트 마이닝 기법을 활용하였으며, 네트워크 분석과 토픽 모델링을 수행하였다. 해양안전 제안을 분석한 결과 '교육', '홍보', '안전수칙', '의식', '전문 인력', '시스템'에 관한 내용이 주를 이루었다. 해양안전 제안 사항이 2019년 설문 문항에 반영되도록 18개의 문항을 수정·보완하였고, 설문 문항의 신뢰도를 분석한 결과 내적 일관성은 0.895로 높게 평가되었으며 전년 대비 향상되었다. 해양 관련 전문가뿐만 아니라 국민의 요구사항까지 반영한 개선된 설문 문항으로 해양안전문화지수를 도출함으로써 해양안전문화 확산을 위한 정책 수립에 더 기여할 것으로 기대된다.

관계 추론 심층 신경망 모델의 성능개선 연구 (A Study on Improving Performance of the Deep Neural Network Model for Relational Reasoning)

  • 이현옥;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권12호
    • /
    • pp.485-496
    • /
    • 2018
  • 지금까지 인공지능의 한 분야인 딥러닝 방법은 구조화되지 않은 데이터로부터 문제를 해결하는 놀라울만한 성과를 이루어왔지만, 인간처럼 여러 상황들을 종합적으로 판단, 그것들의 연관성을 추론하고, 그 다음 상황을 예측하는 수준의 지능을 갖는데 도달하지 못하였다. 최근 발표된 복잡한 관계 추론을 수행하는 심층 신경망은 인공지능이 인간의 핵심 지적 능력인 관계 추론을 보유할 수 있다는 것을 증명하였다. 본 논문에서는 관계 추론 심층 신경망 중에서 Relation Networks (RN)의 성능을 분석 및 관찰해 보고자 Sort-of-CLEVR 데이터 셋을 사용한 시각적 질의응답과 bAbI task를 사용한 텍스트 기반 질의응답 두 유형의 RN 기반 심층 신경망 모델을 구축하여 baseline 모델과의 비교를 통한 성능검증을 하였다. 또한 모델의 성능을 극대화하기 위하여 하이퍼 파라미터 튜닝 등 다양각도의 성능개선 실험으로 관계 추론을 위한 RN 기반 심층 신경망 모델의 성능개선 방법을 제안하였다. 제안한 성능개선 방법은 시각적 질의응답 모델과 텍스트 기반 질의응답 모델에 적용하여 그 효과를 검증하였고, 기존의 RN 모델에서 사용해보지 않았던 Dialog-based LL 데이터 셋을 사용하여 새로운 도메인에서의 제안한 성능개선 방법의 효과를 다시 한 번 검증하였다. 실험 결과 두 유형의 RN 모델 모두에서 초기 학습률이 모델의 성능을 결정하는 핵심 요인임을 알 수 있었고, 제안한 random search 방법에 의해 찾은 최적의 초기 학습률 설정이 모델의 성능을 최고 99.8%까지 향상 시킬 수 있다는 것을 확인하였다.

머신러닝을 이용한 의료 및 광고 블로그 분류 (A Classification of Medical and Advertising Blogs Using Machine Learning)

  • 이기성;이종찬
    • 한국산학기술학회논문지
    • /
    • 제19권11호
    • /
    • pp.730-737
    • /
    • 2018
  • 행복한 삶의 질을 목적으로 하는 의료소비자가 증가하면서 웹에 분산되어 있는 블로그의 의료 정보를 바탕으로 신뢰성 있는 의료 시설을 선택하고 고품질의 의료 서비스를 받음으로서, 시간과 비용을 절약할 수 있는 O2O 의료 마케팅 시장이 활성화 되고 있다. 인터넷, 모바일, SNS 등에서 증가하는 비정형 텍스트 데이터는 전문 의료 지식 이외에 작성자의 관심, 선호, 예상 등을 직간접적으로 반영하고 있기 때문에 의료정보의 신뢰성을 담보하기 어렵다. 본 연구에서는 빅데이터 및 MLP를 사용하여 의료정보 블로그를 분류 (의료블로그, 광고블로그)함으로서 사용자에게 보다 고품질의 의료정보 서비스를 제공하는 블로그 판단 시스템을 제안한다. 제안된 빅데이터 및 머신러닝 기술을 통해 인터넷상에 존재하는 국내의 다수 의료정보 블로그를 종합, 분석한 후 질환별 개인 맞춤형 건강정보 추천 시스템을 개발한다. 이를 통하여 사용자는 자신의 건강문제를 지속적으로 점검하고 가장 적절한 조치를 취함으로서 자신의 건강 상태를 유지하는 것이 가능할 것으로 기대된다.

비정형 빅데이터를 이용한 COVID-19 주요 이슈 분석 (Analysis of Major COVID-19 Issues Using Unstructured Big Data)

  • 김진솔;신동훈;김희웅
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.145-165
    • /
    • 2021
  • 2019년 12월 말, 전 세계를 혼란에 빠트린 코로나바이러스감염증-19(COVID-19)의 팬데믹이 시작되었다. 이러한 위기를 극복하고 피해를 최소화하기 위해 정부와 기관에서는 기존의 정책지원 효과를 극대화하고 변화하는 사회를 반영한 전방위적 대응책 마련이 필요하다. 사회적으로 부각되는 논제와 관심사항의 주제를 파악하기 위해, 본 연구는 소셜미디어의 빅데이터를 통해 코로나19와 관련된 주요 생각, 태도, 감정 등을 파악한다. 특히 정부의 대응에 관한 대중의 견해를 알기 위해 '정부 대응방향'을 기준으로 시기를 나누어 분석을 진행했다. 분석에 활용한 데이터는 네이버를 통해 2019년 12월 31일부터 2020년 12월 12일까지 수집되었다. 또한, 분석을 위해 텍스트마이닝 기법 중 TF-IDF 키워드 추출과 LDA 토픽모델링을 활용하였다. 그 결과, 8개의 코로나19 관련 주요 이슈가 도출되었으며, 이러한 이슈 사항과 주요 키워드를 기반으로 해당 분야에서의 코로나19 및 감염병 대응 정책 전략을 제시하였다. 본 연구는 코로나19 팬데믹과 같은 위기상황에 정부와 관련 기관이 국민의 필요와 요구에 따른 정확한 대응책을 마련하는 데 기초자료를 제공했다는 점에서 의의를 가진다.

오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론 (Methodology for Classifying Hierarchical Data Using Autoencoder-based Deeply Supervised Network)

  • 김윤하;김남규
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.185-207
    • /
    • 2022
  • 최근 딥 러닝 기술의 발전으로 인해, 텍스트, 이미지 등 비정형 데이터 분석에 딥 러닝 알고리즘을 적용하는 연구가 활발히 수행되고 있다. 그중 텍스트 분류는 학계 및 업계에서 오랜 기간 연구되어 온 분야로, 분류의 성능을 향상시키기 위해 계층형 레이블 등 데이터 자체의 특성을 활용하기 위한 다양한 시도가 이루어지고 있다. 하지만 계층적 분류를 위해 주로 사용되는 하향식 접근법은 상위 레벨의 오분류가 하위 레벨의 정분류 기회를 차단한다는 한계가 있다. 따라서, 본 연구에서는 레이블의 계층적인 관계를 고려하면서도 상위 레벨의 분류가 하위 레벨의 분류를 차단하지 않도록 하여 분류 성능을 향상시키기 위해, 오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론을 제안한다. 제안 방법론은 오토인코더의 잠재변수에 하위 레이블을 예측하는 주 분류기를 추가하고, 인코더의 은닉층에 상위 레벨의 레이블 예측하는 보조 분류기를 추가하여 End-to-End 학습을 진행한다. 제안 방법론의 성능을 평가하기 위하여 국내 논문 데이터 총 22,512건에 대한 실험을 수행한 결과, 제안 모델이 기존의 지도 오토인코더 및 DNN 모델에 비해 분류 정확도와 F1-Score에서 우수한 성능을 나타냄을 확인하였다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.

텍스트 마이닝 기반의 이슈 관련 R&D 키워드 패키징 방법론 (Methodology for Issue-related R&D Keywords Packaging Using Text Mining)

  • 현윤진;윌리엄;김남규
    • 인터넷정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.57-66
    • /
    • 2015
  • 빅데이터 기술에 대한 관심이 급증함에 따라, 소셜 미디어를 통해 유통되는 방대한 양의 비정형 데이터를 분석하고자 하는 시도가 활발히 이루어지고 있다. 이에 따라서 텍스트 형태의 비정형 데이터 분석을 통해 의미 있는 정보를 찾고자 하는 시도가 비즈니스 영역뿐 아니라, 정치, 경제, 문화 등 다양한 영역에서 이루어지고 있다. 특히 최근에는 여러 현안 및 이슈들을 발굴하여 이를 의사결정에 활용하고자 하는 시도가 활발히 이루어지고 있다. 이처럼 빅데이터 분석을 통해 국가현안이나 이슈를 발굴하고자 하는 시도가 꾸준히 이루어져왔음에도 불구하고, 국가현안 및 이슈로부터 이와 관련된 R&D 문서를 효율적으로 제공하는 방안은 마련되지 않고있다. 이는 사용자들이 인식하는 현안 키워드와 실제 사용되는 R&D 키워드 사이의 이질성이 존재하기 때문이다. 따라서 현안 및 R&D키워드간의 이질성을 극복하기 위한 중간 장치가 필요하며, 이 중간 장치를 통해 각 현안 키워드와 R&D 키워드간에 적절한 대응이 이루어져야 한다. 이를 위해 본 연구에서는 (1) 현안 키워드 추출을 위한 하이브리드 방법론, (2) 현안 대응 R&D 정보 패키징 방법론, 그리고 (3) R&D 관점에서의 연관 현안 네트워크 구축 방법론의 총 세 가지 방법론을 제안한다. 제안하는 방법론은 텍스트 마이닝, 소셜네트워크 분석, 그리고 연관 규칙 마이닝 등의 데이터 분석 기법들을 활용하여 수행하였으며, 그 결과, (1)에 의한 키워드 보강률은 42.8%로 나타났으며, (2)의 경우, 현안 키워드와 R&D 키워드간 다수의 연관 규칙이 나타났다. (3)의 경우는 현재 진행 중에 있으며, 향후 가시적 성과를 낼 수 있을 것으로 예상된다.

텍스트마이닝을 통한 최고경영자 대상 이러닝 콘텐츠 트렌드 분석 (Text Mining-Based Emerging Trend Analysis for e-Learning Contents Targeting for CEO)

  • 김경훈;채명신;이병태
    • 경영정보학연구
    • /
    • 제19권2호
    • /
    • pp.1-19
    • /
    • 2017
  • 본 연구는 텍스트마이닝 기법 중 토픽 분석을 활용하여 관련 업계 국내 1위 S사(社)의 최고경영자 대상 온라인 교육 콘텐츠 강의 중심으로 원문 스크립트를 분석했다. 지난 5년간(2011~2015)년 서비스된 총 4,824개 콘텐츠를 바탕으로 핵심 키워드를 추출한 다음 주제별 22가지 토픽으로 분류한 후 동향 분석을 수행했다. 이를 통해 최근 콘텐츠 비중이 급증하고 있는 토픽 주제를 확인할 수 있었다. 다음으로 토픽 분석을 통해 분류한 토픽 및 카테고리를 바탕으로 회원 평가 요인을 적용해 카테고리 및 각 토픽별 지적 관심도를 체계화 할 수 있었다. 경영·경제 분야에서는 마케팅전략, 인사/조직, 커뮤니케이션 분야 등이 높은 관심도와 만족도를 나타냈다. 인문 분야에서는 철학, 전쟁사, 역사(서양) 라이프스타일에서는 마음건강 분야가 관심도와 만족도 둘 다 높은 것으로 나타났다. 이와 함께 교육용 콘텐츠가 시대 변화에 민감하게 반응할지라도 회원의 관심과 만족도 제고에는 실패할 수 있다는 사실을 확인할 수 있었다. 최근 콘텐츠 비중은 급증했지만 평균 이하의 만족도를 기록한 IT기술 토픽이 대표적 사례라 할 수 있다. 이를 통해 최고경영자 대상 콘텐츠 제작 시 단순히 기술적 측면의 정보전달에서 끝나는 것이 아닌 기술 적용을 통한 가치혁신에 대한 깊이 있는 시사점을 도출하거나 풍부한 영상 자료를 바탕으로 다양한 볼거리를 제공하는 등 양적인 측면과 함께 질적인 측면을 고려해야 한다는 교훈을 얻을 수 있었다. 본 연구는 포털 사이트 혹은 SNS 자료가 아닌 국내 가장 영향력 있는 이러닝 기업 데이터를 토대로 분석을 진행했기에 보다 심도 있고 실용적인 결과를 도출했다. 또한 이러닝 관련 연구 분야에서 지금까지는 드물었지만 기술의 발달로 점점 연구 조사 방법론으로 기대가 높아진 텍스트마이닝 방법에 대하여 그 적용 가능성을 성공적으로 탐색해 보았다. 기존에는 콘텐츠 운영 현황 분석 시 콘텐츠 프로그램명에 입각, 표면적인 방식으로 분류할 수밖에 없는 한계가 존재했다면 텍스트마이닝 방법론을 활용하면 비정형 데이터 콘텐츠 스크립트를 바탕으로 분석하여 내용을 바탕으로 한 보다 심도 있는 콘텐츠 분류 및 주제 분류를 이끌어 낼 수 있다. 이를 바탕으로 연도에 따른 주제별 콘텐츠 서비스 현황을 도식화한다면 현재 부족한 분야와 필요한 분야에 대한 보다 심도 있는 고찰이 가능하다. 본 연구는 다양한 텍스트마이닝 기법 중에서 이러닝의 상황에서 효과적으로 연구하기 위한 새로운 방법론을 제시했으며 향후 최고경영자 교육 관련 분야별 지적 관심도에 대한 분석에 도움이 될 것으로 기대된다.

회선 신경망을 활용한 자모 단위 한국형 감성 분석 모델 개발 및 검증 (Development and Validation of the Letter-unit based Korean Sentimental Analysis Model Using Convolution Neural Network)

  • 성원경;안재영;이중정
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.13-33
    • /
    • 2020
  • 본 연구는 자모 단위의 임베딩과 회선 신경망을 활용한 한국어 감성 분석 알고리즘을 제안한다. 감성 분석은 텍스트에서 나타난 사람의 태도, 의견, 성향과 같은 주관적인 데이터 분석을 위한 자연어 처리 기술이다. 최근 한국어 감성 분석을 위한 연구는 꾸준히 증가하고 있지만, 범용 감성 사전을 사용하지 못하고 각 분야에서 자체적인 감성 사전을 구축하여 사용하고 있다. 이와 같은 현상의 문제는 한국어 특성에 맞지 않게 형태소 분석을 수행한다는 것이다. 따라서 본 연구에서는 감성 분석 절차 중 형태소 분석을 배제하고 초성, 중성, 종성을 기반으로 음절 벡터를 생성하여 감성 분석을 하는 모델을 개발하였다. 그 결과 단어 학습 문제와 미등록 단어의 문제점을 최소화할 수 있었고 모델의 정확도는 88% 나타내었다. 해당 모델은 입력 데이터의 비 정형성에 대한 영향을 적게 받으며, 텍스트의 맥락에 따른 극성 분류가 가능하게 되었다. 한국어 특성을 고려하여 개발된 본 모델이 한국어 감성 분석을 수행하고자 하는 비전문가에게 보다 쉽게 이용될 수 있기를 기대한다.

토픽 모델링을 활용한 한국의 플랫폼정부 연구동향 분석 (A Study on the Research Trends on Domestic Platform Government using Topic Modeling)

  • 서병조;신선영
    • 정보화정책
    • /
    • 제24권3호
    • /
    • pp.3-26
    • /
    • 2017
  • 온라인에서 생성되는 비정형 데이터가 기하급수적으로 증가하고 있으며 이중에서도 텍스트 데이터에 대한 분석이 다양한 분야에서 이루어지고 있다. 본 연구는 국내 지능정보사회 대비를 위한 플랫폼 정부의 연구 동향을 규명하기 위하여 국내 논문DB인 디비피아(www.dbpia.co.kr)에서 플랫폼 정부를 주제로 한 학술논문들의 제목과 연도, 학회, 초록 정보를 수집하였다. 본 연구에서 국내의 연구현황, 연구주제, 연구 분야 추이 등을 텍스트마이닝의 토픽 모델링 기법을 활용하여 분석하였다. 지능정보사회 대비를 위한 플랫폼 정부 전반적인 분야에 대해 기존 연구결과를 바탕으로 국내 국가정보화 추진 단계별 플랫폼 정부 관련 논문에서 기술, 서비스, 거버넌스로 잠재된 토픽을 추출하고, 연도별로 핵심 토픽의 추이를 분석하였다. 본 연구는 지능정보시대를 맞아 민간이 혁신을 주도하고 정부는 조력자 또는 촉진자 역할을 통해 국가사회 혁신이 이뤄질 수 있는 장을 조성해야 한다는 플랫폼 정부라는 정부의 새로운 역할에 대한 근거를 제시하였다는 데 의의를 지닌다. 플랫폼 정부의 국내연구 현황에 대한 객관적인 분석을 통해 플랫폼 정부 연구의 현주소를 이해하고 향후 발전방향을 모색함으로써, 향후 연구에 기여하는 참고자료를 제공할 수 있을 것으로 기대된다.