• 제목/요약/키워드: 텍스트 데이터 분석

검색결과 1,095건 처리시간 0.029초

텍스트 마이닝을 이용한 매체별 에볼라 주제 분석 - 바이오 분야 연구논문과 뉴스 텍스트 데이터를 이용하여 - (Text Mining Driven Content Analysis of Ebola on News Media and Scientific Publications)

  • 안주영;안규빈;송민
    • 한국문헌정보학회지
    • /
    • 제50권2호
    • /
    • pp.289-307
    • /
    • 2016
  • 에볼라 바이러스(Ebola virus disease)와 같은 전염병들은 사회적으로 큰 이슈가 되어 언론의 관심을 받으며 동시에 많은 연구의 대상이 되기도 한다. 이에 따라 국내외로 전염병과 관련된 텍스트 마이닝 연구가 활발하게 진행되고 있으나, 텍스트 마이닝 기법을 사용하여 상이한 특성을 가진 매체 간 주제를 분석한 연구는 아직까지 진행되지 않고 있다. 따라서 본 연구에서는 전염병 중 하나인 에볼라를 키워드로 하여 사회적 특성을 지닌 뉴스 기사와 바이오 분야의 전문적 특성을 지닌 연구 논문 간의 주제 분석을 진행하였다. 텍스트 분석에는 매체별 문헌 데이터로부터 다양한 토픽들을 추출하기 위해 토픽모델링 기법을 적용하였고, 매체 간의 구체적인 내용 분석을 위해 중요 개체를 선정하고 이를 중심으로 동시출현 단어 네트워크 분석을 수행하였다. 또한 각 매체별로 등장하는 주제를 시각적으로 표현하기 위해 토픽맵을 구축하였다. 분석 결과, 두 매체에서 다루는 주제의 차이점과 공통점을 발견할 수 있었으며 동시 출현 주제의 시계열 분석을 통해 매체 간 특성의 차이를 찾을 수 있었다. 본 연구를 통해 상이한 특성을 지닌 매체들의 주제와 개체들을 함께 제시하고, 매체 간의 공통점과 차이점을 보여줌으로써 매체별 정보 생산자들이 연구 및 현상 분석을 진행하는 데 있어 관점의 다양성을 제공할 수 있을 것이다.

텍스트 마이닝을 이용한 비대면 소프트웨어 교양과목의 요구사항 분석 (An Analysis for the Student's Needs of non-face-to-face based Software Lecture in General Education using Text Mining)

  • 정화영
    • 한국콘텐츠학회논문지
    • /
    • 제22권3호
    • /
    • pp.105-111
    • /
    • 2022
  • 온라인 수업에 대한 학생들의 니즈 분석은 객관식 설문조사 유형이 주로 수행되어왔다. 그러나 학생들의 정확한 니즈를 분석하기 위해서는 주관식 답변에 의한 비정형 데이터 분석이 요구된다. 빅데이터는 비정형 데이터 분석이 가능하여 다양한 분야에서 활용되고 있다. 본 연구에서는 비대면 온라인 수업방식을 진행되는 교양 소프트웨어 과목에서 학생들이 원하는 과목이나 주제가 무엇인지 조사 및 분석하였다. 실험방법은 학생들에게 주관식 설문조사를 시행하여 얻은 비정형 데이터를 기반으로 빅데이터의 키워드 분석, 연관 분석등을 수행하였다. 이를 통해 학생들이 교양 소프트웨어 과목에서 원하는 키워드가 무엇인지 알 수 있었으며, 이러한 연구 결과는 학생들이 배우고자하는 주제를 파악할 수 있어서 향후 교양 소프트웨어 과목의 기획 및 설계시 중요한 자료가 될 것이다.

빅데이터를 활용한 섬 관광지의 경관 특성 분석 - 신안군 박지·반월도를 대상으로 - (Analysis of the Landscape Characteristics of Island Tourist Site Using Big Data - Based on Bakji and Banwol-do, Shinan-gun -)

  • 도지윤;서주환
    • 한국조경학회지
    • /
    • 제49권2호
    • /
    • pp.61-73
    • /
    • 2021
  • 본 연구는 사용자의 경험에 의해 생성된 SNS 데이터를 활용하여 이용자의 경관 인식과 경관 특성을 파악하고자 하였다. 이에 섬에서 나타나는 주요 장소와 경관은 어떻게 인지하고 있는지, 주요 경관 특성은 무엇인지 온라인상의 텍스트 데이터와 사진 데이터를 활용하여 분석하였다. 텍스트 데이터는 텍스트마이닝과 네트워크 구조분석을 시행하였으며, 사진 데이터는 경관파악모델과 색채분석을 실시하였다. 연구의 결과는 첫째, 박지·반월도 주제어의 빈도분석 결과, 지역 경관 대상 키워드인 '퍼플교', '두리마을'과 장소, 행태, 경관 이미지 키워드를 도출할 수 있었으며, 이 중 경관 이미지는 감성분석을 동시해 수행함으로써 긍정의 키워드와 함께 도출하여 경관 대상 및 인식을 파악할 수 있었다. 둘째, 네트워크 구조 분석 결과, 주요 키워드와 도출되지 않은 키워드간의 연결을 보다 구체적으로 분석할 수 있어 색채를 활용한 경관 조성이 지역 활성화에 영향을 미치고 있음을 알 수 있었다. 셋째, 경관파악모델을 활용하여 분석한 결과, 주대상인 '퍼플교', '두리마을'을 활용한 선호 경관을 조성하기 위해선 인공요소가 배제되고, 원경으로 대상장인 바다와 하늘이 보이는 조망점을 설정하는 것이 효과적일 것으로 파악되었다. 넷째, 박지·반월도는 색채를 테마로 하여 조성한 최초의 섬으로 인공시설물에 사용된 색채는 주변 환경과 유사한 색채 계열, 상반되는 명도, 채도 값으로 주변 환경과 조화를 이루고 있음을 알 수 있었다. 본 연구는 경관분야에서 방문객이 직접 업로드한 온라인 데이터를 활용하여 이용자의 인식과 경관 대상을 파악하였다. 또한, 텍스트 및 사진 데이터를 모두 활용하여 경관 인식 및 특성을 파악한 것은 어떤 경관과 자원을 선호하고 인지하고 있는지 구체적으로 파악할 수 있다는 점에서 큰 의의가 있다. 또한, 지역의 경관에 대해 방문객의 인식을 파악함에 있어 정량적인 빅데이터 분석 방법과 정성적인 경관파악모델을 활용함은 대규모 이용자의 인식을 파악하고, 결과를 바탕으로 이루어지는 논의를 통해 경관을 보다 구체적으로 이해할 수 있을 것이다.

웹 캐스트와 연관규칙 마이닝을 이용한 축구 경기의 심층 분석 (An In-depth Analysis on Soccer Game via Webcast and Association Rule Mining)

  • 정호석;이종욱;유재학;박대희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.17-20
    • /
    • 2011
  • 축구 비디오를 분석하고 이를 팀 전략 수립에 활용하는 축구 비디오 분석관의 역할이 강조됨에 따라, 축구 비디오에서 주요 이벤트의 탐지와 같은 절차적 기능에서 부터 고수준의 해석 방법에 이르는 다양한 기능들이 요구된다. 본 논문에서는 축구 웹 캐스트에서 실시간으로 제공하는 텍스트 정보를 기반으로 메타데이터 키워드 매칭을 통하여 축구 경기의 다양한 속성들을 추출하고 텍스트 마이닝의 대표적 해석 기법인 연관규칙 마이닝을 사용함으로써 축구 경기의 전략 수립이 가능한 고수준의 해석 방법을 소개한다. 실제 2010년 월드컵의 스페인 경기를 중계한 웹 캐스트의 텍스트 정보를 대상으로 제안된 방법론의 타당성을 검증한다.

Noisy 텍스트 임베딩을 이용한 한국어 감정 분석 (Korean Sentiment Analysis by using Noisy Text Embedding)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.506-509
    • /
    • 2019
  • 신문기사나 위키피디아와 같이 정보를 전달하는 텍스트와는 달리 사람의 감정 및 의도를 표현하는 텍스트는 다양한 형태의 노이즈를 포함한다. 본 논문에서는 data-driven 방법을 이용하여 노이즈와 단어들 사이의 관계를 LSTM을 이용하여 하나의 벡터로 요약하는 모델을 제안한다. 노이즈 문장 벡터를 표현하는 방식으로는 단방향 LSTM 인코더과 양방향 LSTM 인코더의 두 가지 모델을 이용하여 노이즈를 포함하는 영화 리뷰 데이터를 가지고 감정 분석 실험을 하였고, 실험 결과 단방향 LSTM 인코더보다 양방향 LSTM인 코더가 우수한 성능을 보여주었다.

  • PDF

비정형 텍스트 데이터 분석을 활용한 기록관리 분야 연구동향 (Research Trends in Record Management Using Unstructured Text Data Analysis)

  • 홍덕용;허준석
    • 한국기록관리학회지
    • /
    • 제23권4호
    • /
    • pp.73-89
    • /
    • 2023
  • 본 연구에서는 텍스트 마이닝 기법을 활용하여 국내 기록관리 연구 분야의 비정형 텍스트 데이터인 국문 초록에서 사용된 키워드 빈도를 분석하여 키워드 간 거리 분석을 통해 국내기록관리 연구 동향을 파악하는 것이 목적이다. 이를 위해 한국학술지인용색인(Korea Citation Index, KCI)의 학술지 기관통계(등재지, 등재후보지)에서 대분류(복합학), 중분류 (문헌정보학)으로 검색된 학술지(28종) 중 등재지 7종 1,157편을 추출하여 77,578개의 키워드를 시각화하였다. Word2vec를 활용한 t-SNE, Scattertext 등의 분석을 수행하였다. 분석 결과, 첫째로 1,157편의 논문에서 얻은 77,578개의 키워드를 빈도 분석한 결과, "기록관리" (889회), "분석"(888회), "아카이브"(742회), "기록물"(562회), "활용"(449회) 등의 키워드가 연구자들에 의해 주요 주제로 다뤄지고 있음을 확인하였다. 둘째로, Word2vec 분석을 통해 키워드 간의 벡터 표현을 생성하고 유사도 거리를 조사한 뒤, t-SNE와 Scattertext를 활용하여 시각화하였다. 시각화 결과에서 기록관리 연구 분야는 두 그룹으로 나누어졌는데 첫 번째 그룹(과거)에는 "아카이빙", "국가기록관리", "표준화", "공문서", "기록관리제도" 등의 키워드가 빈도가 높게 나타났으며, 두 번째 그룹(현재)에는 "공동체", "데이터", "기록정보서비스", "온라인", "디지털 아카이브" 등의 키워드가 주요한 관심을 받고 있는 것으로 나타났다.

설비 오류 유형 구조화를 위한 인공신경망 기반 구절 네트워크 구축 방법 (An Artificial Neural Network Based Phrase Network Construction Method for Structuring Facility Error Types)

  • 노영훈;최은영;최예림
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.21-29
    • /
    • 2018
  • 4차 산업혁명 시대의 도래와 함께 스마트 팩토리의 개념이 대두되면서 설비가동률과 생산성에 악영향을 미치는 설비 오류의 발생을 데이터 분석 기법을 통해 예측하고자 하는 노력이 이루어지고 있다. 데이터 분석 기법을 활용하여 설비 오류를 예측하기 위해서는 설비 오류가 발생한 상황과 설비 오류 유형을 명시한 데이터인 설비 오류 이력이 필요하다. 하지만 많은 제조 현장에서는 설비 오류 유형이 정확하게 정의/분류가 되지 않아 설비를 운영하는 작업자가 자신의 경험적 판단에 의거하여 정형화되지 않은 텍스트의 형태로 설비 오류 유형을 작성하고, 이에 따라 데이터 분석 기법의 적용이 어렵다. 따라서 본 논문에서는 수기로 작성된 설비 오류 이력을 활용하여 설비 오류 유형을 파악하고 구조화하기 위한 구절 네트워크 구축 방법을 제안하고자 한다. 구체적으로, 단어를 쓰임새에 따라 분류한 용도 딕셔너리를 활용하여 비정형의 텍스트 데이터로부터 설비 오류 유형을 의미하는 구절을 추출하고, 추출된 구절 간의 유사도를 계산하여 네트워크를 구축한다. 제안하는 방법의 성능을 실제 제조 기업의 설비 오류 이력 데이터를 활용하여 검증하였으며, 본 연구의 결과는 텍스트 데이터에 기반한 설비 오류 유형 구조화와 나아가서는 설비 오류 발생 예측에 이용할 수 있을 것을 기대한다.

빅데이터 분석을 통한 코로나 이전과 이후 메타버스에 대한 소비자의 인식에 관한 연구 (A Study on the Consumer Perception of Metaverse Before and After COVID-19 through Big Data Analysis)

  • 박성우;박준호;류기환
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.287-294
    • /
    • 2022
  • 본 연구의 목적은 코로나 19 발병 이후 비대면 사회가 지속됨에 따라 새롭게 각광받는 기술인 "메타버스"에 대한 소비자들의 인식을 빅데이터 분석을 통하여 알아보고자 함에 있다. 본 연구는 코로나19 이전과 이후로 나누어 메타버스에 대한 소비자의 인식을 분석하기 위해 텍스트 마이닝을 활용한 빅데이터 분석을 수행하였다. 단어 정제를 통하여 상위 30개의 키워드를 추출, 이를 토대로 각 키워드간의 연결망 분석, Concor분석을 통하여 시각화를 진행하였다. 분석을 진행한 결과 비대면 사회가 지속되며 메타버스가 트렌드로 급 부상하였다는 것을 확인하였다. 이전의 메타버스는 라이프 로깅의 한부분으로써 SNS 같은 텍스트 데이터에 치중되어 있었지만 이후, 가상현실 공간에 주목하기 시작하여 많은 플랫폼을 발생시키고 산업도 확대 되었다. 본 연구의 한계점은 포털사이트의 검색빈도를 통해 데이터를 수집하였기 때문에 익명성이 보장되어있어 데이터 수집 시 인구통계학적 특성이 반영되지 않았다는 점이다.

텍스트 마이닝 기법을 이용한 경찰청 업무 트렌드 분석 (Analysis of the National Police Agency business trends using text mining)

  • 선현석;임창원
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.301-317
    • /
    • 2019
  • 최근 통계적인 기법을 이용하여 대량으로 생산되고 있는 텍스트 데이터를 통해 다양한 인사이트 발굴을 하기 위한 연구가 활발히 진행되고 있다. 본 연구는 경찰청에서 생산하는 텍스트 데이터를 통해 연도별 경찰청의 업무 트렌드를 파악하고, 각 지방청별로 생산되는 문서에서 주요 키워드를 파악하여 지방청 간의 업무 특성을 비교하고자 하였다. 의미 있는 결론을 도출하기 위해 각 자료 특성에 맞는 전처리 과정을 시행하고 문서별 단어 빈도수를 계산하였다. 문서에 나타난 키워드의 단순 출현 빈도로는 해당 키워드가 문서에서 갖는 중요도를 설명하기 힘들기 때문에 단어-역문서 가중치를 이용하여 각 단어에 대한 빈도수를 새롭게 계산하였고 단어의 문서별 및 연도별 빈도 비교를 위해 L2 정규화 기법을 이용하였다. 이러한 분석은 향후 경찰청 업무 개선 정책에 새롭게 활용될 수 있는 기초 자료로 사용될 수 있으며, 경찰청 업무 효율성 향상 및 청내 업무 개선 수요 파악을 위한 방법으로 활용될 수 있다.

가중치를 적용한 소프트웨어 품질 평가 방법 (A weighted method for evaluating software quality)

  • 정혜정
    • 디지털융복합연구
    • /
    • 제19권8호
    • /
    • pp.249-255
    • /
    • 2021
  • 본 연구는 소프트웨어 시험성적서를 중심으로 국제표준에서 제시하고 있는 8가지 품질특성인 기능성, 신뢰성, 사용성, 유지보수성, 이식성, 효율성, 보안성, 상호운용성에 대한 가중치 결정 문제에 대한 방안을 제시했다. 현재는 소프트웨어 품질 평가에 대한 시험결과는 8가지 품질 특성을 동일한 가중치를 적용해서 산술평균을 구하고 있으나, 소프트웨어 품질 평가 점수는 제품의 특성에 따라 8가지 품질 특성을 구별하여 평가해야 한다는 점을 고려하여 소프트웨어 시험성적서의 결과를 중심으로 텍스트분석을 실시하였다. 텍스트분석을 통해서 나온 결과를 이용해서 8가지 품질 특성별 가중치를 적용하였으며, 두 개의 제품에 대한 시험성적서를 텍스트분석 한 결과를 이용해서 가중치를 적용하여 본 결과 가중치를 적용한 품질특성에 따른 시험성적서의 평균이 더 효율적이라는 것을 확인할 수 있었다.