• 제목/요약/키워드: 텍스트마이닝분석

검색결과 1,003건 처리시간 0.025초

온라인 뉴스 제목 분석을 통한 특정 장소 이벤트 성과 예측을 위한 형태소 분석 방법 (A Morphological Analysis Method of Predicting Place-Event Performance by Online News Titles)

  • 최석재;이재웅;권오병
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.15-32
    • /
    • 2016
  • 공개된 데이터인 온라인 뉴스 기사 중 상당수는 도시와 같은 특정 장소에서 발생하는 이벤트에 관련된 사실과 의견을 담고 있어 독자의 의사 결정에 영향을 끼친다. 따라서 대량의 인터넷 뉴스 기사를 분석하면 향후 사람들이 특정 이벤트에 대하여 어떠한 선택을 할지 예상할 수 있을 것이다. 이에 본 연구는 온라인 뉴스 기사 제목을 형태소 분석하여 특정 장소에서 이루어질 이벤트의 성과를 사전에 예측하는 방법을 제안하고자 한다. 기사 제목은 기사의 가장 핵심적인 내용을 담고 있어 본문보다 사실과 의견이 더 정확하게 발현될 뿐 아니라, 모바일 환경에서는 기사 본문보다 더 큰 영향력을 가지기 때문에 이벤트의 성과 예측에 효과적인 자료이다. 이에 인터넷 뉴스 기사의 제목을 수집하여 학습 데이터와 평가 데이터로 구분하고, 학습 데이터에서 유의한 극성을 보이는 형태소를 추출하여 전체 기사의 제목을 감성 분석하였다. 여기에 뉴스 기사가 갖는 특성이 반영될 수 있도록 기사 검색량과 기사 산출량 정보를 변인에 추가하여 이벤트 성과를 예측하는 알고리즘을 수립하였다. 그 결과 70.6%의 성공률로 성과를 예측하여 다른 비교 대상 분석 방법과 분명한 차이를 보였다. 도출된 이벤트 성과 예측 정보는 이벤트를 준비하는 기관 및 업체에서 예상 수요량을 결정할 때 도움을 줄 수 있을 것이다.

빅데이터와 사회연결망 기법을 이용한 '노인 이미지' 분석 ('Elderly image' Analysis Using Big Data and Social Networking Techniques)

  • 한선보;이현심
    • 한국콘텐츠학회논문지
    • /
    • 제16권11호
    • /
    • pp.253-263
    • /
    • 2016
  • 빅데이터와 사회연결망 분석기법을 이용하여 사회적 이슈인 '노인 이미지'를 분석 하였다. '노인' 키워드를 입력하여 텍스트마이닝 기법으로 추출된 단어를 분석한 결과 대중의 트렌드를 대표하는 카페, 블로그 등의 매체를 통해 본 노인 이미지는 '어르신'이라는 단어를 가장 많이 사용하고 있었다. 상위 10위 빈도수를 보인 단어를 이용하여 노인의 이미지를 표현하면, "노인은 사회의 존경을 받는 어르신이며 돈을 벌기위해 자격증을 따려고 하고 건강을 챙기며 고령에도 불구하고 100세까지 건강하게 일을 하기를 원하는 어르신"으로 정리되었다. 본 연구는 방대한 양의 데이터를 수집하여 이를 사회연결망 기법으로 분석함으로써 사회적 담론을 포함한 거시적 수준의 '노인 이미지' 분석을 통해 기존의 분석방법과 차별화하고자 하였다. 대중이 느끼는 노인에 대한 이미지가 '어르신'으로 긍정적으로 표현되는 것을 볼 때, 현재 추진하는 노인정책의 방향이 바람직한 방향으로 평가 받고 있다고 할 수 있으며, 한편으로는 그렇게 평가받기를 원하는 대중의 '욕구'를 느낄 수 있었다. 따라서 향후에 적용할 노인 정책 방향은, 노인들이 사회적 역할을 감당하여 사회에서 '필요한 존재'로 인식될 수 있도록 하는 정책이 우선되어야 한다. 또한 건강을 유지하고 활동할 수 있는 일자리 창출과 복지, 소외에 대한 대책 등의 우선순위가 반영된 노인 정책을 추진할 것을 제언하였다.

작성자 분석과 CNN을 적용한 소스 코드 작성자 식별 프레임워크 (The Identification Framework for source code author using Authorship Analysis and CNN)

  • 신건윤;김동욱;홍성삼;한명묵
    • 인터넷정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.33-41
    • /
    • 2018
  • 최근 인터넷 기술이 발전함에 따라 다양한 프로그램들이 만들어지고 있고 이에 따라 다양한 코드들이 많은 사람들을 통해 만들어진다. 이러한 측면을 이용하여 특정 작성자가 작성한 코드들 그대로 가져가 자신이 작성한 것처럼 보여주거나, 참고한 코드들에 대한 정확한 표기 없이 그대로 사용하여 이에 대한 보호가 점차 어려워지고 있다. 따라서 본 논문에서는 작성자 분석 이론과 합성곱 신경망 기반 자연어 처리 방법을 적용한 작성자 식별 프레임워크룰 제안한다. 작성자 분석 이론을 적용하여 소스 코드에서 작성자 식별에 적합한 특징들을 추출하고 이를 텍스트 마이닝에서 사용하고 있는 특징들과 결합하여 기계학습 기반의 작성자 식별을 수행한다. 그리고 합성곱 신경망 기반 자연어 처리 방법을 소스 코드에 적용하여 코드 작성자 분류를 수행한다. 본 논문에서는 작성자 분석이론과 합성곱 신경망을 적용한 작성자 식별 프레임워크를 통해 작성자를 식별하기 위해서는 작성자 식별만을 위한 특징들이 필요하다는 것과 합성곱 신경망 기반 자연어 처리 방법이 소스 코드등과 같은 특수한 체계를 갖추고 있는 언어에서도 적용이 가능하다. 실험 결과 작성자 분석 이론 기반 작성자 식별 정확도는 95.1%였으며 CNN을 적용한 결과 반복횟수가 90번 이상일 경우 98% 이상의 정확도를 보여줬다.

지자체 기후변화 적응 대책 특성 및 개선 방향 (The Characteristics and Improvement Directions of Regional Climate Change Adaptation Policies in accordance with Damage Cases)

  • 안윤정;강영은;박창석;김호걸
    • 환경영향평가
    • /
    • 제25권4호
    • /
    • pp.296-306
    • /
    • 2016
  • 기후변화에 대한 영향 및 위험은 지역적, 국지적 차원에서 더욱 확장되므로 기후변화에 따른 지역적 영향 및 특성을 반영한 기후변화 적응대책 마련의 필요성이 커지고 있다. 이에 본 연구에서는 기초지자체 적응대책의 분야별 사업 수 및 예산의 특성을 분석하고 피해사례와 비교 검토하여 기후변화 적응대책의 개선방향을 제시하고자 했다. 기초지자체 적응대책 특성 분석을 위해 군집분석을 통하여 지자체 적응대책의 유형별 특성을 파악 했다. 적응대책의 계획이 실제 기후변화로 인한 피해 내용을 잘 반영하고 있는지 검토하기 위하여 과거 24년 동안 지자체별 관측 영향 결과(신문기사 2,565건)와 비교 분석을 수행했다. 군집분석 수행 결과 군집은 4가지 유형으로 구분되었다. 전국 피해 유형으로 재난재해, 건강 부분에서 공통적으로 피해 빈도가 높은 것으로 분석되었으며, 적응계획 또한 재난재해, 건강, 농업, 물 관리 순서로 높은 비율을 보였다. 하지만 피해 사례 반영의 비중과 단기 및 장기 미래에 대한 고려 수준에 따라서 각 군집별로 피해빈도와 적응계획의 특성에서 차이를 보였다. 본 연구의 결과는 향후 기초지자체 특성 및 지역별 실질적 피해에 기반 한 적응대책 마련의 기초자료로 활용될 수 있을 것이라고 판단된다.

B2B 전자상거래 정보를 활용한 시장 융합 기회 발굴 방법론 (Discovery of Market Convergence Opportunity Combining Text Mining and Social Network Analysis: Evidence from Large-Scale Product Databases)

  • 김지은;현윤진;최윤정
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.87-107
    • /
    • 2016
  • 융합을 통한 기술과 제품의 혁신을 이해하는 것은 중소기업의 생존을 위한 필수가 되었다. 특히, 이종 산업간 융합을 통한 제품 혁신과 성공을 위해서는 융합 가능한 아이템 즉, 제품과 기술, 아이디어를 탐색하고 대안을 찾는 것이 중요하다. 기존의 융합연구는 크게 두 가지의 한계를 갖는다. 첫째, 특허와 논문 등 기술정보를 기반으로 하는 기술융합 발굴은 시장의 수요를 인식하는데 한계가 있다. 본 논문은 중소 창업기업에 적용할 수 있는 시장융합(Market convergence)의 관점에서 새로운 융합 기회를 식별하려고 시도하였다. 이를 위해 세계 중소 수출입 기업이 이용하는 글로벌 B2B e-마켓플레이스의 제품 데이터베이스를 활용하였다. 둘째, 기존의 융합기회 발굴 연구는 이미 융합되어 존재하는 제품 또는 기술 기반의 연관성 및 관계를 파악하는데 집중하였다. 본 연구에서는 융합 가능한 새로운 사업기회의 발굴을 목적으로 구조적공백(Structural Hole) 이론을 적용하여, 상이한 산업군에서 서로 직접적인 연결 관계가 없는 키워드 간의 네트워크를 분석하여 융합의 가능성이 있는 새로운 융합 사업 테마를 도출하고자 한다. 이를 위해 제품명과 제품 기술서를 기반으로 제품 및 기술 용어 사전과 텍스트마이닝 을 활용하여 제품과 서비스의 특성을 추출하고, 이들 특성간 연관관계분석을 수행한 후, 네트워크 분석을 진행 하였다. 실험 데이터는 시장의 최신 동향을 파악하기 위해 2013년 1월 부터 2016년 7월까지 등록된 24만건의 e-카탈로그를 대상으로 하였으며, 분석의 효율성을 높이기 위해 기술 범위를 IT로 제한하고, IT 기술을 매개로 한 "Health & Medical"과 "Security & Protection" 카테고리 간의 융합 기회를 도출 하였다. 실험을 통하여 융합연관규칙 1,729을 추출하였으며, 지지도를 기반으로 100개의 규칙을 샘플링 하여, 구조적 공백을 분석하였다.

공원 이슈에 대한 주요 언론의 담론변화분석 - 1995년부터 2019년까지 신문 기사를 중심으로 - (Analysis of Changes in Discourse of Major Media on Park Issues - Focusing on Newspaper Articles Published from 1995 to 2019 -)

  • 고하정
    • 한국조경학회지
    • /
    • 제49권5호
    • /
    • pp.46-58
    • /
    • 2021
  • 국내에 근대식 공원이 도입된 이후, 공원은 우리에게 필수적인 존재가 되었다. 민선시기 이후, 공원조성 등 공원을 둘러싼 이슈가 생산되고 언론을 통해 확산되어 담론을 형성하는 과정을 거쳤다. 이에 본 연구는 민선시장 체제인 1995년 이후의 '공원' 관련 이슈를 다룬 국내 중앙지의 보도기사를 수집하여 토픽분석과 의미연결망 분석을 통해 공원에 대한 시계열적 담론 변화 추이를 분석하였다. LDA 토픽모델링 분석결과, 5개의 토픽-도시공원확충(토픽1), 역사문화공원(토픽2), 이용프로그램(토픽3), 동물원 사건사고(토픽4), 공원조성과정갈등(토픽5)-으로 분류되었다. 언론에서 다룬 주요 공원담론은 다음과 같다. 첫째, 공원의 양적 확장에 대한 조성과정과 갈등이 주요 담론으로 다뤄지고 있다. 둘째, 신규 공원 조성시마다 공원명이 신규 단어로 출현하고 이후 지속적으로 언급되면서 담론형성에 한 축을 담당하고 있다. 셋째, 민선시대 공원 관련 언론에서 '주민'은 주요 주체로 '도시', '환경'과 함께 언급되며, 공원의 공공성에 대한 담론을 형성하고 있다. 본 연구는 공원이 언론을 통해 어떻게 해석되는지 담론변화를 살펴보았다는 점에서 의의를 가진다. 추후 본 연구에서 다룬 중앙지 외에 지역지, 전문지 등 다른 매체에 대한 연구를 통해 공원에 대한 다양한 관점의 담론이 다뤄지길 기대한다.

토픽 모델링을 활용한 스마트시티 연구동향 분석 (A Study on the Research Trends for Smart City using Topic Modeling)

  • 박건철;이치형
    • 인터넷정보학회논문지
    • /
    • 제20권3호
    • /
    • pp.119-128
    • /
    • 2019
  • 본 연구의 목표는 스마트시티에 대한 연구 동향을 파악하고 이를 바탕으로 스마트시티에 대한 정책적 산업적 학술적 방향성을 제시하는 데 있다. 산업화와 더불어 급격하게 진행된 도시화 및 도시인구 증가로 세계 주요 도시들은 대부분 교통, 환경, 주거 등 다양한 도시문제에 직면하고 있다. 세계 각 도시는 이러한 도시문제를 해결하여 시민 삶의 질을 향상시킨다는 공통된 목표를 추구하기 위해 스마트시티의 도입을 서두르고 있다. 하지만 스마트시티에 대한 다양한 개념적 접근은 정책 목표 설정 및 추진전략 수립을 위한 방향성 도출에 불확실성을 야기하고 있다. 본 연구는 이러한 문제 인식하에 스마트시티 정책에 대한 방향성을 제시하고자 Scopus DB 및 Springer DB에서 스마트시티와 관련된 학술논문 11,527건의 제목과 초록, 발행연도 등의 정보를 수집하여 연구현황, 연구주제, 연구분야 추이 등을 LDA기반 토픽모델링 기법을 활용하여 분석하였다. 분석결과, 스마트시티 관련 연구주제는 크게 서비스 및 애플리케이션 분야, 기술 분야, 시민 사용자 관점의 8가지 세부주제로 유형화되었으며, 이중 '시민중심 스마트시티 추진을 통한 지속가능성의 확보'와 관련된 주제가 가장 많이 언급된 주제로 분석되었다. 또한 주제 간 연관관계를 분석한 결과, 데이터와 프라이버시 관련 연구의 중심성이 가장 높게 나타났다. 이는 데이터가 전반적인 스마트시티의 공동기반으로서 역할을 하며 기술, 서비스, 정책과 관련된 다양한 의사결정에 영향을 미치는 한편, 위치정보 등 개인 정보가 수집되는 과정에서 프라이버시 침해 등이 잠재적인 위협요인이 될 수 있음을 암시한다. 스마트시티 연구현황에 대한 객관적 분석을 통해 스마트시티 개념의 발전 방향을 이해하고 향후 대응방안을 모색함으로써, 스마트시티 추진 및 연구에 정책적, 산업적, 학술적 근거자료를 제공할 수 있을 것으로 기대된다.

토픽모델링을 이용한 도시 분야 연구동향 분석 (An Analysis of the Research Trends for Urban Study using Topic Modeling)

  • 장선영;정승현
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.661-670
    • /
    • 2021
  • 연구동향은 시기별 연구주제에 대한 중요도 판단과 부족한 연구 분야를 파악하고 신규 분야를 발굴하는데 유용하게 활용될 수 있다. 본 연구에서는 인구집중과 도시화로 인해 다양한 문제가 발생하고 있는 도시공간을 대상으로 한 논문들을 대상으로 시기별 연구동향을 분석하였다. 이를 위해 2002년부터 2019년 사이에 게재된 한국학술지인용색인(KCI)에 등재된 논문의 초록을 대상으로 데이터마이닝 기법 중 하나인 토픽모델링 분석을 수행하였다. 토픽모델링은 전체 내용에서 일정한 패턴을 발견해낼 수 있는 알고리즘 기반의 텍스트마이닝 기법으로 방대한 문헌에서 주제를 찾아내고 군집하는데 용이하다. 본 연구에서는 키워드 빈도, 연도별 경향, 토픽 도출, 토픽별 군집, 토픽유형별 경향에 대한 분석을 실시하였다. 그 결과 먼저 도시재생 분야연구가 지속적으로 증가되고 있고 앞으로도 세부 주제가 확대될 수 있는 분야로 분석되었다. 그리고 도시재생 주제는 이제 정규 연구분야로 자리 잡고 있는 것으로 파악되었다. 반면, 개발/성장과 에너지/환경과 같은 주제는 정체기에 들어간 것으로 분석되었다. 본 연구는 국내 전체 도시분야 연구를 대상으로 데이터마이닝 기법인 토픽모델링을 이용하여 키워드 간 연관성과 경향을 함께 분석하였다는 데 의의가 있다.

강원도 관광에 대한 소셜 미디어 빅데이터 분석 (Big Data Analysis of Social Media on Gangwon-do Tourism)

  • 김천성;정은희
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권3호
    • /
    • pp.193-200
    • /
    • 2021
  • 최근 소셜미디어에서 관광지에 관한 게시글과 의견이 활발하게 공유된다. 이러한 소셜 빅데이터는 소비자가 인식하는 관광지의 객관적인 이미지를 파악할 수 있는 유의미한 정보를 제공한다. 이에 따라 본 연구는 소셜미디어의 빅데이터를 이용해서 강원도 지역에 대한 관광 이미지를 분석하는 것이다. SNS 및 빅데이터의 대표적인 분석 방법인 텍스트마이닝과 의미연결망 분석 절차를 사용해서 강원도의 관광 이미지를 분석하고 차별화된 경쟁력을 확보할 수 있는 이미지 향상에 대한 방안을 제공하고자 하였다. 분석결과에 따르면, 강원도 지역의 관광으로 속초, 강릉, 양양 순으로 지명 언급이 높은 수준으로 나타났고, 여행목적은 맛집투어, 식도락, 가족여행, 휴가, 체험 등으로 나타났다. 특히, 당일여행, 주말, 체험 등을 선호하는 것으로 나타났다. 분석결과를 바탕으로 네 가지 제안을 하였다. 첫째, 강원도 관광의 활성화를 위하여 가격대별로 다양한 호텔, 숙박 시설과 체험 관광 마케팅이 필요하다. 둘째, 강원도의 자연경관과 수도권 근접성을 활용한 당일상품을 개발할 필요가 있다. 셋째, 강원도 향토음식과 전통식당의 홍보가 필요하다. 마지막으로 힐링과 가족여행에 적합한 관광 마케팅 개발이 필요하다. 본 연구 결과를 통해 강원도의 관광 이미지를 현황을 파악하고 경쟁력을 향상할 수 있는 마케팅 전략을 제시하였다. 또한, 관광 소비자의 빅데이터를 관광사업 분야에서 활용할 수 있는 이론적 근거를 제공하였다.

패션 영역에서 디지털 전환 관련 연구동향 및 지식구조 (Research Trends and Knowledge Structure of Digital Transformation in Fashion)

  • 최영현;정진하;이규혜
    • 디지털융복합연구
    • /
    • 제19권3호
    • /
    • pp.319-329
    • /
    • 2021
  • 본 연구에서는 정보학적 접근을 통해 디지털 전환을 다룬 국내 패션 관련 연구동향과 지식구조를 밝히는 것을 목적으로 하였다. 국내 학술연구에서 나타난 관련 연구의 연도별, 학술지별 현황을 파악하고, 네트워크 분석을 통해 주요 연구 주제어를 도출하며, 시기별 주요 연구 동향과 지식 구조를 분석했다. 2010년부터 2020년까지 국내 학술 플랫폼에 게재된 159편의 연구를 수집했고, Python 3.7을 통해 데이터를 정제했으며, NodeXL 1.0.1을 통해 중심성 측정 및 네트워크 구현을 진행했다. 분석 결과 관련 연구는 2016년을 기점으로 활발하게 진행되었으며, 주로 의류학, 예술학 학술지에 밀집된 것으로 나타났다. 온라인 플랫폼, AR/VR이 가장 많이 언급되는 주제어로 나타났으며, 소비자 심리분석, 마케팅 전략 제시, 사례 분석이 주요 연구 방법으로 사용되고 있었다. 군집화를 통해 의류학의 세부 분과별 주요 연구 내용을 도출할 수 있었다. 시기별 주요 주제 분석 결과, 시간이 지남에 따라 소비자 중심의 연구에서 플랫폼이나 서비스에 대한 전략 제시 또는 디자인 개발 연구로 보다 다양하게 변화하고 있었다. 본 연구는 디지털 전환에 대한 패션 분야의 통찰력을 높이는데 기여하고, 관련 주제의 연구를 설계하는데 기초연구로 사용될 수 있을 것이다.