• 제목/요약/키워드: 검색 키워드 추출

검색결과 293건 처리시간 0.017초

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

한국 인삼시의 전개와 의미망 (The Development and Sementic Network of Korean Ginseng Poems)

  • 하응백
    • 인삼문화
    • /
    • 제4권
    • /
    • pp.13-37
    • /
    • 2022
  • 한민족은 역사 기록 이전부터 인삼을 복용했다. 한편 중국으로부터 전해진 한시(漢詩)는 신라, 고려, 조선 지식인들의 생각을 간결하게 표현하는 문학 양식으로 발전, 전개되었다. 본 논문은 '인삼을 소재로 하거나 주제로 한 한국인의 한시는 어떤 것이 있고 어떤 내용을 담고 있을까?' 하는 의문에 답하기 위해 인삼(人蔘), 산삼(山蔘), 홍삼(紅蔘), 백삼(白蔘) 등을 키워드로 한국고전번역원의 '한국고전종합DB'를 검색해 인삼에 관한 시를 찾아내어 그 의미망을 살펴보았다. 인삼관련 한시를 편의상 '인삼시(人蔘詩)'로 명명(命名)했다. 2021년 11월 현재, 검색을 통해 찾아진 '인삼시'는 삼국시대 2편, 고려시대 2편, 조선시대 23편이었다. 역사적으로 볼 때 인삼시의 시초는 6세기경 고구려에서 백성이 노래로 불렀던 「고려인삼찬(高麗人蔘讚)」이란 시다. 고려시대 인삼시는 안축(安軸)의 시로 대표된다. 안축은 인삼 조공의 부작용을 사실적인 관점에서 노래했다. 조선시대의 인삼시는 전기 서거정과 후기 정약용으로 대표된다. 서거정의 인삼시는 인삼의 신비적인 약리작용을 찬양하는 낭만적 인삼시다. 용재 성현의 「인삼(人蔘)」이라는 시도 인삼의 신비한 약효를 찬양하는 낭만적 인삼시다. 다산 정약용의 인삼시는 실학자답게 대단히 실용적이다. 다산은 가장 많은 다섯 편의 인삼시를 남겼다. 다산은 직접 인삼 농사를 시도했고 그 과정을 시로 남겼다. 그 시에서는 인삼 농사 실패와 성공의 스토리를 지켜볼 수 있다. 다산의 인삼 농사는 정조 이후 자연삼의 고갈과 재배삼의 보편화에 따른 전국적 현상이기도 했다. 19세기 초반부터는 개성을 중심으로 하여 대규모로 인삼 농사가 성행했고, 여타 지역에서도 소규모로 이루어졌다. 특이한 것은 김진수의 시다. 청나라의 수도 북경 동인당에서 조선의 인삼이 '松嶽山蔘(송악산삼)'이란 상표로 절찬리에 판매되고 있는 것을 시로 표현했다. 매천 황현도 1900년 한시로 된 인삼시를 남겼다. 한국 한시의 전통에서 인삼시의 전개를 의미망으로 파악하여 도식화하면 이렇게 된다. 1) 위민(爲民) 정신의 인삼시 - 고려의 신흥사대부(안축) 2) 낭만적 인삼시 - 조선 초기의 관학파(서거정, 성현 등) 3) 실용적 인삼시 - 조선 후기의 실학파(정약용, 김진수, 황현 등) 한국 인삼시의 전개를 살피면서 그 의미망을 추출해 보았다.

경의선숲길 조성 전후의 연남동 방문자의 경험 분석 - 블로그 텍스트 분석을 중심으로 - (The Analysis of the Visitors' Experiences in Yeonnam-dong before and after the Gyeongui Line Park Project - A Text Mining Approach -)

  • 김세령;최윤원;윤희연
    • 한국조경학회지
    • /
    • 제47권4호
    • /
    • pp.33-49
    • /
    • 2019
  • 선형공원은 도시조직과 교류가 활발한 만큼, 인근 지역에 다양한 영향을 미친다. 공원 관리에 있어 지역 방문자의 경험과 행태를 파악하는 것은 필수적이다. 본 연구에서는 이 점에서 착안하여 선형공원의 조성 전후를 포괄하는 기간 동안 인근 지역 방문자의 경험이 변화하는 추이를 알아보고자 하였다. 이를 위하여 블로그 글을 대상으로 텍스트 마이닝 기법을 사용하였으며, 연구 대상지는 경의선숲길과 연남동으로 하였다. 2013년 6월부터 2017년 5월까지 '연남동', '경의선', '연트럴파크'라는 키워드로 검색된 네이버 블로그 포스팅을 수집한 후 정제 및 무작위 추출을 이용해 분석 대상 자료를 선별하였다. 이를 1년 단위의 4개 시기로 구분한 후, 각 시기별 형태소 분석 및 사전구축, 빈도 분석을 실시했다. 그 후 중심성 분석과 응집성 분석을 수행해 연남동 방문자들의 주요 경험을 도출하였다. 연구 결과는 다음과 같다. 전체 기간 동안 연남동 방문자들의 가장 주된 경험은 꾸준히 식문화였지만, 마켓, 구경, 구매 등이 부수적인 활동들이 점점 많이 일어나고 있었다. 또한 경의선숲길 조성 후 공원에서 발생하는 산책, 놀기, 쉬기 등의 활동이 새롭게 등장했다. 뿐만 아니라, 공원 조성 후 연남동에 관해 더욱 다양한 의견이 블로그 상에서 오고 갔으며, 연남동은 여러 가지의 활동을 향유할 수 있는 공간으로 인식되고 있었다. 마지막으로 연남동 방문자들이 '식문화'에 대해 얘기할 때 함께 등장하는 하위 주제가 '먹다', '사진', '수다' 등의 단순한 주제에서 '마켓', '구경', '걷다' 등으로 그 범위가 넓어졌으며, '공원'과 함께 등장하는 주제 역시 초기에는 쉬기, 걷기 등의 일차적인 활동이었으나, 경의선 책거리의 등장과 함께 다양한 주제로 확대되었다. 본 연구는 텍스트 마이닝이라는 정량적 방법론으로 지역 방문자의 경험 변화를 공원 조성 전후를 포괄하여 비교적 객관적으로 분석했다. 하지만 텍스트 마이닝의 특성상 정제의 과정을 거치며, 부득이하게 주관이 이입된 점은 추후 보완되어야 한다. 또한 이러한 변화들과 공원 조성과의 직접적인 인과관계를 더욱 세밀하게 밝혀내는 후속 연구가 필요하다.