• 제목/요약/키워드: 단어 검색

검색결과 558건 처리시간 0.028초

동시출현단어 분석을 이용한 오픈 데이터 분야의 지적 구조 분석 (Intellectual Structure Analysis on the Field of Open Data Using Co-word Analysis)

  • 이혜경;이용구
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.429-450
    • /
    • 2023
  • 본 연구의 목적은 오픈 데이터 관련 연구의 최근 동향과 지적 구조를 고찰하는 것이다. 이를 위하여 본 연구는 Scopus에서 저자 키워드로 'open data'를 검색하여 1999년부터 2023년까지 총 6,543건의 논문을 수집하였으며, 데이터 전처리 이후 5,589편 논문의 저자 키워드를 대상으로 오픈 데이터 관련 연구 분야 및 링크드 오픈 데이터 관련 연구 분야의 중심성 도출과 네트워크 분석을 수행하였다. 그 결과, 오픈 데이터 관련 연구에서는 'big data'가 가장 높은 중심성을 보였으며, 주로 공공데이터 개념의 오픈 데이터로서의 활용 및 정책 적용 연구, 빅데이터와의 연관개념으로서의 오픈 데이터를 활용한 데이터 분석에 관한 연구, 오픈 데이터의 재생산이나 활용 및 접근과 같은 오픈 데이터의 이용과 관련한 주제의 연구가 이뤄지고 있음이 나타났다. 그리고 링크드 오픈 데이터 관련 연구는 삼각매개중심성 및 최근접이웃중심성에서 모두 'semantic web'이 가장 높은 것으로 나타났으며, 정부 정책의 공공데이터보다 데이터 연계와 관계 형성을 중점으로 한 연구가 많이 수행된 것으로 나타났다.

온라인 과학 기사 텍스트 마이닝을 통해 분석한 에너지 용어 사용의 맥락 (Analyzing Different Contexts for Energy Terms through Text Mining of Online Science News Articles)

  • 오치영;강남화
    • 과학교육연구지
    • /
    • 제45권3호
    • /
    • pp.292-303
    • /
    • 2021
  • 본 연구에서는 일상생활에서 에너지 용어가 사용되는 맥락을 알아보기 위하여 온라인 과학 기사를 수집하여 언어 네트워크, 토픽 모델링 분석 기법을 활용해 에너지 관련 기사에 사용된 용어의 빈도, 용어 네트워크, 기사의 주제를 분석하였다. 분석에 사용된 자료는 2018.3.1.부터 1년간의 온라인 과학 분야의 기사 중 에너지를 검색어로 하여 10개의 국내 중앙지에서 검색 및 선정된 2,171편이다. 이 기사들을 자연어 처리하여 51,224개의 문장과 507,901개의 단어로 데이터를 구성하였다. R 프로그램을 활용하여 용어 빈도수 분석 및 언어 네트워크 분석을 실시하였고, 에너지 용어 사용의 맥락 탐색을 위해 구조적 토픽 모델링 분석을 적용해 기사의 주제를 도출하였다. 기사에 사용된 용어 중 빈도수가 유난히 높은 용어는 기술, 연구, 개발로 새로운 소식을 알리는 기사의 특성을 반영한 것으로 나타났다. 한편, 기사 2편당 한 번 이상의 빈도로 사용되는 용어에는 산업 관련 용어(산업, 제품, 시스템, 생산, 시장)와 '전기', '환경'과 같이 에너지 관련 용어로 충분히 기대되는 용어들이 있었다. 한편, 에너지 관련 과학 수업에서 자주 사용되는 '태양', '열', '온도', '발전'도 빈도수 상위에 속하는 용어로 드러났다. 용어 네트워크 분석에서는 산업 및 기술과 관련된 용어와 기초과학 및 연구 관련 용어들이 약한 강도이지만 서로 군집을 이루는 것을 확인하였다. 한편, 에너지와 쌍을 이루는 용어의 분석에서는 '에너지 효율'을 비롯해 '에너지 절감', '에너지 소비' 등과 같이 에너지의 사용에 관한 용어들이 다수를 이루고 그 사용 빈도가 가장 높았다. 에너지 용어가 사용되는 맥락은 16개의 주제를 분류한 4가지 영역으로 '첨단산업', '산업', '기초과학', '환경 및 건강'으로 나타났다. 에너지 사용 관련 용어가 상당히 많이 사용된다는 결과는 에너지 수업의 시작점으로 에너지 저급화 개념의 도입이 효과적일 수 있음을 시사한다. 또한, 첨단산업이나 환경 및 건강의 맥락을 에너지 학습에 도입할 필요성도 보여준다. 본 연구에서 드러난 16개 주제에서 보이는 다양한 에너지 용어가 사용되는 맥락을 재구성해 에너지 관련 수업에 활용한다면 학생들이 학교에서의 에너지 학습과 일상적 상황을 통합적으로 인식하는 데 도움이 될 것이다.

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 (A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis)

  • 감미아;송민
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.53-77
    • /
    • 2012
  • 본 연구는 경향신문, 한겨레, 동아일보 세 개의 신문기사가 가지고 있는 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시하고자 시행되었다. 본 연구는 텍스트 마이닝 기법을 활용하여 신문기사의 키워드 단순빈도 분석과 Clustering, Classification 결과를 분석하여 제시하였으며, 경제, 문화 국제, 사회, 정치 및 사설 분야에서의 신문사 간 차이점을 분석하고자 하였다. 신문기사의 문단을 분석단위로 하여 각 신문사의 특성을 파악하였고, 키워드 네트워크로 키워드들 간의 관계를 시각화하여 신문사별 특성을 객관적으로 볼 수 있도록 제시하였다. 신문기사의 수집은 신문기사 데이터베이스 시스템인 KINDS에서 2008년부터 2012년까지 해당 주제로 주제어 검색을 하여 총 3,026개의 수집을 하였다. 수집된 신문기사들은 불용어 제거와 형태소 분석을 위해 Java로 구현된 Lucene Korean 모듈을 이용하여 자연어 처리를 하였다. 신문기사의 내용 및 논조를 파악하기 위해 경향신문, 한겨레, 동아일보가 정해진 기간 내에 일어난 특정 사건에 대해 언급하는 단어의 빈도 상위 10위를 제시하여 분석하였고, 키워드들 간 코사인 유사도를 분석하여 네트워크 지도를 만들었으며 단어들의 네트워크를 통해 Clustering 결과를 분석하였다. 신문사들마다의 논조를 확인하기 위해 Supervised Learning 기법을 활용하여 각각의 논조에 대해 분류하였으며, 마지막으로는 분류 성능 평가를 위해 정확률과 재현률, F-value를 측정하여 제시하였다. 본 연구를 통해 문화 전반, 경제 전반, 정치분야의 통합진보당 이슈에 대한 신문기사들에 전반적인 내용과 논조에 차이를 보이고 있음을 알 수 있었고, 사회분야의 4대강 사업에 대한 긍정-부정 논조에 차이가 있음을 발견할 수 있었다. 본 연구는 지금까지 연구되어왔던 한글 신문기사의 코딩 및 담화분석 방법에서 벗어나, 텍스트 마이닝 기법을 활용하여 다량의 데이터를 분석하였음에 의미가 있다. 향후 지속적인 연구를 통해 분류 성능을 보다 높인다면, 사람들이 뉴스를 접할 때 그 뉴스의 특정 논조 성향에 대해 우선적으로 파악하여 객관성을 유지한 채 정보에 접근할 수 있도록 도와주는 신뢰성 있는 툴을 만들 수 있을 것이라 기대한다.

기간별 이슈 매핑을 통한 이슈 생명주기 분석 방법론 (Analyzing the Issue Life Cycle by Mapping Inter-Period Issues)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.25-41
    • /
    • 2014
  • 최근 스마트 기기를 통해 소셜미디어에 참여하는 사용자가 급격히 증가하고 있다. 이에 따라 빅데이터 분석에 대한 관심이 높아지고 있으며 최근 포털 사이트에서 검색어로 자주 입력되거나 다양한 소셜미디어에서 자주 언급되는 단어에 대한 분석을 통해 사회적 이슈를 파악하기 위한 시도가 이루어 지고 있다. 이처럼 다량의 텍스트를 통해 도출된 사회적 이슈의 기간별 추이를 비교하는 분석을 이슈 트래킹이라 한다. 하지만 기존의 이슈 트래킹은 두 가지 한계를 가지고 있다. 첫째, 전통적 방식의 이슈 트래킹은 전체 기간의 문서에 대해 일괄 토픽 분석을 실시하고 각 토픽의 기간별 분포를 파악하는 방식으로 이루어지므로, 새로운 기간의 문서가 추가되었을 때 추가된 문서에 대해서만 분석을 추가 실시하는 것이 아니라 전체 기간의 문서에 대한 분석을 다시 실시해야 한다는 실용성 측면의 한계를 갖고 있다. 둘째, 이슈는 끊임 없이 생성되고 소멸될 뿐 아니라, 때로는 하나의 이슈가 둘 이상의 이슈로 분화하고 둘 이상의 이슈가 하나로 통합되기도 한다. 즉, 이슈는 생성, 변화(병합, 분화), 그리고 소멸의 생명주기를 갖게 되는데, 전통적 이슈 트래킹은 이러한 이슈의 가변성을 다루지 않았다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 대상 기간 전체의 문서를 한꺼번에 분석하는 방식이 아닌 세부 기간별 문서에 대해 독립적인 분석을 수행하고 이를 통합할 수 있는 방안을 제시하였으며, 이를 통해 새로운 이슈가 생성되고 변화하며 소멸되는 전체 과정을 규명하였다. 또한 실제 인터넷 뉴스에 대해 제안 방법론을 적용함으로써, 제안 방법론의 실무 적용 가능성을 분석하였다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

연구주제 분석을 통한 한국창작무용 경향 탐색 : 텍스트 마이닝의 적용 (Exploring the Trend of Korean Creative Dance by Analyzing Research Topics : Application of Text Mining)

  • 유지영;김우경
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권6호
    • /
    • pp.53-60
    • /
    • 2020
  • 이 연구는 현상의 흐름과 연구의 경향이 맥락적으로 일치한다는 가정을 바탕에 두고 있다. 이에 텍스트 마이닝을 활용하여 한국창작무용 연구의 주제 분석을 통해 춤의 경향을 탐색하는 것에 목적이 있다. 이에 논문 검색 웹사이트에 구축되어 있는 616편의 논문제목에서 1,291개의 단어를 분석하였다. 데이터의 수집 및 정제, 분석은 모두 R 3.6.0 SW을 사용하였다. 연구결과 첫째, 2000년대 이전에는 시대를 나타내는 키워드가 높은 빈도를 나타내었으나 교육 및 신체훈련 측면에서의 한국창작무용 연구유형도 발견되었다. 둘째, 2000년대 이후에는 무용단의 공연활동과 관련된 키워드의 빈도가 높게 나타났으나 최승희가 여전히 한국창작무용 연구에서 중요한 위치에 있다는 것이 확인되었다. 셋째, 한국창작무용 연구의 전체 연구주제를 분석한 결과 '근대시대 최승희의 예술', '현대 전통의 수용 양상과 가치', '전통춤의 안무적 표현 및 활용', '국립무용단의 공연 활동', '시대별 춤 표현', '교육 프로그램의 적용'으로 총 6개의 토픽이 추출되었다. 이 중 '근대시대 최승희의 예술'에 관한 연구가 가장 높은 비중을 차지하고 있는 것으로 나타났다. 넷째, 2000년을 기준으로 상승하고 있는 Hot 토픽은 '국립무용단의 공연 활동'과 '전통춤의 안무적 표현 및 활용'으로 나타났다. 그러나 최근 국립무용단의 공연 기조가 '전통을 기반으로 한 현대화'를 표방하고 있으므로 2000년대 이후 한국창작무용의 경향이 전통춤을 모티프로 한 안무적 표현과 그 활용에 공통적으로 집중되어 있음이 확인되었다. 다섯째, 2000년을 기준으로 하락하고 있는 Cold 토픽은 '시대별 춤 표현'에 관한 연구로 나타났다. 이것은 한국창작춤의 장르적 정착 이후 다양한 춤 스타일의 혼재에 따른 경향으로 연구에 대한 관심도 역시 저하된 것으로 판단되었다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

사용자 행동 기반의 사회적 관계를 결합한 사용자 협업적 여과 방법 (Incorporating Social Relationship discovered from User's Behavior into Collaborative Filtering)

  • 타이쎄타;하인애;조근식
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.1-20
    • /
    • 2013
  • 소셜 네트워크는 사용자들의 공통된 관심사, 경험, 그리고 일상 생활들을 함께 공유하기 위해 소셜 네트워크 상 사람들을 서로 연결시켜주는 거대한 커뮤니케이션 플랫폼이다. 소셜 네트워크상의 사용자들은 포스팅, 댓글, 인스턴스 메시지, 게임, 소셜 이벤트 외에도 다양한 애플리케이션을 통해 다른 사용자들과 소통하고 개인 정보 관리하는데 많은 시간을 소비한다. 소셜 네트워크 상의 풍부한 사용자 정보는 추천시스템이 추천 성능을 향상시키기 위해 필요한 큰 잠재력이 되었다. 대부분의 사용자들은 어떤 상품을 구매하기 전 가까운 관계이거나 같은 성향을 가진 사람들의 의견을 반영하여 의사 결정을 하게 된다. 그러므로 소셜 네트워크에서의 사용자 관계는 추천시스템을 위한 사용자 선호도 예측을 효율적으로 높이는데 중요한 요소라 할 수 있다. 일부 연구자들은 소셜 네트워크에서의 사용자와 다른 사용자들 사이의 상호작용 즉, 소셜 관계(social relationship)와 같은 소셜 데이터가 추천시스템에서 추천의 질에 어떠한 영향을 미치는가를 연구하고 있다. 추천시스템은 아마존, 이베이, Last.fm과 같은 큰 규모의 전자상거래 사이트 또한 채택하여 사용되는 시스템으로, 추천시스템을 위한 방법으로는 협업적 여과 방법과 내용 기반 여과 방법이 있다. 협업적 여과 방법은 사용자들의 선호도 학습에 의해 사용자가 아직 평가하지 않은 아이템 중 선호할 수 있는 아이템을 정확하게 제안하기 위한 추천시스템 방법 중 하나이다. 협업적 여과는 사용자들의 데이터에 초점을 맞춘 방법으로 유사한 배경과 선호도를 가지는 사용자들로부터 정보를 수집하여 사용자들의 선호도 예측을 자동으로 발생시킨다. 특히 협업적 여과는 근접한 이웃 사용자들에 의해서 목적 사용자가 선호할 수 있는 아이템을 제시하는 것으로 유사한 이웃 사용자를 찾는 것이 중요하다. 좋은 이웃 사용자 발견은 사용자와 아이템을 고려하는 방법이 일반적이다. 각 사용자는 아이템 즉, 영화, 상품, 책 등에 자신의 선호도를 나타내기 위하여 평가 값을 입력하고, 시스템은 이를 바탕으로 사용자-평가 행렬을 구축한다. 이 사용자-평가 행렬은 목적 사용자와 유사하게 아이템을 평가한 사용자 그룹을 찾기 위한 것으로, 목적 사용자가 아직 평가하지 않은 아이템에 대하여 사용자-평가 매트릭스를 통해 그 평가 값을 예측한다. 현재 이 협업적 여과 방법은 전자상거래와 정보 검색에서 적용되어 개인화 시스템에 효율적으로 사용되고 있다. 하지만 초기 사용자 문제, 데이터 희박성 문제와 확장성 그리고 예측 정확도 향상 등 해결해야 할 과제가 여전히 남아 있다. 이러한 문제들을 해소하기 위해 많은 연구자들은 하이브리드, 신뢰기반, 소셜 네트워크 기반 협업적 여과와 같은 다양한 방법을 제안하였다. 본 논문에서는 전통적인 협업적 여과 방식의 예측 정확도와 추천 성능을 향상시키기 위해 소셜 네트워크에 존재하는 소셜 관계를 이용한 협업적 여과 시스템을 제안한다. 소셜 관계는 소셜 네트워크 서비스 중 하나인 페이스북 사용자들이 남긴 포스팅과 사용자의 소셜 네트워크 친구와 의견 교류 중 남긴 코멘트와 같은 사용자 행동을 기반으로 정의된다. 소셜 관계를 구축하기 위해 소셜 네트워크 사용자의 포스팅과 댓글을 추출하고, 추출된 텍스트에 불용어 및 특수 기호 제거와 스테밍 등 전처리를 수행하였다. 특징 벡터는 TF-IDF를 이용하여 전처리된 텍스트에 나타난 각 단어에 대한 특징 점수를 계산함으로써 구축된다. 본 논문에서 이웃 사용자를 결정하기 위해 사용되는 사용자 간 유사도는 특징 벡터를 이용한 사용자 행동 유사도와 사용자의 영화 평가를 기반으로 한 전통적 방법의 유사도를 결합하여 계산된다. 제안하는 시스템은 목표 사용자와 제안한 방법을 통해 결정된 이웃 사용자 집단을 기반으로 목표 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고 Top-N 아이템을 선별하여 사용자에게 아이템을 추천하게 된다. 본 논문에서 제안하는 방법을 확인하고 평가하기 위하여 IMDB에서 제공하는 영화 정보 기반으로 영화 평가 시스템을 구축하였다. 예측 정확도를 평가하기 위해 MAE 값을 이용하여 제안하는 알고리즘이 얼마나 정확한 추천을 수행하는지에 대한 예측 정확도를 측정하였다. 그리고 정확도, 재현율 및 F1값 등을 활용하여 시스템의 성능을 평가하였으며, 시스템의 추천 품질은 커버리지를 이용하여 평가되었다. 실험 결과로부터 본 논문에서 제안한 시스템이 보다 더 정확하고 좋은 성능으로 사용자에게 아이템을 추천하는 것을 볼 수 있었다. 특히 소셜 네트워크에서 사용자 행동을 기반으로 한 소셜 관계를 이용함으로써 추천 정확도를 6% 향상시킴을 보였다. 또한 벤치마크 알고리즘과의 성능비교 실험을 통해 7% 향상된 추천 성능의 결과를 보여준다. 그러므로 사용자의 행동으로부터 관찰된 소셜 관계를 CF방법과 결합한 제안한 방법이 정확한 추천시스템을 위해 유용하며, 추천시스템의 성능과 품질을 향상시킬 수 있음을 알 수 있다.