• 제목/요약/키워드: 동시출현 단어 분석

검색결과 115건 처리시간 0.025초

국내 정보학분야 연구동향 분석, 2000-2011 (Detecting Research Trends in Korean Information Science Research, 2000-2011)

  • 서은경;유소영
    • 정보관리학회지
    • /
    • 제30권4호
    • /
    • pp.215-239
    • /
    • 2013
  • 21세기에 들어서서 디지털 정보환경이 발빠르게 변화함에 따라 국내 정보학 연구 역시 많은 발전과 변화를 겪고 있는 것을 산학계 모두 인지하고 있지만 실제 2000년부터 현재까지 어느 정도로 변화되었는지를 분석한 논문은 많지 않다. 이에 따라 본 연구는 2000년에서부터 2011기간동안 연구재단에 등재된 문헌정보학 관련 학회지에 수록된 정보학분야 논문 1,007편의 논문을 대상으로 정보학분야의 연구동향을 분석하였다. 먼저 시간에 따른 연구주제의 변화를 살펴보기 위하여 논문 데이터를 주제 범주화 한 후, 각 주제 범주 내에서의 논문 및 주요 키워드의 성장률을 시계열적으로 분석하였다. 그리고 단어 동시출현 네트워크를 2000-2011년뿐 아니라 2000-2005년과 2006-2011년의 두 시기로 나누어 시각화하고 분석함으로써, 한국의 정보학 분야의 연구경향의 변화를 살펴보았다. 분석 결과, 지난 12년간의 한국의 정보학 연구는 정보시스템중심적 연구에서 이를 도서관에 적용하는 도서관응용적 연구로 나아가고 있는 것을 확인하였다. 특히 지식관리, 웹기반 시스템 평가, 정보검색 분야에서 두드러지게 변화가 나타났다. 다른 연구의 결과와 비교해 볼 때, 이 연구는 정보학 연구분야의 한국 로컬화의 변화를 찾아냈다는 점에서 의의가 있다고 할 수 있다.

언어네트워크분석을 활용한 한국농수산대학 신입생 자기소개서 분석 - TF-IDF 분석을 기초로 - (Analyzing Self-Introduction Letter of Freshmen at Korea National College of Agricultural and Fisheries by Using Semantic Network Analysis : Based on TF-IDF Analysis)

  • 주진수;이소영;김종숙;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권1호
    • /
    • pp.89-104
    • /
    • 2021
  • 비정형 데이터인 한국농수산대학 신입생 자기소개서에서 의미 있는 정보를 추출하기 위하여 핵심적인 역할을 하는 단어의 중요도를 평가하는 TF-IDF 가중치를 기초로 한 언어네트워크분석을 하였다. TF-IDF 가중치에 의한 핵심단어는 문항 1에서는 '농업', '수학', '공부', '문제', '친구', 문항 2에서는 '동아리', '식물', '친구', '농업', '작물', 문항 3에서는 '친구', '동아리', '의견', '갈등', '관리', 문항 4에서는 '버섯', '곤충', '아버지', '농업', '농장' 등으로 나타났다. 또한 빈도수는 낮은 단어이지만 핵심단어로 나타난 단어를 보면 문항 1에서는 '수학', '자격증', '성적', '영어', '과학', 문항 2에서는 '식물', '작물', '공부', '쓰레기', '발표', '실험', 문항 3에서는 '동아리', '청소', '봉사', '갈등', '봉사활동', 문항 4에서는 '버섯', '곤충', '양식', '한우', '조경' 등으로 나타났다. 단어들 간의 관계를 시각적으로 분석이 가능한 언어네트워크분석 결과 매개중심성이 높은 단어는 문항 1에서는 '이유', '고등학교', '재학', 문항 2에서는 '쓰레기', '고등학교', '학교', 문항 3에서는 '중요', '오해', '완성', 문항 4에서는 '가공', '사료', '농가'로 나타났다. 연결정도중심성은 문항 1에서는 '고등학교', '탐구', '성적', 문항 2에서는 '쓰레기', '정리', '수업시간', 문항 3에서는 '의견', '회의', '봉사활동', 문항 4에서는 '가공', '공간', '실습'으로 나타났다. 매개중심성 값이 클수록 네트워크의 중앙에 위치하고, 두 범주 사이의 관계가 강할수록 서로 근거리에 위치한다. 연결정도중심성이 클수록 노드의 크기가 크게 나타나며, 노드 연결선은 단어들의 동시 출현 빈도가 높을수록 edge가 굵게 나타났다. 동시 출현 빈도가 높은 즉 상관관계가 높은 단어 조합은 '자격증 - 취득', '문제 - 해결', '과학 - 생명', '오해 - 양보' 등으로 나타났다. 단어 기반의 계층적 클러스터링 기법에 의하여 단어 간 인접, 상호 관계를 계층적으로 나타낸 클러스터 덴드로그램으로 군집의 개수를 결정하였다. 단어들의 군집 간 비유사도의 차이가 큰 군집을 구한 결과 문항 1은 2개, 문항 2와 문항 4는 4개, 문항 3은 5개의 군집으로 분류할 경우 군집내 응집력이 높고, 군집 간 이질성이 큰 적절한 군집을 구할 수 있었다.

텍스트 마이닝을 이용한 매체별 에볼라 주제 분석 - 바이오 분야 연구논문과 뉴스 텍스트 데이터를 이용하여 - (Text Mining Driven Content Analysis of Ebola on News Media and Scientific Publications)

  • 안주영;안규빈;송민
    • 한국문헌정보학회지
    • /
    • 제50권2호
    • /
    • pp.289-307
    • /
    • 2016
  • 에볼라 바이러스(Ebola virus disease)와 같은 전염병들은 사회적으로 큰 이슈가 되어 언론의 관심을 받으며 동시에 많은 연구의 대상이 되기도 한다. 이에 따라 국내외로 전염병과 관련된 텍스트 마이닝 연구가 활발하게 진행되고 있으나, 텍스트 마이닝 기법을 사용하여 상이한 특성을 가진 매체 간 주제를 분석한 연구는 아직까지 진행되지 않고 있다. 따라서 본 연구에서는 전염병 중 하나인 에볼라를 키워드로 하여 사회적 특성을 지닌 뉴스 기사와 바이오 분야의 전문적 특성을 지닌 연구 논문 간의 주제 분석을 진행하였다. 텍스트 분석에는 매체별 문헌 데이터로부터 다양한 토픽들을 추출하기 위해 토픽모델링 기법을 적용하였고, 매체 간의 구체적인 내용 분석을 위해 중요 개체를 선정하고 이를 중심으로 동시출현 단어 네트워크 분석을 수행하였다. 또한 각 매체별로 등장하는 주제를 시각적으로 표현하기 위해 토픽맵을 구축하였다. 분석 결과, 두 매체에서 다루는 주제의 차이점과 공통점을 발견할 수 있었으며 동시 출현 주제의 시계열 분석을 통해 매체 간 특성의 차이를 찾을 수 있었다. 본 연구를 통해 상이한 특성을 지닌 매체들의 주제와 개체들을 함께 제시하고, 매체 간의 공통점과 차이점을 보여줌으로써 매체별 정보 생산자들이 연구 및 현상 분석을 진행하는 데 있어 관점의 다양성을 제공할 수 있을 것이다.

문헌정보학 분야의 지적구조 및 연구 동향 변화에 대한 시계열 분석: 2003년부터 2017년까지 (Time Series Analysis of Intellectual Structure and Research Trend Changes in the Field of Library and Information Science: 2003 to 2017)

  • 최형욱;최예진;남소연
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.89-114
    • /
    • 2018
  • 학문 분야의 연구 동향 변화에 대한 연구는 해당 분야의 세부 연구주제와 구조에 대한 파악뿐만 아니라 시간 흐름에 따른 변화 모습을 관찰할 수 있는 방법이다. 이에 본 연구에서는 국내 문헌정보학 분야의 연구 동향을 살펴보기 위하여 2003년부터 2017년까지 한국학술지인용색인(KCI)에 등재된 문헌정보학 분야 학술지 중 인용지수가 가장 높은 3종에 개제된 논문의 한국어 저자키워드를 대상으로 동시출현단어 분석을 수행하였다. 시계열 분석을 위해 15년의 연구 기간을 5년 단위로 누적하여 2003년~2007년, 2003년~2012년, 2003년~2017년으로 구분하였고, 기간별로 출현빈도 10회 이상의 저자키워드를 선정하여 분석하고 이를 시각화하였다. 분석 결과, 2003년~2007년 기간의 지적구조는 총 25개의 키워드로 구성된 8개의 영역이 확인되었으며, 2003년~2012년 기간의 지적구조에서는 총 76개의 키워드로 구성된 3영역 17 군집이 확인되었다. 또한, 2003년~2017년 기간의 지적구조는 총 132개의 키워드로 구성된 6영역 32군집으로 나타났다. 누적 기간별 종합 분석 결과, 한국의 문헌정보학 분야는 지난 15년간 기간별로 새로운 키워드가 포괄적으로 추가되었으며, 세부 주제 역시 세분화 되어 점차 세분화되고 확장되고 있음을 확인하였다.

A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.55-63
    • /
    • 2021
  • 소셜 빅데이터는 신조어나 고유명사를 포함하는 경우가 많으며, 이들을 처리하기 위해 단어별 출현 빈도수를 기반으로 한 통계적인 형태소 분석 방법이 많이 활용되고 있다. 그러나 이들 방법에서는 복합 명사를 제대로 인지하지 못해, 키워드 추출의 정확도가 떨어지는 문제점이 지적되고 있다. 본 논문에서는 소셜 빅데이터의 키워드 분석에 있어 복합 명사를 추출하기 위한 방법을 제안한다. 제안 방법은 형태소 분석 단계를 통해 얻어진 단어를 조합하여 복합 명사 후보군을 만들고, 주어진 리뷰에서 이들의 출현 빈도를 조사하여 얻어진 빈도수를 기반으로 복합 명사를 추출한다. 복합 명사 후보군을 구성하는 방법에 따라 두 가지 알고리즘을 제안하였으며, 각 알고리즘의 성능을 수식으로 표현하고 비교한다. 그리고 온라인에서 수집된 실제 데이터를 대상으로 실험을 통해 비교 결과를 검증하는 동시에, 제안 방법이 실시간 처리에도 적합함을 보여준다.

목록 분야 연구동향 및 지적구조 분석 (A Study on Analysis of Research Trends and Intellectual Structure of Cataloging Field)

  • 이지원
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.279-300
    • /
    • 2019
  • 본 연구는 동시출현단어 분석을 사용하여 2000년대와 2010년대 목록 분야 연구동향 및 지적구조 분석을 수행하고, 두 시기의 차이점을 비교하였다. 목록 분야는 독자적인 연구 영역을 확고히 구축하고 있었으며, 2000년대와 2010년대 연구동향 및 지적구조에 많은 차이점이 발견되었다. 첫째, 논문 수에 있어서는 2000년대에 비해 2010년대에는 연간 평균 4.2편이 감소하였으나, 저자키워드 수는 큰 차이는 나지 않았다. 연대별 키워드 출현빈도는 22.2%의 키워드만이 두 시기에 모두 3회 이상 나타났으며, 77.8%의 키워드들은 한 시기에만 3회 이상 나타났다. 둘째, 지적구조에 있어서 살펴보면, 2000년대에는 3단계 군집을 보여주어 2단계 군집으로 표현된 2010년대에 비해 보다 복잡한 형태의 네트워크를 형성하였다. 셋째, 각 군집의 특성 변화를 살펴본 결과, 일부 변화가 적은 연구주제들이 있기는 하지만, 많은 연구주제들이 더욱 활발히 진행되거나 세분되었으며, 감소하기도 하는 변화가 있었다. 이러한 연구의 결과는 목록 분야의 시대적 흐름과 함께 지적구조를 시각적으로 파악할 수 있게 하며, 미래의 모습을 예측하여 관련 교육과 연구를 준비할 수 있다는 점에서 의의가 있다.

국내 재난 관련 연구 동향에 대한 계량정보학적 분석 (A Bibliometric Analysis of Research Trends on Disaster in Korea)

  • 이재윤;김수정
    • 정보관리학회지
    • /
    • 제33권4호
    • /
    • pp.103-124
    • /
    • 2016
  • 본 연구는 계량정보학적 분석을 통해 국내 재난 관련 연구의 동향을 파악하는 것을 목적으로 한다. 이를 위해 KCI 데이터베이스를 검색하여 2002년부터 2016년 사이에 출간된 재난 관련 학술지 논문 772편을 분석하였다. 논문들이 발표된 학문분야의 프로파일링 분석과 저널 프로파일링 분석 및 키워드 동시출현분석을 실시하였다. 분석 결과, 국내 재난 관련 연구의 수는 지속적으로 증가하고 있으며 특히 2014년 세월호 사건 이후에 재난 연구의 수가 급증하였다. 재난 연구의 주요 학문영역은 재난관리 정책을 제시하는 정책학/행정학 영역, 관련 기술을 개발하는 '공학' 영역, 지리정보시스템과 통신기술을 연구하는 'GIS/통신' 영역, 재난을 정신건강학 혹은 인문사회학적 측면에서 연구하는 '의학/인문사회과학' 영역으로 확인되었다. 시기별로 살펴보면, 2014년 이후에는 행정학과 정책학 분야의 비중이 감소한 반면에 법학, 의학, 신문방송학 등의 다양한 학문 분야에서 재난 관련 연구가 활발해졌다.

기술 키워드 네트워크와 인지지도 분석을 통한 무인항공기 비행체산업의 유망기술 도출 연구 (Technology Keyword Network and Cognitive Map Analysis: to prospect promising technology of UAV(Unmanned Aerial Vehicle) airframe industry)

  • 주성현;하성호;박상현
    • 한국산업정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.55-72
    • /
    • 2016
  • 본 연구는 국내 무인항공기산업과 같은 신성장동력산업의 국제적 기술 경쟁력 확보와 시장성 확보 및 산업성장이 가능한 미래유망 기술을 도출하는 방법론을 제시하는 것이다. 이에 본 연구는 KrKwic, Excel, NetMiner등의 분석 툴을 활용하여 무인항공기산업 분야의 특허데이터를 대상으로 동시출현 단어를 활용한 소셜네트워크분석과 하위그룹분석, 인지지도분석 방법을 제시하였다. 그 결과, '비행조정 기술', '피아식별 기술' 등은 향후 유망한 기술로 선정하여 집중 투자할 필요성이 큰 기술이라 볼 수 있었다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

QR코드에 대한 언론 보도 경향: 2008-2023년 뉴스 빅데이터 분석 (An Analysis of News Media Coverage of the QRcode: Based on 2008-2023 News Big Data)

  • 김선정;이지수
    • 정보관리학회지
    • /
    • 제41권2호
    • /
    • pp.269-294
    • /
    • 2024
  • 본 연구는 QR코드 주제 관련 뉴스의 보도 경향 분석을 위해 한국언론진흥재단의 빅카인즈에서 2008년부터 2023년까지 16년간의 뉴스 기사 데이터 13,335건을 수집하였다. 연간 및 주제별 보도량을 통해 양적 변화 추이를 살펴보고, 단어 빈도 분석을 실시하였으며, 동시 출현 단어를 활용한 네트워크 분석을 통해 시기별 주요 보도 내용을 분석하였다. 분석 결과는 다음과 같다. QR코드 관련 언론에서의 보도는 지속적으로 증가하였으며, 2020년에 보도량이 가장 많은 것으로 나타났다. 'IT·과학' 주제에서 가장 많이 보도되었으며, '스마트폰', '서비스', '애플리케이션', '결제' 등이 QR코드와 함께 주요 단어로 다뤄졌다. 연구 결과, 언론을 통해 QR코드의 정보 제공 및 전달, 정보의 인식 및 식별 기능이 부각 되었다. QR코드는 정보통신기술의 발달과 모바일 기기의 보편화에 따라 그 사용이 확대되었으며, 사회의 전반에서 대중적인 정보 매체로 활용되고 있는 것으로 나타났다.