• 제목/요약/키워드: text visualization

검색결과 216건 처리시간 0.022초

비정형 텍스트 데이터 분석을 활용한 기록관리 분야 연구동향 (Research Trends in Record Management Using Unstructured Text Data Analysis)

  • 홍덕용;허준석
    • 한국기록관리학회지
    • /
    • 제23권4호
    • /
    • pp.73-89
    • /
    • 2023
  • 본 연구에서는 텍스트 마이닝 기법을 활용하여 국내 기록관리 연구 분야의 비정형 텍스트 데이터인 국문 초록에서 사용된 키워드 빈도를 분석하여 키워드 간 거리 분석을 통해 국내기록관리 연구 동향을 파악하는 것이 목적이다. 이를 위해 한국학술지인용색인(Korea Citation Index, KCI)의 학술지 기관통계(등재지, 등재후보지)에서 대분류(복합학), 중분류 (문헌정보학)으로 검색된 학술지(28종) 중 등재지 7종 1,157편을 추출하여 77,578개의 키워드를 시각화하였다. Word2vec를 활용한 t-SNE, Scattertext 등의 분석을 수행하였다. 분석 결과, 첫째로 1,157편의 논문에서 얻은 77,578개의 키워드를 빈도 분석한 결과, "기록관리" (889회), "분석"(888회), "아카이브"(742회), "기록물"(562회), "활용"(449회) 등의 키워드가 연구자들에 의해 주요 주제로 다뤄지고 있음을 확인하였다. 둘째로, Word2vec 분석을 통해 키워드 간의 벡터 표현을 생성하고 유사도 거리를 조사한 뒤, t-SNE와 Scattertext를 활용하여 시각화하였다. 시각화 결과에서 기록관리 연구 분야는 두 그룹으로 나누어졌는데 첫 번째 그룹(과거)에는 "아카이빙", "국가기록관리", "표준화", "공문서", "기록관리제도" 등의 키워드가 빈도가 높게 나타났으며, 두 번째 그룹(현재)에는 "공동체", "데이터", "기록정보서비스", "온라인", "디지털 아카이브" 등의 키워드가 주요한 관심을 받고 있는 것으로 나타났다.

DOM에 기반한 공동 문서 저작 시스템 구현에 관한 연구 (A Study pn Development of collaborative Document Authoring system based on DOM)

  • 유성주;김차종;신현섭
    • 한국정보통신학회논문지
    • /
    • 제14권12호
    • /
    • pp.2601-2608
    • /
    • 2010
  • 텍스트 문서를 대상으로 하는 대부분의 공동 문서 저작 시스템에서는 문서의 병합과 재사용이 어려우며 문서를 저장, 관리할 수 있는 저장소를 제공하지 않는다. 또한 웹을 기반으로 하기 때문에 높은 접근성을 제공하지만 보안에 취약한 문제점을 가지고 있다. 본 논문에서는 XML 문서를 대상으로 한 공동 문서 저작 시스템을 설계 구현함으로써 이들 시스템의 문제점을 개선하였다. 이를 위해 XML 문서를 객체 모델화하고 조작하기 위한 API인 DOM(Document Object Model)에 기반을 두었으며 Java 객체를 송수신하고, 구현 시 소켓통신에 대한 고려가 필요하지 않도록 RMI를 활용하였다. 또한 인증과정을 통해 보안성을 향상시켰으며 템플릿(Template) 제공, 주석달기, 문서구조 가시화가 가능한 편집기를 제공함으로써 XML 문서 공동저작의 수월성을 향상시켰다.

빅데이터 분석 도구 R을 이용한 비정형 데이터 텍스트 마이닝과 시각화 (Text Mining and Visualization of Unstructured Data Using Big Data Analytical Tool R)

  • 남수태;신성윤;진찬용
    • 한국정보통신학회논문지
    • /
    • 제25권9호
    • /
    • pp.1199-1205
    • /
    • 2021
  • 빅데이터 시대에는 단순히 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 실시간 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 빅데이터를 효과적으로 분석하는 것이 매우 중요하다. 빅데이터 분석은 데이터 저장소에 저장된 빅데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 빅데이터 분석 도구인 R 언어를 이용하여 비정형 논문 데이터를 빈도분석을 통해 분석결과를 요약과 시각화하고자 한다. 본 연구에서 사용된 데이터는 한국정보통신학회 학회지 논문 중에서 2021년 1월호-5월호 총 논문 104편을 대상으로 분석하였다. 최종 분석결과 가장 많이 언급된 키워드는 "데이터"가 1,538회로 1위를 차지하였다. 따라서 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

유해화학물질의 시각적 안전관리를 위한 MSDS 지도 개발 (Development of MSDS Map for Visual Safety Management of Hazardous and Chemical Materials)

  • 신명우;서용윤
    • 한국안전학회지
    • /
    • 제34권2호
    • /
    • pp.48-55
    • /
    • 2019
  • For preventing the accidents generated from the chemical materials, thus far, MSDS (Material Safety Data Sheet) data have been made to notify how to use and manage the hazardous and chemical materials in safety. However, it is difficult for users who handle these materials to understand the MSDS data because they are only listed based on the alphabetical order, not based on the specific factors such as similarity of characteristics. It is limited in representing the types of chemical materials with respect to their characteristics. Thus, in this study, a lots of MSDS data are visualized based on relationships of the characteristics among the chemical materials for supporting safety managers. For this, we used the textmining algorithm which extracts text keywords contained in documents and the Self-Organizing Map (SOM) algorithm which visually addresses textual data information. In the case of Occupational Safety and Health Administration (OSHA) in the United States, the guide texts contained in MSDS documents, which include use information such as reactivity and potential risks of materials, are gathered as the target data. First, using the textmining algorithm, the information of chemicals is extracted from these guide texts. Next, the MSDS map is developed using SOM in terms of similarity of text information of chemical materials. The MSDS map is helpful for effectively classifying chemical materials by mapping prohibited and hazardous substances on the developed the SOM map. As a result, using the MSDS map, it is easy for safety managers to detect prohibited and hazardous substances with respect to the Industrial Safety and Health Act standards.

A Study on the Meaning of The First Slam Dunk Based on Text Mining and Semantic Network Analysis

  • Kyung-Won Byun
    • International journal of advanced smart convergence
    • /
    • 제12권1호
    • /
    • pp.164-172
    • /
    • 2023
  • In this study, we identify the recognition of 'The First Slam Dunk', which is gaining popularity as a sports-based cartoon through big data analysis of social media channels, and provide basic data for the development and development of various contents in the sports industry. Social media channels collected detailed social big data from news provided on Naver and Google sites. Data were collected from January 1, 2023 to February 15, 2023, referring to the release date of 'The First Slam Dunk' in Korea. The collected data were 2,106 Naver news data, and 1,019 Google news data were collected. TF and TF-IDF were analyzed through text mining for these data. Through this, semantic network analysis was conducted for 60 keywords. Big data analysis programs such as Textom and UCINET were used for social big data analysis, and NetDraw was used for visualization. As a result of the study, the keyword with the high frequency in relation to the subject in consideration of TF and TF-IDF appeared 4,079 times as 'The First Slam Dunk' was the keyword with the high frequency among the frequent keywords. Next are 'Slam Dunk', 'Movie', 'Premiere', 'Animation', 'Audience', and 'Box-Office'. Based on these results, 60 high-frequency appearing keywords were extracted. After that, semantic metrics and centrality analysis were conducted. Finally, a total of 6 clusters(competing movie, cartoon, passion, premiere, attention, Box-Office) were formed through CONCOR analysis. Based on this analysis of the semantic network of 'The First Slam Dunk', basic data on the development plan of sports content were provided.

IP 주소 기반 사이버공격 실시간 및 통계적 가시화 방법 (A Real-Time and Statistical Visualization Methodology of Cyber Threats Based on IP Addresses)

  • 문형우;권태웅;이준;류재철;송중석
    • 정보보호학회논문지
    • /
    • 제30권3호
    • /
    • pp.465-479
    • /
    • 2020
  • 국내·외 기업 및 기관들은 사이버위협으로부터 자신들의 IT 인프라를 안전하게 보호하기 위해 24시간/365일 모니터링 및 대응할 수 있는 보안관제센터를 활용하고 있다. 하지만, 현재 대부분의 보안관제센터는 전문 인력에 의한 수동분석과 텍스트 기반의 보안관제체계에 의존하는 태생적인 한계점을 안고 있다. 이러한 보안관제체계의 문제점들을 극복하기 위해 가시화 기술을 활용한 사이버위협 탐지·분석 연구가 활발하게 진행되고 있지만 이들 연구의 대부분은 보안관제 분야에 최적화되어 있지 않고, 많은 경우에 개별 기관에서만 활용할 수 있다는 제한이 따랐다. 따라서 본 논문에서는 보안관제 분야의 최종 목표인 실제 공격자 IP를 탐지할 수 있을 뿐만 아니라, 보안관제센터에서도 활용할 수 있는 새로운 가시화 방법론을 제안한다. 본 논문에서 제안하는 가시화 방법론의 핵심은 보안이벤트를 발생시킨 공격자(IP)의 행위정보를 실시간 및 추적(통계) 분석을 가능하게 하는 것이다. 제안된 가시화 방법론을 기반으로 개발된 시스템을 실제 보안관제센터에 성공적으로 적용하였으며, 실제 운영을 통해 다양한 공격자 IP를 탐지 및 분석하는데 성공함으로써 본 논문에서 제안한 가시화 방법론의 실용성 및 유효성을 검증했다.

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

GIS를 활용한 행정동별 천식환자 분포특성의 시각화: 대구시의 사례 연구 (Visualization of Asthmatic Distribution Patterns in accordance with Administrative Dong Using GIS: a Case Study of Daegu)

  • 신기동;엄정섭
    • 환경영향평가
    • /
    • 제15권3호
    • /
    • pp.179-191
    • /
    • 2006
  • The authors argue that the current Government Information System for asthmatics appears to be non-user friendly due to lack of the cartographic representation for the text based statistical data. Acknowledging these constraints, an operational, user-friendly map for asthmatic prevalence has been generated by combining existing statistical data with the administrative Dong boundary map under GIS environment. The Geographical User Interface, in particular, were ideally suited to deriving the major distribution patterns that more asthmatic prevalence tends to be occurred on conventional commercial district and industrial complex. A visual map using spatial modelling technology were generated to show the fact that some degree of increasing or decreasing trends of asthmatic prevalence already exists in the experimental sites. It could be used as an evidence to restrict initiation of development activities causing negative influence to asthma such as road construction. The result of this study would play a crucial role in improving the quality of environmental health information service if it is operationally introduced into the Government since the highly user-friendly interface provides a completely new means for disseminating information for asthmatics in a visual and interactive manner to the general public.

R-744/광유 및 POE 오일 혼합물의 증기압 및 상용성에 관한 연구 (Study on the Vapor Pressure and Miseibility of R-744/Mineral and POE Oil Mixture)

  • 최희성;김석현;박경근
    • 대한기계학회:학술대회논문집
    • /
    • 대한기계학회 2003년도 춘계학술대회
    • /
    • pp.1672-1677
    • /
    • 2003
  • Carbon dioxide($CO_2$, R-744) has become a very popular issue in application to refrigeration and air conditioning systems as a natural refrigerant. An experimental study has been carried out to investigate the vapor pressure and miscibility of refrigerant R-744 in the presence of lubricant oil. This is of particular interest in the selection of the lubricant oil for the compressor of a refrigeration system or an air conditioning system using the refrigerant R-744. This apparatus consists of the test section, measuring devices, the vacuum pump, the constant temperature bath and relevant connecting pipes made of stainless steel. Two lubricant oils, such as mineral oil(Naphthenic) and polyol ester(POE) oil, are considered in the present study. For this purpose, test runs were conducted with the oil concentration range from 5 to 50 wt%, and the temperature range from -10 to $10^{\circ}C$ with $2^{\circ}C$ intervals. The results are correlated with the vapor pressure. and showed with the miscibility as visualization for the individual text components.

  • PDF

Opinion-Mining Methodology for Social Media Analytics

  • Kim, Yoosin;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권1호
    • /
    • pp.391-406
    • /
    • 2015
  • Social media have emerged as new communication channels between consumers and companies that generate a large volume of unstructured text data. This social media content, which contains consumers' opinions and interests, is recognized as valuable material from which businesses can mine useful information; consequently, many researchers have reported on opinion-mining frameworks, methods, techniques, and tools for business intelligence over various industries. These studies sometimes focused on how to use opinion mining in business fields or emphasized methods of analyzing content to achieve results that are more accurate. They also considered how to visualize the results to ensure easier understanding. However, we found that such approaches are often technically complex and insufficiently user-friendly to help with business decisions and planning. Therefore, in this study we attempt to formulate a more comprehensive and practical methodology to conduct social media opinion mining and apply our methodology to a case study of the oldest instant noodle product in Korea. We also present graphical tools and visualized outputs that include volume and sentiment graphs, time-series graphs, a topic word cloud, a heat map, and a valence tree map with a classification. Our resources are from public-domain social media content such as blogs, forum messages, and news articles that we analyze with natural language processing, statistics, and graphics packages in the freeware R project environment. We believe our methodology and visualization outputs can provide a practical and reliable guide for immediate use, not just in the food industry but other industries as well.