• 제목/요약/키워드: Term Frequency-Inverse Document Frequency

검색결과 91건 처리시간 0.025초

A Study on the General Public's Perceptions of Dental Fear Using Unstructured Big Data

  • Han-A Cho;Bo-Young Park
    • 치위생과학회지
    • /
    • 제23권4호
    • /
    • pp.255-263
    • /
    • 2023
  • Background: This study used text mining techniques to determine public perceptions of dental fear, extracted keywords related to dental fear, identified the connection between the keywords, and categorized and visualized perceptions related to dental fear. Methods: Keywords in texts posted on Internet portal sites (NAVER and Google) between 1 January, 2000, and 31 December, 2022, were collected. The four stages of analysis were used to explore the keywords: frequency analysis, term frequency-inverse document frequency (TF-IDF), centrality analysis and co-occurrence analysis, and convergent correlations. Results: In the top ten keywords based on frequency analysis, the most frequently used keyword was 'treatment,' followed by 'fear,' 'dental implant,' 'conscious sedation,' 'pain,' 'dental fear,' 'comfort,' 'taking medication,' 'experience,' and 'tooth.' In the TF-IDF analysis, the top three keywords were dental implant, conscious sedation, and dental fear. The co-occurrence analysis was used to explore keywords that appear together and showed that 'fear and treatment' and 'treatment and pain' appeared the most frequently. Conclusion: Texts collected via unstructured big data were analyzed to identify general perceptions related to dental fear, and this study is valuable as a source data for understanding public perceptions of dental fear by grouping associated keywords. The results of this study will be helpful to understand dental fear and used as factors affecting oral health in the future.

아파트 하자 보수 시설공사 세부공종 머신러닝 분류 시스템에 관한 연구 (Classifying Sub-Categories of Apartment Defect Repair Tasks: A Machine Learning Approach)

  • 김은혜;지홍근;김지나;박은일;엄재용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권9호
    • /
    • pp.359-366
    • /
    • 2021
  • 대한민국 건설사들은 아파트 하자 정보를 축적하고 보수작업을 관리하기 위한 시스템을 운영하는데 상당한 인력과 비용을 투자하고 있다. 본 연구에서는 하자 접수 상세내용 텍스트 데이터를 이용하여 하자 보수 시설공사에 따른 세부공종을 분류하는 머신러닝 모델을 제안한다. 두 가지 단어 임베딩(Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF))과 두 가지 분류기(Support Vector Machine, Random Forest)를 통해 한국어로 작성된 65만건 이상의 하자 접수데이터로부터 하자보수 시설공사 세부공종을 분류했다. 특히, 이번 연구에서는 특정 시설공사(마감공사)의 9개 세부공종(가전제품, 도배공사, 도장공사, 미장공사, 석공사, 수장공사, 옥내가구공사, 주방기구공사, 타일공사)을 분류하는 이진분류 모델과 다중 분류 모델을 연구했다. 그 결과, TF-IDF와 Random Forest를 사용한 두가지 분류 모델에서 90%이상의 정확도, 정밀도, 재현율 및 F1점수를 확인했다.

텍스트마이닝을 활용한 노인 헬스케어 앱 사용 추이 및 동향 분석 (A Study on the Current Situation and Trend Analysis of The Elderly Healthcare Applications Using Big Data Analysis)

  • 변현;전상완;이은석
    • 한국융합학회논문지
    • /
    • 제13권5호
    • /
    • pp.313-325
    • /
    • 2022
  • 본 연구의 목적은 노인 헬스케어앱 시장의 변화 추이를 텍스트 마이닝 분석을 통해 살펴보고 노인 헬스케어앱 활성화를 위한 기초자료를 제시하고자 한다. 데이터 수집은 네이버, 다음, 블로그 웹, 까페를 대상으로 이루어졌으며, 연구방법은 빅데이터 분석 프로그램인 텍스톰(Textom)과 Ucinet6를 이용하여 텍스트마이닝, TF-IDF(Term frequency-inverse document frequency), 감성분석, 의미연결망분석을 실시하였다. 워드 클라우드를 실시한 결과 빈도 순으로 현장교육, 헬스케어, 전신재활운동기구, 서비스, 운동 등으로 나타났으며, TF-IDF 순위로는 현장교육, 헬스케어, 재활운동기구, 서비스, 건강 순으로 나타났다. 노인 스포츠 어플리케이션에 대한 감성분석을 실시한 결과 긍정비율로 81.3%, 부정비율이 18.7%로 나타났으며, 헬스케어앱 정보격차 해소, 융복합 헬스케어기술, 확산매체, 노인헬스케어앱 산업, 사회적 배경, 콘텐츠로 총 6개의 범주가 최종적으로 도출되었다. 결론적으로 노인 헬스케어앱이 노인들에게 수용 및 활용되기 위해 확산 인프라가 잘 갖추어져 있어야 하며, 융복합 기술의 적극적인 도입과 노인도 쉽게 사용할 수 있는 콘텐츠 개발을 통해 헬스케어 앱의 효과를 극대화하여야 한다.

비정형 데이터를 이용한 화학물질 사고 대응 체계 정보속성 비교 분석 : 화학사고 예방, 대비 및 대응을 위한 OECD 지침서를 중심으로 (Comparative analysis of informationattributes inchemical accident response systems through Unstructured Data: Spotlighting on the OECD Guidelines for Chemical Accident Prevention, Preparedness, and Response)

  • 김용진;도충현
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.91-110
    • /
    • 2023
  • 화학물질 사고는 신속한 대응 및 복구가 어렵고, 환경오염과 인명피해가 동반된다는 점에서 매뉴얼의 중요성이 점차 주목받고 있으며, OECD에서는 화학사고 예방, 대비 및 대응을 위한 OECD 지침서(이하 OECD 지침서)를 2023년 6월 개정하였다. 또한, 기존 연구에서는 화학사고에 대한 인식 제고를 통해 법규, 규정, 매뉴얼 등 시스템적 대응이 필요하다는 점을 강조하고 있으나. 매뉴얼에 대한 정보속성 비교연구는 찾아보기 힘들었다. 이에, 본 연구는 기존 OECD 지침서(2판)와 개정된 OECD 지침서(3판)을 비교분석하여 OECD 지침서별 정보속성을 파악하고 시사점을 발굴하는 것을 목표로 하였다. 세부적으로는 어떤 단어가 중요해졌는지 파악하기 위해 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 적용하였으며, 유사하게 사용한 단어와 차별성있게 사용한 단어를 파악하기 위해 Word2Vec을 적용하였다. 최종적으로는 2X2 매트릭스를 제안하고, 각 사분면에 어떤 단어들이 있는지를 도출하여 OECD 지침서별 정보속성을 심층적으로 비교하였다. 본 연구는 연구자들이 정보속성을 파악하는데 도움이 되는 프레임워크를 제공하고자 하였으며, 실무적으로는 국내 화학관련 정부부처 및 기업의 표준메뉴얼 개정에 참고할 수 있을 것으로 보인다.

LSTM Android Malicious Behavior Analysis Based on Feature Weighting

  • Yang, Qing;Wang, Xiaoliang;Zheng, Jing;Ge, Wenqi;Bai, Ming;Jiang, Frank
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.2188-2203
    • /
    • 2021
  • With the rapid development of mobile Internet, smart phones have been widely popularized, among which Android platform dominates. Due to it is open source, malware on the Android platform is rampant. In order to improve the efficiency of malware detection, this paper proposes deep learning Android malicious detection system based on behavior features. First of all, the detection system adopts the static analysis method to extract different types of behavior features from Android applications, and extract sensitive behavior features through Term frequency-inverse Document Frequency algorithm for each extracted behavior feature to construct detection features through unified abstract expression. Secondly, Long Short-Term Memory neural network model is established to select and learn from the extracted attributes and the learned attributes are used to detect Android malicious applications, Analysis and further optimization of the application behavior parameters, so as to build a deep learning Android malicious detection method based on feature analysis. We use different types of features to evaluate our method and compare it with various machine learning-based methods. Study shows that it outperforms most existing machine learning based approaches and detects 95.31% of the malware.

키워드 분포를 고려한 효과적 특허검색기법 (Searching Patents Effectively in terms of Keyword Distributions)

  • 이우기;송종수;강민구
    • 정보화연구
    • /
    • 제9권3호
    • /
    • pp.323-331
    • /
    • 2012
  • 지식정보화 시대의 본격화와 함께 지식재산권, 그 중에서도 특허의 중요성이 더욱 커져가고 있다. 이에 따라 효율적인 특허정보 검색방법의 필요성이 높아지고 있지만, 기존의 특허검색 엔진은 불리언 모델을 기반으로 단어의 존재 여부만을 파악하는 방식으로 검색결과에 노이즈 데이터가 너무 많이 포함되어 특허 검색에 오랜 시간을 허비하게 만들므로 '전문검색가'들이 수동으로 찾아주고 있는 실정이다. 이에 본 논문에서는 기존의 일반적 문서검색과 특허검색과의 차이점을 밝히고, 기존 특허검색의 한계성을 분석한다. 나아가 특허검색에 특화된 효과적 방법론 제안하여 검색 키워드가 각 특허 문서 내에서 차지하는 중요도와 각 문서 내에서 키워드 사이의 관계성을 파악하고 이에 대한 랭킹을 정하여 키워드와 관계성이 높은 특허가 상위에 랭크하며 노이즈 데이터를 하위에 랭크 함으로써 검색 결과에서 노이즈 데이터의 비율을 대폭 줄이는 방법을 제안한다. 마지막으로 실험을 통하여 Kipris 검색 결과와 비교함으로써 제안한 방법론의 우수성을 입증하였다.

데이터마이닝을 이용한 동의보감에서 경락의 주치특성 분석 (An Analysis of Indications of Meridians in DongUiBoGam Using Data Mining)

  • 채윤병;류연희;정원모
    • Korean Journal of Acupuncture
    • /
    • 제36권4호
    • /
    • pp.292-299
    • /
    • 2019
  • Objectives : DongUiBoGam is one of the representative medical literatures in Korea. We used text mining methods and analyzed the characteristics of the indications of each meridian in the second chapter of DongUiBoGam, WaeHyeong, which addresses external body elements. We also visualized the relationships between the meridians and the disease sites. Methods : Using the term frequency-inverse document frequency (TF-IDF) method, we quantified values regarding the indications of each meridian according to the frequency of the occurrences of 14 meridians and 14 disease sites. The spatial patterns of the indications of each meridian were visualized on a human body template according to the TF-IDF values. Using hierarchical clustering methods, twelve meridians were clustered into four groups based on the TF-IDF distributions of each meridian. Results : TF-IDF values of each meridian showed different constellation patterns at different disease sites. The spatial patterns of the indications of each meridian were similar to the route of the corresponding meridian. Conclusions : The present study identified spatial patterns between meridians and disease sites. These findings suggest that the constellations of the indications of meridians are primarily associated with the lines of the meridian system. We strongly believe that these findings will further the current understanding of indications of acupoints and meridians.

텍스트 마이닝과 토픽모델링 분석을 활용한 코로나19와 간호사에 대한 언론기사 분석 (Analysis of Media Articles on COVID-19 and Nurses Using Text Mining and Topic Modeling)

  • 안지연;이윤정;이복임
    • 지역사회간호학회지
    • /
    • 제32권4호
    • /
    • pp.467-476
    • /
    • 2021
  • Purpose: The purpose of this study is to understand the social perceptions of nurses in the context of the COVID-19 outbreak through analysis of media articles. Methods: Among the media articles reported from January 1st to September 30th, 2020, those containing the keywords '[corona or Wuhan pneumonia or covid] and [nurse or nursing]' are extracted. After the selection process, the text mining and topic modeling are performed on 454 media articles using textom version 4.5. Results: Frequency Top 30 keywords include 'Nurse', 'Corona', 'Isolation', 'Support', 'Shortage', 'Protective Clothing', and so on. Keywords that ranked high in Term Frequency-Inverse Document Frequency (TF-IDF) values are 'Daegu', 'President', 'Gwangju', 'manpower', and so on. As a result of the topic analysis, 10 topics are derived, such as 'Local infection', 'Dispatch of personnel', 'Message for thanks', and 'Delivery of one's heart'. Conclusion: Nurses are both the contributors and victims of COVID-19 prevention. The government and the nurses' community should make efforts to improve poor working conditions and manpower shortages.

A Study on the Perception of Metaverse Fashion Using Big Data Analysis

  • Hosun Lim
    • 한국의류산업학회지
    • /
    • 제25권1호
    • /
    • pp.72-81
    • /
    • 2023
  • As changes in social and economic paradigms are accelerating, and non-contact has become the new normal due to the COVID-19 pandemic, metaverse services that build societies in online activities and virtual reality are spreading rapidly. This study analyzes the perception and trend of metaverse fashion using big data. TEXTOM was used to extract metaverse and fashion-related words from Naver and Google and analyze their frequency and importance. Additionally, structural equivalence analysis based on the derived main words was conducted to identify the perception and trend of metaverse fashion. The following results were obtained: First, term frequency(TF) analysis revealed the most frequently appearing words were "metaverse," "fashion," "virtual," "brand," "platform," "digital," "world," "Zepeto," "company," and "game." After analyzing TF-inverse document frequency(TF-IDF), "virtual" was the most important, followed by "brand," "platform," "Zepeto," "digital," "world," "industry," "game," "fashion show," and "industry." "Metaverse" and "fashion" were found to have a high TF but low TF-IDF. Further, words such as "virtual," "brand," "platform," "Zepeto," and "digital" had a higher TF-IDF ranking than TF, indicating that they had high importance in the text. Second, convergence of iterated correlations analysis using UNICET revealed four clusters, classified as "virtual world," "metaverse distribution platform," "fashion contents technology investment," and "metaverse fashion week." Fashion brands are hosting virtual fashion shows and stores on metaverse platforms where the virtual and real worlds coexist, and investment in developing metaverse-related technologies is under way.

빅데이터 검색 정확도에 미치는 다양한 측정 방법 기반 검색 기법의 효과 (Impact of Diverse Document-evaluation Measure-based Searching Methods in Big Data Search Accuracy)

  • 김지영;한다현;김종권
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.553-558
    • /
    • 2017
  • 빅데이터의 공급이 늘어남에 따라, 이로부터 유용한 정보를 추출해내기 위한 학계와 업계의 연구가 활발히 진행 되고 있다. 특히 분석한 정보의 특징과 함께, 정보 검색 시 검색자의 의도를 함께 반영하여 정보를 여과해 주는 것이 대부분의 연구의 최종 목표이다. 정확하게 분석된 자료는 기업이 제공하는 서비스에 대한 사용자의 충성도를 높여주고, 사용자 스스로 보다 효율적이고 효과적으로 정보를 이용할 수 있게 된다. 본 논문에서는 가장 높은 빈도로 사용되는 검색 분야인 기사를 검색하는 경우의 정확도를 높이기 위해, 관련 데이터를 TF-IDF, 결정 트리, 코사인 유사도, 단순 베이지안 분류기 등의 다양한 측도방법으로 평가해 보고, 이를 분석하였다. 또한, 분석 결과를 바탕으로 가장 적합한 측도 방법을 제안한다.