• 제목/요약/키워드: Latent Dirichlet Allocation (LDA) analysis

검색결과 145건 처리시간 0.026초

인공지능 기술 랜드스케이프 : 기술 구조와 기업별 경쟁우위 (A Technology Landscape of Artificial Intelligence: Technological Structure and Firms' Competitive Advantages)

  • 이왕재;이학연
    • 기술혁신학회지
    • /
    • 제22권3호
    • /
    • pp.340-361
    • /
    • 2019
  • 본 연구는 특허 데이터를 활용하여 인공지능 기술의 구조를 파악하고 주요 글로벌 IT 기업들의 인공지능 기술역량을 분석한다. 2007년부터 2017년까지 미국 특허청에 등록된 2,589개의 인공지능 특허를 바탕으로 LDA 토픽모델링을 수행하여 인공지능 분야의 20개의 기술 토픽을 도출하였다. 인공지능 기술 분야 중 언어이해, 음성처리보다는 시각이해, 데이터분석, 동작제어, 그리고 기계학습 분야의 연구개발이 최근 활발한 것으로 나타났다. 또한 기업별 인공지능 기술 역량을 분석하여 인공지능 기술 분야별로 우수 역량을 보유한 기업을 도출하고, 기업별로 강점을 가지고 있는 세부 기술 분야를 도출하였다. 본 연구 결과는 인공지능 기업들의 기술기획 및 전략 수립에 유용하게 활용될 수 있을 것으로 기대된다.

토픽 모델링을 활용한 한의원 리뷰 분석과 마케팅 제언 (Reviews Analysis of Korean Clinics Using LDA Topic Modeling)

  • 김초명;조아람;김양균
    • 대한한의학회지
    • /
    • 제43권1호
    • /
    • pp.73-86
    • /
    • 2022
  • Objectives: In the health care industry, the influence of online reviews is growing. As medical services are provided mainly by providers, those services have been managed by hospitals and clinics. However, direct promotions of medical services by providers are legally forbidden. Due to this reason, consumers, like patients and clients, search a lot of reviews on the Internet to get any information about hospitals, treatments, prices, etc. It can be determined that online reviews indicate the quality of hospitals, and that analysis should be done for sustainable hospital marketing. Method: Using a Python-based crawler, we collected reviews, written by real patients, who had experienced Korean medicine, about more than 14,000 reviews. To extract the most representative words, reviews were divided by positive and negative; after that reviews were pre-processed to get only nouns and adjectives to get TF(Term Frequency), DF(Document Frequency), and TF-IDF(Term Frequency - Inverse Document Frequency). Finally, to get some topics about reviews, aggregations of extracted words were analyzed by using LDA(Latent Dirichlet Allocation) methods. To avoid overlap, the number of topics is set by Davis visualization. Results and Conclusions: 6 and 3 topics extracted in each positive/negative review, analyzed by LDA Topic Model. The main factors, consisting of topics were 1) Response to patients and customers. 2) Customized treatment (consultation) and management. 3) Hospital/Clinic's environments.

LDA를 활용한 네트워크 위협 시그니처 추출기법 (Extraction of Network Threat Signatures Using Latent Dirichlet Allocation)

  • 이성일;이수철;이준락;염흥열
    • 인터넷정보학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-10
    • /
    • 2018
  • 인터넷 웜, 컴퓨터 바이러스 등 네트워크에 위협적인 악성트래픽이 증가하고 있다. 특히 최근에는 지능형 지속 위협 공격 (APT: Advanced Persistent Threat), 랜섬웨어 등 수법이 점차 고도화되고 그 복잡성(Complexity)이 증대되고 있다. 지난 몇 년간 침입탐지시스템(IDS: Intrusion Detection System)은 네트워크 보안 솔루션으로서 중추적 역할을 수행해왔다. 침입탐지시스템의 효과적 활용을 위해서는 탐지규칙(Rule)을 적절히 작성하여야 한다. 탐지규칙은 탐지하고자 하는 악성트래픽의 핵심 시그니처를 포함하며, 시그니처를 포함한 악성트래픽이 침입탐지시스템을 통과할 경우 해당 악성트래픽을 탐지하도록 한다. 그러나 악성트래픽의 핵심 시그니처를 찾는 일은 쉽지 않다. 먼저 악성트래픽에 대한 분석이 선행되어야 하며, 분석결과를 바탕으로 해당 악성트래픽에서만 발견되는 비트패턴을 시그니처로 사용해야 한다. 만약 정상 트래픽에서 흔히 발견되는 비트패턴을 시그니처로 사용하면 수많은 오탐(誤探)을 발생시키게 될 것이다. 본고에서는 네트워크 트래픽을 분석하여 핵심 시그니처를 추출하는 기법을 제안한다. 제안 기법은 LDA(Latent Dirichlet Allocation) 알고리즘을 활용하여, 어떠한 네트워크 트래픽에 포함된 시그니처가 해당 트래픽을 얼마나 대표하는지를 정량화한다. 대표성이 높은 시그니처는 해당 네트워크 트래픽을 탐지할 수 있는 침입탐지시스템의 탐지규칙으로 활용될 수 있다.

토픽모델링을 활용한 대학생의 중도탈락 데이터 분석 (Data Analysis of Dropouts of University Students Using Topic Modeling)

  • 정도헌;박주연
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.88-95
    • /
    • 2021
  • 본 연구의 목적은 대학생의 중도탈락 현상 데이터를 실증적으로 분석하여 대학의 학생지원정책을 수립하기 위한 시사점을 제공하는 데 있다. 이를 위해 D대학의 2017~2019년 입학생 데이터를 토픽모델링 LDA(Latent Dirichlet Allocation)를 활용하여 재학생과 제적생으로 나누어 분석하였다. 연구결과 제적생에서 특징있게 나타난 토픽은 '학적'관련하여 '학기등록 1회', '전공'관련하여 '어문계열학과', '학점'관련하여 '학사경고'이고, '대학생활'관련하여 '비교과 프로그램'에 대한 토픽은 나타나지 않았다. 다음으로 '재학생 토픽'과 '제적생 토픽'의 상호 식별 성능을 측정한 결과, SVM(Support Vector Machines)이 가장 우수한 식별 성능을 보여주었다. 이러한 실험을 통해 기계학습을 활용한 인공지능 기반의 학생 데이터 분류 기법 연구의 가능성을 확인할 수 있었다.

팬데믹 기간 Messenger 애플리케이션 리뷰 변화를 통한 서비스 전략 분석 : 토픽 모델링을 중심으로 (Analysis of service strategies through changes in Messenger application reviews during the pandemic: focusing on topic modeling)

  • 이유나;노미진;김양석;한무명초
    • 스마트미디어저널
    • /
    • 제12권6호
    • /
    • pp.15-26
    • /
    • 2023
  • COVID-19 팬데믹 영향으로 대면 소통이 어려워지면서 비대면 소통의 영향을 파악하는 연구가 진행되고 있으나 메신저 애플리케이션 리뷰를 통해 이를 살펴본 연구는 미비하다. 본 연구는 구글 플레이 스토어 내의 메신저 애플리케이션 리뷰 데이터를 수집하여 LDA(Latent Dirichlet Allocation)토픽 모델링을 통해 팬데믹의 영향을 파악하고, 이에 따른 서비스 전략 방안을 제시하고자 한다. 연구에서는 팬데믹이 시작된 시점과 사용자가 부여한 평점을 기준으로 데이터를 분류하였다. 분석 결과 주로 중장년층이 메신저를 사용하는 것으로 나타났으며, 팬데믹 이후에는 가족과의 소통이 증가한 것으로 확인되었다. 사용자들은 애플리케이션의 업데이트에 대해 불만을 표현하였으며, 변화에 대한 적응이 어려움을 보였다. 이에 업데이트 주기를 조정하고 사용자들의 의견을 적극 수용하는 개발접근이 필요하다. 또한, 직관적이고 간편한 사용자 인터페이스(UI)를 제공한다면 사용자 만족도를 향상시킬 수 있을 것으로 기대된다.

한국도로공사 VOC 데이터를 이용한 토픽 모형 적용 방안 (Application of a Topic Model on the Korea Expressway Corporation's VOC Data)

  • 김지원;박상민;박성호;정하림;윤일수
    • 한국IT서비스학회지
    • /
    • 제19권6호
    • /
    • pp.1-13
    • /
    • 2020
  • Recently, 80% of big data consists of unstructured text data. In particular, various types of documents are stored in the form of large-scale unstructured documents through social network services (SNS), blogs, news, etc., and the importance of unstructured data is highlighted. As the possibility of using unstructured data increases, various analysis techniques such as text mining have recently appeared. Therefore, in this study, topic modeling technique was applied to the Korea Highway Corporation's voice of customer (VOC) data that includes customer opinions and complaints. Currently, VOC data is divided into the business areas of Korea Expressway Corporation. However, the classified categories are often not accurate, and the ambiguous ones are classified as "other". Therefore, in order to use VOC data for efficient service improvement and the like, a more systematic and efficient classification method of VOC data is required. To this end, this study proposed two approaches, including method using only the latent dirichlet allocation (LDA), the most representative topic modeling technique, and a new method combining the LDA and the word embedding technique, Word2vec. As a result, it was confirmed that the categories of VOC data are relatively well classified when using the new method. Through these results, it is judged that it will be possible to derive the implications of the Korea Expressway Corporation and utilize it for service improvement.

국민청원글의 토픽 모델링을 통한 교육이슈 분석 (Analysis of Educational Issues through Topic Modeling of National Petitions Text)

  • 심재권
    • 정보교육학회논문지
    • /
    • 제25권4호
    • /
    • pp.633-640
    • /
    • 2021
  • 교육과 관련된 이슈는 다양한 집단과 상황이 서로 복잡하게 연계된 사회문제로 교육과 관련된 현상을 분석하여 이슈와 문제를 구체적으로 발견하는 것은 쉽지 않은 일이다. 한국어 기반 텍스트 분석은 정량적인 형태로 분석이 가능하고, 텍스트 분석기법의 발전에 따라 연구적인 성과를 내고 있어 교육과 관련된 이슈를 한국어 텍스트로 된 데이터에서 도출하는데 충분히 활용할 수 있다. 본 연구는 청와대 국민청원 홈페이지 게시판의 육아/교육 분야의 청원글을 수집하고 텍스트 분석방법을 활용하여 교육계의 이슈와 문제를 도출하고자 하였다. 분석은 토픽 모델링 기법 중 잠재 디리클레 할당(LDA)을 통해 6개 토픽을 도출하였고, 주요 키워드의 연관규칙을 분석하여 그래프로 시각화하였다. 기존의 설문을 통한 교육의 이슈를 도출하는 방법 이외에 추가로 텍스트 기반의 분석방법을 통해 이슈를 충분히 발견할 수 있다는 점에서 향후 연구의 방향과 정책에 시사점을 제공할 수 있다.

국내 갑상선암 논문 토픽에 대한 융합연구 (Convergence Study on Research Topics for Thyroid Cancer in Korea)

  • 양지연
    • 한국융합학회논문지
    • /
    • 제10권2호
    • /
    • pp.75-81
    • /
    • 2019
  • 본 연구는 통계적인 기법을 융합 활용하여 국내 갑상선암과 관련된 연구 토픽의 동향 및 변화 추세를 알아보기 위함이다. DBpia에 등록되어 있는 갑상선암 관련 논문을 대상으로 LDA(latent Dirichlet allocation) 기반의 토픽 모형을 적용한 결과, 4개의 연구 토픽을 도출하였으며 각 토픽은 "Surgery", "Disease aggressiveness", "Survival analysis", "Well-being of patients"에 관한 내용으로 확인되었다. 다범주 로짓모형을 이용하여 연구 토픽의 시대적 추이를 확인한 결과, 2000년 이전에는 "Surgery", 2000년대에는 "Disease aggressiveness"와 "Survival analysis", 2010년 이후에는 "Survival analysis"와 특히 "Well-being of patients"에 관한 연구가 많이 이루어졌음을 확인하였다. 이는 향후 갑상선암 연구의 방향 모색에 필요한 기초자료로 활용될 수 있을 것이며, 최근 환자의 복지로 크게 전환된 연구 토픽의 변화가 다른 질병에서도 관찰되는지 추후 검토할 필요가 있다.

TLS 마이닝을 이용한 '정보시스템연구' 동향 분석 (Analysis on the Trend of The Journal of Information Systems Using TLS Mining)

  • 윤지혜;오창규;이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권1호
    • /
    • pp.289-304
    • /
    • 2022
  • Purpose The development of the network and mobile industries has induced companies to invest in information systems, leading a new industrial revolution. The Journal of Information Systems, which developed the information system field into a theoretical and practical study in the 1990s, retains a 30-year history of information systems. This study aims to identify academic values and research trends of JIS by analyzing the trends. Design/methodology/approach This study aims to analyze the trend of JIS by compounding various methods, named as TLS mining analysis. TLS mining analysis consists of a series of analysis including Term Frequency-Inverse Document Frequency (TF-IDF) weight model, Latent Dirichlet Allocation (LDA) topic modeling, and a text mining with Semantic Network Analysis. Firstly, keywords are extracted from the research data using the TF-IDF weight model, and after that, topic modeling is performed using the Latent Dirichlet Allocation (LDA) algorithm to identify issue keywords. Findings The current study used the summery service of the published research paper provided by Korea Citation Index to analyze JIS. 714 papers that were published from 2002 to 2012 were divided into two periods: 2002-2011 and 2012-2021. In the first period (2002-2011), the research trend in the information system field had focused on E-business strategies as most of the companies adopted online business models. In the second period (2012-2021), data-based information technology and new industrial revolution technologies such as artificial intelligence, SNS, and mobile had been the main research issues in the information system field. In addition, keywords for improving the JIS citation index were presented.

SNS 빅데이터 분석을 활용한 국립과학관에 대한 이미지 분석과 경영전략 제안 (Image Analysis and Management Strategy for The National Science Museum Utilizing SNS Big Data Analysis)

  • 신성연
    • 한국산학기술학회논문지
    • /
    • 제21권1호
    • /
    • pp.81-89
    • /
    • 2020
  • 본 연구의 목적은 대중들이 지각하는 과학관에 대한 인식의 분석을 바탕으로 효과적인 과학관 경영전략을 제시하는 것이며, 이를 위해 연구문제들을 설정하여 분석을 진행하였다. 자료의 수집과 분석은 질적연구방법과 양적연구방법을 융합하여 이미지 분석에 대한 새로운 접근방식을 통해 진행되었다. 먼저 면담(Interviewing)을 통한 질적연구방법을 통해 면접 대상자들(대학생, 대학원생 및 일반인)로부터 과학이라는 개념에 대한 이미지를 도출한 후 텍스트 분석을 실시하였다. 그리고 국립과학관과 관련하여 국내 대형 포털사이트 검색결과 중 블로그 포스팅 12,920건의 제목에서 추출한 63,987개의 단어에 대한 LDA기반 토픽 모델링(Latent Dirichlet Allocation Topic modeling)을 통한 양적연구방법을 융합하여 연구가 진행되었다. 분석결과, 응답자 특성에 따라 과학에 대한 인식은 차이가 있는 것으로 확인되었다. 국립과학관에 대한 포털사이트 검색결과는 20개의 토픽으로 도출되었고 7개의 요인으로 분류되었다. 본 연구의 결론에는 이에 대한 논의와 과학관 경영전략을 제시하고 있다.