• 제목/요약/키워드: unstructured text data

검색결과 226건 처리시간 0.026초

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

소셜빅데이터 수집 및 분석을 위한 아동청소년 학교폭력 온톨로지 개발 (Ontology Development of School Bullying for Social Big Data Collection and Analysis)

  • 한윤선;김하영;송주영;송태민
    • 한국콘텐츠학회논문지
    • /
    • 제19권6호
    • /
    • pp.10-23
    • /
    • 2019
  • 소셜빅데이터는 아동청소년의 학교폭력 현상에 대한 풍부하고 다각적 시각을 제공할 수 있지만, 복잡하고 다양한 비정형 텍스트로 구성되어 있어 자료의 체계적인 수집과 활용이 어렵다. 소셜빅데이터의 수많은 정보 가운데 의미 있는 개념을 추출하고 자료를 효과적으로 수집하기 위해서는 연구주제에 상응하는 핵심용어를 명시하고, 해당 개념 간의 관계를 나타내주는 온톨로지의 역할이 중추적이다. 본 연구는 온톨로지의 개념을 정리하고, 7단계에 걸친 온톨로지 개발 과정을 구체적으로 설명한 후, 학교폭력 소셜빅데이터 수집 및 분석을 위한 온톨로지 구축에 적용하였다. 그 결과, 학교폭력의 대상, 원인, 유형, 장소, 지역, 대응방안 6가지 영역을 중심으로 최상위 계층인 대분류를 구성하고, 중분류 및 소분류 체계를 거쳐 총 2,400여 개의 핵심용어를 도출하였다. 본 연구의 의의는 온톨로지 수집 및 개발과정을 설명하고, 기존의 연구방법과는 다소 차별을 두는 소셜빅데이터를 활용한 연구모형을 학교폭력 연구에 제시하였다는 것이다. 소셜빅데이터 분석의 기초가 되는 온톨로지 개발 연구는 좁게는 학교폭력 대상자들에 대한 이해를 제고시킬 뿐 아니라, 거시적으로는 학교폭력이라는 사회현상을 바라보는 한국사회의 시각에 대한 정보를 제공하는 실천적 함의가 있다.

K-Beauty 구전효과가 온라인 매출액에 미치는 영향: 중국 SINA Weibo와 Meipai 중심으로 (Word-of-Mouth Effect for Online Sales of K-Beauty Products: Centered on China SINA Weibo and Meipai)

  • 류미나;임규건
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.197-218
    • /
    • 2019
  • 중국 화장품 전체 교역중 약 67% 정도가 전자상거래로 이루어지고 있는데 특히 한국 화장품인 K-Beauty 제품의 인기가 높다. 기존 연구에 의하면 화장품 같은 소비재의 경우 소비자의 80%는 제품 구매 전 제품정보를 인터넷으로 검색하며 구전정보에 영향을 받는다. 대부분의 중국 소비자들은 화장품과 관련된 정보를 주요 SNS에 다른 소비자들이 올린 댓글을 통해 획득하며 최근에는 뷰티 관련 동영상 채널 정보를 이용하기도 한다. 기존의 온라인 구전 관련 연구는 대부분 Facebook, Twitter, 블로그 등의 매체 자체가 중심이었다. 본 연구에서는 온라인 구전정보의 전달 형태와 정보의 형태를 고려하여 정보유형을 동영상과 사진 및 텍스트로 나누어 연구하고자 한다. 중국의 SNS대표 플랫폼인 SINA Weibo와 동영상 플랫폼 Meipai의 비정형 데이터를 분석하고 온라인 구전정보를 양과 방향성으로 나누어 K-Beauty브랜드 매출액에 미치는 영향을 분석하고자 한다. Meipai에서는 총 약 33만개의 데이터를 수집하였고 SINA Weibo에서는 총 약 11만개의 데이터를 수집하여 화장품의 기본 속성도 고려하여 분석하였다. 본 연구의 의의는 온라인 매출은 K-Beauty화장품에 대해서도 구전에 영향을 받는다는 것을 기본적으로 입증함과 동시에 특히 정보 유형에 대한 구분을 시도 했다는 것이다. 두가지 매체 모두 기존 연구와 같이 양이 매출에 영향을 미치고 있으나 매체풍부성으로 인해 텍스트보다 동영상이 정보를 더 주고 영향이 크다는 것을 입증하였다. 또한, 정보 방향성 측면에서는 색조화장품의 경우 부정 댓글의 영향이 크게 나타났다. 실무적으로는 화장품 판매 전략 및 광고 전략에 기초 및 색조 화장품을 구분하여 중국 K-Beauty화장품 매출증대를 위한 마케팅전략을 구사하는데 도움이 될 것으로 기대된다.

통합적 고찰과 키워드 분석을 이용한 최근 10년(2008-2017) 동안의 국내 중환자간호 연구 동향 분석 (A Study of the Trends in Korean Nursing Research on Critical Care in the Last 10 Years (2008-2017) Using Integrated Review and Key Word Analysis)

  • 강지연;김수경;조영신;고현영;백지현;이수진
    • 중환자간호학회지
    • /
    • 제11권2호
    • /
    • pp.75-85
    • /
    • 2018
  • Purpose : The purpose of this study was to examine the possible direction of critical care nursing research in the future by analyzing the trends of recent Korean studies. Method : Using a database search, we selected 263 articles on critical care nursing that were published in Korean journals between 2008 and 2017. Then, we conducted an integrative review of the contents of the selected articles and analyzed the English abstracts using the relevant packages and functions of the R program. Results : The number of studies concerning critical care nursing has increased over the 10-year period, and the specific topic of each study has diversified according to the time at which it was conducted. In terms of quality, the majority of the research was published in high-level academic journals. The key words regularly studied over the past decade were: knowledge, delirium, education, restraint, stress, and infection. Studies related to vancomycin-resistant enterococci infection, compliance, and standards have decreased, while studies related to death, communication, and safety have increased. Conclusion : Randomized controlled trials and protocol research for evidence-based critical care need to be conducted, as does research on family involvement. The key word analysis of unstructured text used in this study is a relatively new method; it is suggested that this method be applied to various critical care nursing research and develop it methodologically.

패션 속성기반 혼합현실 시각화 서비스 (Fashion attribute-based mixed reality visualization service)

  • 유용민;이경욱;김경선
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.2-5
    • /
    • 2022
  • 딥러닝의 등장과 ICT(Information and Communication Technology)의 급속한 발전으로 정치, 경제, 문화 등 사회의 다양한 분야에서 인공지능을 활용한 연구가 활발히 진행되고 있다. 딥러닝 기반 인공지능 기술은 자연어 처리, 영상 처리, 음성 처리, 추천 시스템 등 다양한 영역으로 세분화된다. 특히, 산업이 고도화됨에 따라 시장 동향 및 개인의 특성을 분석하여 소비자에게 추천하는 추천 시스템의 필요성이 점점 더 요구되고 있다. 이러한 기술 발전에 발맞추어, 본 논문에서는 딥러닝 기반 '언어처리지능' 과 '영상처리지능'의 기술개발을 통해 정형 또는 비정형 텍스트 및 이미지 빅데이터로부터 속성 정보를 추출 추출하고, 분류하여 패션시장의 트랜드나 신규소재 등을 분석하고 소비자의 취향 분석을 통하여 '시장-소비자' 인사이트를 발굴하여, 스타일 추천, 가상 피팅, 및 디자인지원 등이 가능한 인공지능 기반 '맞춤형 패션 어드바이저' 서비스 통합 시스템을 제안한다.

  • PDF

토픽 모델링을 활용한 광범위 선천성 대사이상 신생아 선별검사 관련 온라인 육아 커뮤니티 게시 글 분석: 계량적 내용분석 연구 (Analysis of online parenting community posts on expanded newborn screening for metabolic disorders using topic modeling: a quantitative content analysis)

  • 이명선;정현숙;김진선
    • 여성건강간호학회지
    • /
    • 제29권1호
    • /
    • pp.20-31
    • /
    • 2023
  • Purpose: As more newborns have received expanded newborn screening (NBS) for metabolic disorders, the overall number of false-positive results has increased. The purpose of this study was to explore the psychological impacts experienced by mothers related to the NBS process. Methods: An online parenting community in Korea was selected, and questions regarding NBS were collected using web crawling for the period from October 2018 to August 2021. In total, 634 posts were analyzed. The collected unstructured text data were preprocessed, and keyword analysis, topic modeling, and visualization were performed. Results: Of 1,057 words extracted from posts, the top keyword based on 'term frequency-inverse document frequency' values was "hypothyroidism," followed by "discharge," "close examination," "thyroid-stimulating hormone levels," and "jaundice." The top keyword based on the simple frequency of appearance was "XXX hospital," followed by "close examination," "discharge," "breastfeeding," "hypothyroidism," and "professor." As a result of LDA topic modeling, posts related to inborn errors of metabolism (IEMs) were classified into four main themes: "confirmatory tests of IEMs," "mother and newborn with thyroid function problems," "retests of IEMs," and "feeding related to IEMs." Mothers experienced substantial frustration, stress, and anxiety when they received positive NBS results. Conclusion: The online parenting community played an important role in acquiring and sharing information, as well as psychological support related to NBS in newborn mothers. Nurses can use this study's findings to develop timely and evidence-based information for parents whose children receive positive NBS results to reduce the negative psychological impact.

Automated Prioritization of Construction Project Requirements using Machine Learning and Fuzzy Logic System

  • Hassan, Fahad ul;Le, Tuyen;Le, Chau;Shrestha, K. Joseph
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.304-311
    • /
    • 2022
  • Construction inspection is a crucial stage that ensures that all contractual requirements of a construction project are verified. The construction inspection capabilities among state highway agencies have been greatly affected due to budget reduction. As a result, efficient inspection practices such as risk-based inspection are required to optimize the use of limited resources without compromising inspection quality. Automated prioritization of textual requirements according to their criticality would be extremely helpful since contractual requirements are typically presented in an unstructured natural language in voluminous text documents. The current study introduces a novel model for predicting the risk level of requirements using machine learning (ML) algorithms. The ML algorithms tested in this study included naïve Bayes, support vector machines, logistic regression, and random forest. The training data includes sequences of requirement texts which were labeled with risk levels (such as very low, low, medium, high, very high) using the fuzzy logic systems. The fuzzy model treats the three risk factors (severity, probability, detectability) as fuzzy input variables, and implements the fuzzy inference rules to determine the labels of requirements. The performance of the model was examined on labeled dataset created by fuzzy inference rules and three different membership functions. The developed requirement risk prediction model yielded a precision, recall, and f-score of 78.18%, 77.75%, and 75.82%, respectively. The proposed model is expected to provide construction inspectors with a means for the automated prioritization of voluminous requirements by their importance, thus help to maximize the effectiveness of inspection activities under resource constraints.

  • PDF

SNS감성 분석을 이용한 주가 방향성 예측: 네이버 주식토론방 데이터를 이용하여 (Stock Price Prediction Using Sentiment Analysis: from "Stock Discussion Room" in Naver)

  • 김명진;류지혜;차동호;심민규
    • 한국전자거래학회지
    • /
    • 제25권4호
    • /
    • pp.61-75
    • /
    • 2020
  • 주식의 가격을 이해하고 예측하기 위해서 활용되는 데이터의 범위는 기존의 정형화된 데이터에서 비정형화된 다양한 종류의 데이터로 확대되고 있다. 본 연구는 SNS에서 수집된 댓글 데이터가 주식의 미래 가격의 변동에 영향을 미치는지를 조사한다. 가장 많은 주식투자자가 참여하는 커뮤니티인 네이버 주식토론방에서 20개 종목에 대한 6개월 간의 댓글 데이터를 수집하여, 이들 데이터가 1시간 후의 가격 변동의 방향과 가격 변동의 폭에 대한 예측력을 가지는지 조사한다. 예측 관계는 LSTM과 CNN등의 딥뉴럴네트워크 기법을 활용하여 모델링하였다. 20개 종목에 대해 조사하여 13개 종목에서 미래의 주가 이동 방향을 50% 이상의 정확도로 예측할 수 있다는 결과를 얻었고, 16개 종목에서 미래의 주가 변동폭을 50% 이상의 정확도로 예측할 수 있다는 결과를 얻었다. 본 연구는 네이버 주식토론방과 같은 SNS에서 형성된 여론이 주식 종목의 수급에 영향을 주어 가격의 변동 요인으로도 작용할 수 있다는 점을 확인한다.