• 제목/요약/키워드: Knowledge-Based Data Mining

검색결과 263건 처리시간 0.023초

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

Development of a Method for Analyzing and Visualizing Concept Hierarchies based on Relational Attributes and its Application on Public Open Datasets

  • Hwang, Suk-Hyung
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권9호
    • /
    • pp.13-25
    • /
    • 2021
  • 인터넷과 정보통신, 인공지능기술을 기반으로 하는 디지털 혁신 시대를 맞이하면서 거대한 규모의 데이터집합이 발생, 수집, 축적되어, 다양한 공공기관에서 온라인에 오픈하여 유용한 공공정보를 제공하고 있다. 데이터를 분석하여 유용한 통찰력과 정보를 얻기 위하여, 데이터집합에 내재되어 있는 객체와 속성 사이의 이진 관계를 기반으로 데이터를 분석, 분류, 군집화 및 시각화하는 형식개념분석기법이 성공적으로 사용되어 왔다. 본 논문에서는 형식개념분석기법을 확장하여, 객체의 속성뿐만 아니라 객체들 사이의 관련 관계를 기반으로 데이터집합을 분류하고 개념화하여 가시화하기 위한 기법과 지원도구를 제안한다. 일부 공공 오픈 데이터집합을 대상으로 본 논문의 제안기법을 적용하여 몇 가지 실험을 수행한 결과, 데이터집합으로부터 개념 계층구조를 생성하고 시각화하여 보다 유용한 지식을 추출함으로써 제안기법의 타당성과 유용성을 실증하였다. 본 논문에서 제안한 분석기법은 효과적인 데이터분석, 분류, 군집화, 시각화, 정보검색 등을 위한 유용한 도구로 사용될 수 있다.

Imbalanced SVM-Based Anomaly Detection Algorithm for Imbalanced Training Datasets

  • Wang, GuiPing;Yang, JianXi;Li, Ren
    • ETRI Journal
    • /
    • 제39권5호
    • /
    • pp.621-631
    • /
    • 2017
  • Abnormal samples are usually difficult to obtain in production systems, resulting in imbalanced training sample sets. Namely, the number of positive samples is far less than the number of negative samples. Traditional Support Vector Machine (SVM)-based anomaly detection algorithms perform poorly for highly imbalanced datasets: the learned classification hyperplane skews toward the positive samples, resulting in a high false-negative rate. This article proposes a new imbalanced SVM (termed ImSVM)-based anomaly detection algorithm, which assigns a different weight for each positive support vector in the decision function. ImSVM adjusts the learned classification hyperplane to make the decision function achieve a maximum GMean measure value on the dataset. The above problem is converted into an unconstrained optimization problem to search the optimal weight vector. Experiments are carried out on both Cloud datasets and Knowledge Discovery and Data Mining datasets to evaluate ImSVM. Highly imbalanced training sample sets are constructed. The experimental results show that ImSVM outperforms over-sampling techniques and several existing imbalanced SVM-based techniques.

텍스트마이닝 기법을 통한 직업상담서비스산업의 직무 및 지식구조 분석 (Textmining-Based Analysis for Duty and Knowledge structure of Vocational Counseling Service Industry)

  • 육동인
    • 한국산학기술학회논문지
    • /
    • 제18권9호
    • /
    • pp.366-376
    • /
    • 2017
  • 본 논문은 빅데이터 분석방법인 텍스트마이닝 기법과 네트워크분석을 활용하여 직업상담서비스 산업의 직무와 지식구조를 분석하기 위한 것이다. 정부에서 추진하는 국가직무능력표준(NCS)에서 제시한 직업상담, 전직지원, 취업알선 세 분야의 능력단위요소를 조사 대상으로 하였다. 사용빈도수가 높았던 단어들에 대한 분석결과 이 세 분야는 각각의 독자적인 직무도 있었지만 내담자, 구직자 등을 대상으로 상담, 검사, 취업지원 등 중복된 직무가 많았다. 직업상담서비스 분야 종사자들에게 요구되는 지식은 직업상담사 자격시험에 포함되어 있는 직업심리학, 직업상담학, 노동시장론, 직업정보론, 법률 등 5가지 외에도 창업, 생애진로, 직업적응, 문화충돌 등 새로운 분야가 다수 포함되어 있었다. 또한 상담자들에게는 공감, 수용, 경청 등 감성적인 접근과 함께 객관적, 가치중립, 정확 등의 태도를 중시하는 등 가치중립적인 입장을 견지할 것을 제시했다. 본 논문은 직업상담서비스분야의 직무를 빅데이터 분석을 통해 객관적으로 분석한 첫 시도라는 점에서 의의가 있다. 또한 정부의 정책방향과 실제 산업 현장의 차이를 처음으로 구체적으로 확인했다는 점도 의미있다고 할 수 있다.

특허정보의 NLP 분석을 통한 R&D 계획수립 방안 연구: 디스플레이 기술 분석을 중심으로 (Research on R&D Planning Through NLP Analysis of Patent Information: Focusing on Display Technology)

  • 김정희;김영민
    • 한국산업융합학회 논문집
    • /
    • 제25권5호
    • /
    • pp.817-826
    • /
    • 2022
  • Patent information describes the history of technological progress in the relevant field, so it can be usefully used to identify trends in technological development and change and to establish R&D development strategies. This study proposes a method to identify the needs and problems of technology development at the planning stage of the R&D process and to analyze core technologies through patent analysis using Natural Language Processing(NLP) technology. As a big data source, collected patent documents registered in Google Patents for foldable technology, the latest technology in the display industry, and then extracted keywords using NLP analyzer. By classifying the extracted keywords into needs and problems for technology development, developed technology and materials, identified the needs of the market and customers and analyzed the technologies being researched and developed. Unlike previous studies that performed patent analysis, this methodology is different in that it can quickly and conveniently analyze the latest technology trends from big data called patents even if you do not have specialized knowledge and skills in the text mining. This study contributes to the digitalization of the R&D process based on data analysis.

산학협력 및 기술이전 촉진을 위한 텍스트마이닝과 사회 네트워크 분석 기반의 특허 분석 방법 (Text Mining and Social Network Analysis-based Patent Analysis Method for Improving Collaboration and Technology Transfer between University and Industry)

  • 이지형;김종우
    • 한국전자거래학회지
    • /
    • 제22권3호
    • /
    • pp.1-28
    • /
    • 2017
  • 지식기반 경제에서 산학협력의 중요성이 커짐에 따라 산학협력에 대한 지원과 연구들이 증가함에도 불구하고 산학협력의 특허 성과인 기술이전 및 기술료 수입은 낮은 편인데, 그 이유는 사업화 가치가 없는 특허들을 과도하게 출원하였기 때문이다. 따라서 본 연구에서는 산학협력 및 기술이전이 가능한 특허를 분석하는 방법을 제안한다. 분석을 위한 특허데이터는 WIPSON을 통하여 4개 대학, 1,061개 특허정보를 수집하여 분석에 활용하였다. 분석 방법은 대학이 보유한 산학협력단의 미국 특허를 대상으로 Quality-Strategy Matrix를 작성하고, Matrix의 Advanced Quality Technology 영역의 특허를 대상으로 텍스트마이닝과 사회네트워크 분석을 실시한 뒤, 핵심 키워드와 IPC 코드를 도출하여 대학별 핵심특허를 분석하였다. 분석결과, H 대학은 4개의 핵심특허와 2개의 핵심 IPC 코드를 도출하였으며, K 대학의 경우 4개의 핵심특허와 2개의 핵심 IPC 코드, Y 대학의 경우 6개의 핵심특허와 1개의 핵심 IPC 코드, 마지막으로 S 대학의 경우 14개의 핵심특허와 2개의 핵심 IPC 코드를 각각 도출하였다. 본 연구는 산학협력 및 기술이전이 가능한 특허와 IPC 코드를 분석하여 대학의 산학협력의 활성화에 기여하는데 그 의의가 있다.

비정형 빅데이터를 이용한 COVID-19 주요 이슈 분석 (Analysis of Major COVID-19 Issues Using Unstructured Big Data)

  • 김진솔;신동훈;김희웅
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.145-165
    • /
    • 2021
  • 2019년 12월 말, 전 세계를 혼란에 빠트린 코로나바이러스감염증-19(COVID-19)의 팬데믹이 시작되었다. 이러한 위기를 극복하고 피해를 최소화하기 위해 정부와 기관에서는 기존의 정책지원 효과를 극대화하고 변화하는 사회를 반영한 전방위적 대응책 마련이 필요하다. 사회적으로 부각되는 논제와 관심사항의 주제를 파악하기 위해, 본 연구는 소셜미디어의 빅데이터를 통해 코로나19와 관련된 주요 생각, 태도, 감정 등을 파악한다. 특히 정부의 대응에 관한 대중의 견해를 알기 위해 '정부 대응방향'을 기준으로 시기를 나누어 분석을 진행했다. 분석에 활용한 데이터는 네이버를 통해 2019년 12월 31일부터 2020년 12월 12일까지 수집되었다. 또한, 분석을 위해 텍스트마이닝 기법 중 TF-IDF 키워드 추출과 LDA 토픽모델링을 활용하였다. 그 결과, 8개의 코로나19 관련 주요 이슈가 도출되었으며, 이러한 이슈 사항과 주요 키워드를 기반으로 해당 분야에서의 코로나19 및 감염병 대응 정책 전략을 제시하였다. 본 연구는 코로나19 팬데믹과 같은 위기상황에 정부와 관련 기관이 국민의 필요와 요구에 따른 정확한 대응책을 마련하는 데 기초자료를 제공했다는 점에서 의의를 가진다.

다양한 웹 데이터를 이용한 특정 유기체의 단백질 상호작용 데이터베이스 개발 (Development of an Organism-specific Protein Interaction Database with Supplementary Data from the Web Sources)

  • 황두성
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1091-1096
    • /
    • 2002
  • 이 논문은 단백질 상호작용 데이터베이스 개발에 관해 기술한다. 개발된 시스템의 특징으로서는 첫째, 생물학자들의 직접적인 실험을 통해 얻어진 단백질 상호작용 및 유전인자 데이터를 제공한다. 둘째, 생물학적으로 관련 있는 다양한 형식의 데이터를 wrapper를 통해 광범위하게 분포된 웹사이트들로부터 추출한다. 셋째, 다양한 웹 데이터들 간의 어휘적, 의미적 이질성을 완화하기 위해 wrapper-mediator에 의한 계층적 모듈 구조를 이용하여 추출된 데이터는 통합 과정을 거친 후, 데이터베이스 저장 및 검색을 가능하게 하였다. 현재까지, 주어진 약 11,500 단백질들에 대해, 생물적으로 의미 있는 데이터를 약 40% 정도 데이터베이스 화 했다. 본 개발된 시스템은 프로티오믹스 연구에서 데이터 분석에 유용할 것으로 기대된다.

웹 애플리케이션 기반의 텍스트 데이터 분석 모델 (Text Data Analysis Model Based on Web Application)

  • 진고환
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.785-792
    • /
    • 2021
  • 4차 산업혁명 이후 인공지능, 빅 데이터와 같은 기술들의 발전으로 사회 전반에 다양한 변화가 일어나고 있으며, 핵심적인 기술 적용 과정에서 수집할 수 있는 데이터의 양도 급속하게 증가하고 있는 추세이다. 특히 학계에서는 연구 동향을 파악하기 위하여 기존에 생성된 문헌 데이터에 대한 분석이 이루어지고 있으며, 이러한 문헌 분석은 연구의 흐름을 정리하고, 어떤 연구 방법론이나 주제, 또는 현재 학계에서 화두가 되고 있는 대상에 대한 파악을 통하여 향후 연구 방향 설정에 많은 기여를 하고 있는 상황이다. 그러나 문서 데이터의 분석을 위하여 데이터 수집이 필요하나, 일반적으로 프로그램에 대한 전문 지식이 없는 경우 접근하기 어렵다. 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 제안 모델을 통하여 데이터 분석 기법에 대한 전문적인 지식이 부족하더라도, 연구 논문의 수집, 저장, 텍스트 분석과 같은 다양한 작업을 진행할 수 있으며, 연구자들이 선행 연구 분석과 연구 동향을 파악하기 위하여 데이터 분석에 투입되는 시간 및 노력을 단축시킬 수 있을 것으로 기대된다.

데이터마이닝 기법을 활용한 의료보험 진료비청구 삭감분석시스템 개발 및 구현에 관한 연구 (A Study on the Development and Implementation of a Data-mining Based Prototype for Hospital Bill Claim Reduction System)

  • 유상진;박문로
    • 경영정보학연구
    • /
    • 제7권1호
    • /
    • pp.275-295
    • /
    • 2005
  • 경제의 세계화와 지식정보화 사회로의 진입과 함께 초래된 경영환경의 급속한 변화는 의료기관들에게도 경쟁력강화를 위한 변신을 강요하게 되었다. 다시 말하면, 의료기관들은 선진 의료기술의 확보, 환자들에 대한 서비스제고와 함께 경영의 효율성 증대라는 세가지 목표를 동시에 달성해야만 하는 상황에 놓이게 된 것이다. 본 연구는 의료기관들이 당면하고 있는 이러한 세가지 과제 중 병원의 경영효율성 증대를 위한 한가지 대안으로 진료비 청구삭감의 빈도 및 발생 가능성을 낮추기 위한 해법의 마련이 시도되었다. 진료비청구삭감이란 의료기관들이 환자들에 대한 의료서비스에 대한 진료비 중 의료보험으로 인해 환자들이 감면 받은 진료비를 건강보험심사원에 청구하면, 심사원이 의료기관의 청구내역의 적정여부를 심사하여 적정하지 않은 내용에 대한 청구금액을 삭감하는 제도를 이른다. 청구금액에 삭감이 발생하면 해당 의료기관의 수입이 감소하는 것은 물론 원인분석이나 재청구 작업등에 비용과 인력이 이중으로 투입되게 되어 의료기관의 경영에 부담을 주게 되고, 이러한 상황이 빈발하게 되면 해당 의료기관에 대한 환자와 건강보험심사평가원의 신뢰에 문제가 발생하게 된다. 그러므로, 효과적인 진료비 청구삭감분석시스템에 의한 사전대비의 필요성이 높아지게 되는 것이다. 이를 위하여 본 연구에서는 진료비 청구삭감분석을 위한 프로토타입의 개발이 시도되었다. 프로토타입은 데이터마이닝 기법 중 연관분석 알고리즘을 적용하여 개발되었으며, 이렇게 개발된 프로토타입을 D의료원에서 10개월간 발생한 실제 진료데이타를 사용하여 성능을 시험하였다.