• 제목/요약/키워드: 텍스트 마이닝 분석

검색결과 1,004건 처리시간 0.031초

빅데이터 처리 기술을 활용한 비정형데이터 분석 모델링 구축 (Building Modeling for Unstructured Data Analysis Using Big Data Processing Technology)

  • 김정훈;김성진;권기열;주다혜;오재용;이준동
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.253-255
    • /
    • 2020
  • 기업 및 기관 데이터는 워드프로세서, 프레젠테이션, 이메일, open api, 엑셀, XML, JSON 등과 같은 텍스트 기반의 비정형 데이터로 구성되어 있습니다. 텍스트 마이닝(Textmining)을 통해서 자연어 처리 및 기계학습 등의 기술을 이용하여 정보의 추출부터 요약·분류·군집·연관도 분석 등의 과정을 수행울 진행한다. 다양한 시각화 데이터를 보여줄 수 있는 다양한 모델 구축을 진행한 후 민원 신청 내용을 분석 및 변환 작업을 진행한다. 본 논문은 AI 기술과 빅데이터를 활용하여 민원을 분석을 하여 알맞은 부서에 민원을 자동으로 할당해 주는 기술을 다룬다.

  • PDF

위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델 (A Semantic Text Model with Wikipedia-based Concept Space)

  • 김한준;장재영
    • 한국전자거래학회지
    • /
    • 제19권3호
    • /
    • pp.107-123
    • /
    • 2014
  • 텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 'Bag-of-Words' 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트 마이닝 기술은 대상 문서를 'Bag-of-Words' 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안 모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념 수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 'Bag-of-Word' 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다.

텍스트 마이닝을 활용한 4차 산업혁명 핵심기술 연관분석 (The Fourth Industrial Revolution Core Technology Association Analysis Using Text Mining)

  • 류재한;유연우
    • 디지털융복합연구
    • /
    • 제16권8호
    • /
    • pp.129-136
    • /
    • 2018
  • 본 연구는 기술을 이전하겠다고 KIAT의 NTB에 등록된 이전기술이 4차 산업혁명 핵심기술의 어느 분야와 관련되어 있으며, 이러한 기술의 기술이전 유형에 관해 분석하였다. 분석에 사용된 기술은 대학과 공공연구소에서 개발한 최근 3년(2015 - 2017)간의 것이다. 연구는 R프로그램을 활용해 빅데이터 텍스트 마이닝의 빈도분석, 시각화, 연관분석 등으로 진행하였다. 연구 결과는 첫째, 4차 산업혁명 핵심기술 응용분야와 관련된 이전기술은 로봇, 3D, 자율주행, 웨어러블 등과 관련한 기술이 많았고 둘째, 연도가 지날수록 사물인터넷, 클라우드, 증강현실 등과 같은 응용분야 기술의 등록이 증가하고 있으며 셋째, 응용분야 기술의 기술이전 유형의 연관규칙을 분석한 결과 사물인터넷(IoT)과 VR 기술은 기술매매 라이센싱, 자율주행 기술은 기술매매, 웨어러블 기술은 라이센싱, 로봇 관련기술은 기술협력 라이센싱 기술매매 등으로 이전하겠다고 나타났다. 이에, 기업은 4차 산업혁명 시대에 필요한 관련 기술을 이전받고자 할 경우 이의 계획적 준비가 필요하다고 하겠다.

텍스트 마이닝을 이용한 국내 기록관리학 분야 지적구조 분석 (Examining the Intellectual Structure of Records Management & Archival Science in Korea with Text Mining)

  • 이재윤;문주영;김희정
    • 한국문헌정보학회지
    • /
    • 제41권1호
    • /
    • pp.345-372
    • /
    • 2007
  • 이 연구에서는 텍스트 마이닝의 주요 기법인 문헌 클러스터링과 문헌 유사도 네트워크 분석을 적용하여 기록관리학 연구의 지적구조를 분석하였다. 대상 데이터는 2001년부터 2006년까지 발간된 국내 문헌정보학 영역의 대표적인 저널 5종에서 선정된 기록관리학 관련 논문 145건을 중심으로 분석하였다. 군집단위 지적구조 분석 결과, 국내에서 수행된 기록관리학 영역의 핵심적인 주제 영역은 <전자기록관리 디지털보존>, <기록관리정책 제도>, <기록물 기술/목록>, <기록관리학 영역/교육>이었으며, 문헌단위 지적구조 분석을 통하여서는 <디지털 아카이빙> 주제 영역이 중심을 이루고 있음을 확인할 수 있었다. 또한 시기별 분석을 통해서는 <기록정보서비스> 영역이 새롭게 등장하고 있음이 드러났다.

텍스트 마이닝과 연관 관계 분석을 이용한 건축역사 용어 분석 (Analyzing Architectural History Terminologies by Text Mining and Association Analysis)

  • 김민정;김철주
    • 디지털융복합연구
    • /
    • 제15권1호
    • /
    • pp.443-452
    • /
    • 2017
  • 건축의 한 분야인 동시에 역사학의 한 분야이기도 한 건축역사는 건축양식의 변천을 다루기는 하나 사회적, 경제적, 문화적, 기술적 상황 등의 시대 배경을 종합적으로 고찰할 필요가 있다. 그러므로 건축역사에서 주로 사용되는 용어는 다양한 분야를 아우를 수밖에 없다. 따라서 본 연구에서는 건축역사 관련 문헌을 대상으로 텍스트 마이닝과 연관 관계 분석을 수행하여 어떤 용어가 건축역사에서 핵심적인 용어인지를 파악해보았다. 우선 국내 건축역사 분야 유일한 학술지인 "건축역사연구"를 선정하여 지금까지 게재된 논문의 제목과 주제어, 초록에 사용된 용어 중 고빈도로 출현하는 핵심 용어들을 도출하였다. 다음으로 연구 분야별 문헌들을 구분하여 핵심 용어의 특징을 분석하였다. 마지막으로, 연관 관계 분석을 통해 핵심 용어들 간에 유기적인 관계를 분석하고 시각화하였다. 이러한 건축역사 핵심 용어의 파악은 건축역사 분야의 지금까지의 논의 내용과 향후 방향성을 이해하는데 유용할 것이다.

게임 관련 이슈 분석을 통한 관련 정책 발전 방향에 관한 연구: 운형함수와 텍스트마이닝 분석을 활용하여 (A Study on the Direction of Development of Related Policies with Game-related Issue Analysis: Using Text Mining and Spline Function Analysis of Newspaper Articles)

  • 장유미;유한별
    • 한국콘텐츠학회논문지
    • /
    • 제22권3호
    • /
    • pp.513-528
    • /
    • 2022
  • 본 연구는 한국의 게임 관련 이슈에 대한 분석과 게임 관련 계획·예산 등 정책에 대한 분석을 진행하여, 향후 관련 정책의 실효성을 높이고, 해당 정책의 사회적 통념과의 일치성을 높이고자 하는데 목적이 있다. 한국은 '음반·비디오물 및 게임물에 관한 법률'로 최초 게임을 규정하고 관련 법제를 확립한 이후 게임산업 진흥과 이스포츠 진흥 등 다양한 법제를 확립해왔다. 하지만 게임산업은 지속적으로 발전하고 있으며, 그 변화 속도는 4차 산업과 AI, 메타버스(metaverse) 등의 등장으로 더욱 빨라지고 있다. 본 연구에서는 이러한 배경에 따라 한국의 신문기사의 변동을 운형함수와 텍스트마이닝 방법으로 분석하여 관련 이슈화를 분석하고, 이슈의 증폭이 나타난 시점에서의 신문기사 내용을 분석해봄으로써 게임 관련 정책에 대한 환류(feedback)를 진행하여 향후 게임 관련 정책에서 다루어야 할 주요 쟁점과 발전방향을 제시한다. 분석결과, 게임 관련 이슈는 다양하게 나타났으며, 게임 관련 규제(과세, 도박 규제, 게임중독 질병화, 수수료 확대 저지) 등과 정부와 지자체의 지원이 공존하였다. 정부는 규제에도 불구하고 지원의 증대와 게임진흥정책에 따라 본 연구에서는 메타버스, NFT 등이 게임에 적용됨으로써 나타나는 문제의 선제적 대응과 게임 관련 전문가 육성, 스타트업 지원, 인력이탈 방지 지원 등을 정책적 함의로 제시한다.

텍스트 마이닝을 통한 건설공사 공문 잠재적 리스크 유형 분석 (Analysis of Potential Construction Risk Types in Formal Documents Using Text Mining)

  • 엄세호;차기춘;박선규;박승희;박종호
    • 대한토목학회논문집
    • /
    • 제43권1호
    • /
    • pp.91-98
    • /
    • 2023
  • 건설프로젝트에서 발생되는 리스크는 공기지연 및 비용증가에 큰 영향을 끼치기 때문에 다양한 리스크를 파악하기 위한 노력이 이루어지고 있다. 그러나 시공단계의 리스크 분석은 공종 및 수행단계에 국한되거나, 경험 의존적 의사결정이 주로 수행되고 있다. 데이터 기반의 분석도 일부 사례에 적용되고 있을 뿐이다. 따라서 본 연구에서는 시공사 또는 발주처에 중요한 요인들이 포함되어 있을 것으로 판단되는 수발신공문을 대상으로 군집분석과 Word2Vec 알고리즘을 적용하였다. 군집분석을 통해 6개 유형으로 1차 분류를 수행하였으며, Word2Vec을 통해 157개의 공문 발생 유형을 도출하였다. 도출된 연관어의 속성별 분석을 위하여 새로운 5개의 범주를 적용하였으며, 이를 통해 공문 발생 유형이 잠재적인 건설 리스크 요인으로 발전 가능한지 검토하였다. 텍스트 마이닝을 통한 3단계의 공문 발생 유형 분석 결과는 건설현장의 공정관리를 위한 기초 자료로써 도움 될 것으로 판단된다.

스마트제조를 위한 머신러닝 기반의 설비 오류 발생 패턴 도출 프레임워크 (A Machine Learning Based Facility Error Pattern Extraction Framework for Smart Manufacturing)

  • 윤준서;안현태;최예림
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.97-110
    • /
    • 2018
  • 4차 산업혁명 시대를 맞아, 제조 기업들은 생산성 향상을 위해 축적된 설비 데이터를 활용하여 스마트제조를 실현하는 것에 높은 관심을 두고 있다. 하지만 기존의 설비 데이터 분석 연구들은 주로 센서 데이터 등 정형 데이터를 대상으로 하여, 실제 큰 비중을 차지하고 있는 텍스트와 같은 비정형 데이터에 대한 분석 연구는 부족한 실정이다. 특히, 작업자가 수기로 작성한 텍스트 데이터를 활용한 사례는 매우 적었다. 따라서 본 논문에서는 작업자가 수기로 작성한 설비 오류 데이터를 분석하여 연관 규칙 마이닝을 통해 설비 오류 발생 패턴을 도출하는 프레임워크를 제안하고자 한다. 이때, 일반적인 텍스트 분석 기법과 같이 단어를 분석 기준으로 사용하는 경우 전문 용어에 해당하는 설비 오류의 의미를 표현하는 데에 한계가 있다는 점에 착안하여 구절을 추출하여 텍스트 분석 기준으로 사용하였다. 제안하는 프레임워크의 성능을 실제 사례를 통해 검증하였으며, 본 연구 결과를 활용하면 설비 오류를 예방하여 가동률을 높이고 나아가 제조 기업의 생산성 향상에 기여할 수 있을 것으로 기대한다.

텍스트마이닝을 활용한 숭례문 관련 기사의 트렌드 분석 (Trend Analysis of News Articles Regarding Sungnyemun Gate using Text Mining)

  • 김민정;김철주
    • 한국콘텐츠학회논문지
    • /
    • 제17권3호
    • /
    • pp.474-485
    • /
    • 2017
  • 국보 제1호인 숭례문은 2008년 2월 10일 화재로 일부가 소실되었으나 화재 이후 복구 작업을 통해 2013년 5월 4일 시민에게 공개되었다. 이로 인해 숭례문은 국가적으로 큰 이슈가 되어 언론의 관심을 받으며 동시에 많은 연구의 대상이 되었다. 본 연구는 문화재로서 숭례문을 키워드로 하여 2002년부터 2016년까지 신문 기사에 대한 빈도분석을 통해 숭례문 관련 어떤 키워드들이 자주 나타나고 있는지에 대해 파악하였다. 또한 추출된 숭례문 관련 키워드들간 연관관계 분석을 통해 키워드간 연결의 맥락을 파악하고 분석하였다. 다음으로 숭례문 화재 전후, 언론사별 주요 키워드 추출을 통해 공통점과 차이점을 보여줌으로써 관점의 다양성을 제공하였다. 본 연구를 통해 문화재로서 숭례문 관련 키워드는 화재 이후에 나타난 키워드가 전체 기사에서 고빈도어로 나타남을 알 수 있었고 몇 가지 키워드간 상관관계가 높게 나타났다. 또한 화재 전후 키워드에는 명확한 차이를 보이고 있었으며 언론사별 키워드에서 상위 키워드들은 명확한 차이는 보여주지 않았지만 차상위 키워드들은 차이가 발생하여 언론사별로 주로 다루어진 기사들의 내용은 차이가 있다는 것을 발견했다. 본 연구는 문화재로서 숭례문 관련 기사에 대해 텍스트마이닝 기법을 활용하여 다량의 데이터를 분석하였음에 의미가 있으며 정보생산자 및 정보소비자들에게 숭례문 관련 기사의 동향과 정보를 제공할 수 있을 것이라 기대한다.

국내 전자정부 연구동향에 대한 정량적 분석: 텍스트 마이닝과 네트워크 분석 기법을 중심으로 (Quantitative Analysis of Research Trends in Korean E-Government Using Text Mining and Network Analysis Methods)

  • 이수인;신신애;강동석;김상현
    • 정보화정책
    • /
    • 제25권4호
    • /
    • pp.84-107
    • /
    • 2018
  • 기존에 수행된 국내 전자정부 동향연구는 정성적 연구방법에만 의존하는 약점을 지니고 있다. 이에 본 연구는 2018년 9월 현재 시점에서 1996~2017년까지의 데이터를 기반으로 정량적 분석을 수행하였다. 텍스트 마이닝을 통해 도출된 연구주제는 총 7가지였으며, 그중에서도 프레임워크와 공공정책 효과의 네트워크 중심성이 높은 것으로 식별되었다. 본 연구결과는 전자정부의 발전을 위해 필요한 학술적/정책적 시사점을 제공하였다. 시사점 중의 하나는 기존 연구가 주로 수행하던 방식인 정성적 분석방법 대신에 정량적 분석방법을 활용하여, 상대적으로 객관성 및 학문의 다양성 확보에 이바지한다는 점이다.