• 제목/요약/키워드: 비정형 텍스트 자료

검색결과 40건 처리시간 0.023초

텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석 (Analysis of patterns in meteorological research and development using a text-mining algorithm)

  • 박홍주;김하빈;박태영;이영섭
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.935-947
    • /
    • 2016
  • 이 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 연구개발분야 과제의 동향에 대하여 분석하였다. 이를 위하여 용어사전을 구축하고, 전처리를 하여 용어-문서 행렬을 만들었다. 이것을 이용해 연도별 용어 빈도수를 측정하고, 자주 나타나는 단어들에 대해서는 상대도수의 변화에 대해서 관찰하였다. 그리고 회귀 분석을 사용하여 증가추세와 감소추세를 가지는 용어들을 파악하였다. 이러한 분석으로 기상청 최근 연구개발 분야의 트렌드를 파악하였다. 이와 같은 연구는 향후 기상청 연구개발에 관한 기초 자료로 사용될 수 있으며, 연구개발의 방향성과 청사진을 제시하는데 이용될 수 있을 것이다.

텍스트 마이닝을 활용한 대선 관련 SNS 분석 (SNS Analysis Related to Presidential Election Using Text Mining)

  • 권영우;정덕길
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.361-363
    • /
    • 2017
  • 최근 소셜 미디어의 이용률이 폭발적으로 증가함에 따라, 방대한 데이터가 네트워크로 쏟아져 나오고 있다. 이들 데이터는 기존의 정형 데이터뿐만 아니라 이미지, 동영상 등의 비정형 데이터가 있으며, 이들을 포괄하여 빅데이터라고 불린다. 이러한 빅데이터는 오피니언 마이닝, 테스트 마이닝 등의 기술적인 분석 기법과 빅데이터 요약 및 효과적인 표현방법에 대한 시각화 기법에 대하여 활발한 연구가 이루어지고 있다. 이 논문은 인기 있는 사회연결망 서비스인 Twitter의 트윗을 수집하고, 빅데이터 분석 기법인 텍스트 마이닝을 활용하여 2017년 대선에 대하여 분석하였다. 또한 분석된 자료의 효과적인 전달을 위해 워드 클라우드 진행하였다. 이 논문을 위하여 인기 있는 SNS인 Twitter의 최근 7일간 트윗(tweet)을 수집하고 분석하였다.

  • PDF

텍스트 마이닝 알고리즘을 이용한 기상청 기상연감 자료 분석 (Analysis of the Yearbook from the Korea Meteorological Administration using a text-mining agorithm)

  • 선현석;임창원;이영섭
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.603-613
    • /
    • 2017
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 그러나 대부분 비정형 형태로 구성되어 있는 텍스트 기반의 자료는 기존의 통계 분석이나 데이터 마이닝 기법을 적용하기에 부적합하기 때문에 텍스트 마이닝 기법이 사용되고 있다. 본 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 기상연감 자료를 분석하였다. 먼저 전처리 과정을 통하여 용어사전을 구축하고, 용어-문서 행렬을 생성하였다. 그리고 이것을 사용하여 연도별 용어 빈도수를 계산하고, 자주 나타나는 단어들에 대하여 상대도수의 변화를 관찰하였다. 또한 회귀 분석 기법을 사용하여 증가추세와 감소추세를 보이는 용어들을 파악하였다. 이러한 분석으로 기상청 기상연감 문서에서의 트렌드를 파악하고, 이를 통해 이슈가 되었던 기상 관련 소식과 기상현황, 그리고 기상청이 중점으로 하고 있는 업무 현황의 트렌드를 파악하였다. 본 연구를 통해 기상업무 분석 및 효율화에 도움을 주고 기상정책에 반영할 수 있는 유용한 정보를 이끌어내고자 하였다.

텍스트마이닝 기반 고정밀 검색시스템

  • 안태성;서형국;이경일
    • 정보처리학회지
    • /
    • 제11권2호
    • /
    • pp.88-97
    • /
    • 2004
  • 지난 10년 동안 인터넷의 대중화 덕분으로 World Wide Web과 e-mail은 이미 정보 전달의 일반적인 수단으로 자리를 잡았다. 인터넷과 이에 기반한 e-Busine器는 기존 산업의 전 부분에 걸쳐 효율성과 생산성 증대를 위한 전략적인 도구로 그 중요성이 지속적으로 증대되고 있으며. 지식 노동자들은 업무 시간의 대부분을 문서로 대표되는 정보와 지식을 생산하고 검색하는데 보내고 있다. 새로운 기업정보 자료들이 끊임없이 등록되고, 지난 자료들이 수정, 갱신되는 등 전 세계에 있는 수 많은 기업에서 다양한 지식 자산(Knowledge Asset)들이 지속적으로 생성, 재활용되고 있다. 그러나 이렇게 기업이 생성, 저장, 재 사용하는 정보 중 20% 만이 활용성이 높은 정형 데이터로 구성되어 있고, 나머지 80%는 워드프로세서, e-mail, 프리젠테이션, 스프레드시트, PDF와 같은 복합문서와 인터넷 페이지 등의 비정형 텍스트 형태로 구성되어 있다[1].(중략)

  • PDF

비정형 공사감리문서 정보와 이항 로지스틱 회귀분석을 이용한 건축 현장 비용성과 평가 프레임워크 개발 (Cost Performance Evaluation Framework through Analysis of Unstructured Construction Supervision Documents using Binomial Logistic Regression)

  • 김창원;송태근;이기석;유위성
    • 한국건축시공학회지
    • /
    • 제24권1호
    • /
    • pp.121-131
    • /
    • 2024
  • 공사감리문서는 프로젝트의 수행과정을 제3의 독립적인 위치에서 모니터링한 종합적인 점검의견이라는 주요한 비정형 정보를 제공할 수 있다. 이와 같은 비정형 정보는 최근 분석방법론의 고도화에 따라 다양한 시사점을 제공할 수 있는 유의미한 자료로 평가받고 있다. 이에 본 연구는 건축공사의 최종 감리보고서 내 비정형 데이터를 대상으로 다양한 방법론을 활용하여 비용성과를 평가할 수 있는 프레임워크를 제시하였다. 세부적으로는 텍스트마이닝과 사회연결망분석을 통해 감리보고서 내 주요 키워드들을 도출하고, 해당 데이터들을 이항 로지스틱 회귀분석을 통해 분석하여 비용성과를 평가하였다. 그 결과, 감리보고서 내 비정형 데이터를 이용하여 추정된 비용성과 예측 정확도는 약 73% 수준으로 높게 도출되었다. 본 연구의 결과는 향후 건설산업에서 발생되는 다양한 비정형 데이터의 분석을 위한 기초자료로 활용이 가능할 것으로 예상된다.

코로나19 판데믹 이후 컨테이너선 운임 상승 요인분석: 텍스트 분석을 중심으로 (Analysis of Factors Affecting Surge in Container Shipping Rates in the Era of Covid19 Using Text Analysis)

  • 나진성
    • 한국산업정보학회논문지
    • /
    • 제27권1호
    • /
    • pp.111-123
    • /
    • 2022
  • 코로나19 판데믹 상황에서 컨테이너선 운임은 유례없는 큰 폭의 상승세를 보이고 있다. 컨테이너선 운임 상승 요인에 대해서 다양한 분석이 이루어지고 있으나, 비정형 데이터인 텍스트 자료를 활용한 분석은 전무한 상황이다. 따라서 본 연구에서는 관련 기사들을 대상으로 최근의 컨테이너선 운임 상승의 요인들을 텍스트 마이닝 기법중 하나인 네트워크 텍스트 분석과 LDA 토픽 모델링을 통해 파악하였다. 2020년 1월부터 2021년 7월까지 로이즈리스트에 게재된 기사들을 대상으로 텍스트 분석을 하였다. 분석 결과, 중국과 미국의 무역마찰, 글로벌 생산감소를 예측한 글로벌 선사들의 급격한 기항 횟수의 감소와 임시결항의 증가, 터미널 혼잡, 수에즈 운하 봉쇄와 같은 예기치 못한 사고들이 주요 원인으로 분석되었다.

노이즈 필터링과 충분차원축소를 이용한 비정형 경제 데이터 활용에 대한 연구 (Using noise filtering and sufficient dimension reduction method on unstructured economic data)

  • 유재근;박유진;서범석
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.119-138
    • /
    • 2024
  • 본 연구는 노이즈 필터링과 차원축소 등의 방법을 이용하여 텍스트 지표의 정상화에 대해 검토하고 실증 분석을 통해 동 지표의 활용가능성을 제고할 수 있는 후처리 과정을 탐색하고자 하였다. 실증분석에 대한 예측 목표 변수로 월별 선행지수 순환 변동치, BSI 전산업 매출실적, BSI 전산업 매출전망 그리고 분기별 실질 GDP SA전기비와 실질 GDP 원계열 전년동기비를 상정하고 계량경제학에서 널리 활용되는 Hodrick and Prescott 필터와 비모수 차원축소 방법론인 충분차원축소를 비정형 텍스트 데이터와 결합하여 분석하였다. 분석 결과 월별과 분기별 변수 모두에서 자료의 수가 많은 경우 텍스트 지표의 노이즈 필터링이 예측 정확도를 높이고, 차원 축소를 적용함에 따라 보다 높은 예측력을 확보할 수 있음을 확인하였다. 분석 결과가 시사하는 바는 텍스트 지표의 활용도 제고를 위해서는 노이즈 필터링과 차원 축소 등의 후처리 과정이 중요하며 이를 통해 경기 예측의 정도를 높일 수 있다는 것이다.

텍스트 마이닝을 이용한 비대면 소프트웨어 교양과목의 요구사항 분석 (An Analysis for the Student's Needs of non-face-to-face based Software Lecture in General Education using Text Mining)

  • 정화영
    • 한국콘텐츠학회논문지
    • /
    • 제22권3호
    • /
    • pp.105-111
    • /
    • 2022
  • 온라인 수업에 대한 학생들의 니즈 분석은 객관식 설문조사 유형이 주로 수행되어왔다. 그러나 학생들의 정확한 니즈를 분석하기 위해서는 주관식 답변에 의한 비정형 데이터 분석이 요구된다. 빅데이터는 비정형 데이터 분석이 가능하여 다양한 분야에서 활용되고 있다. 본 연구에서는 비대면 온라인 수업방식을 진행되는 교양 소프트웨어 과목에서 학생들이 원하는 과목이나 주제가 무엇인지 조사 및 분석하였다. 실험방법은 학생들에게 주관식 설문조사를 시행하여 얻은 비정형 데이터를 기반으로 빅데이터의 키워드 분석, 연관 분석등을 수행하였다. 이를 통해 학생들이 교양 소프트웨어 과목에서 원하는 키워드가 무엇인지 알 수 있었으며, 이러한 연구 결과는 학생들이 배우고자하는 주제를 파악할 수 있어서 향후 교양 소프트웨어 과목의 기획 및 설계시 중요한 자료가 될 것이다.

웹 스크래핑 및 텍스트마이닝에 기반한 중소규모 건설현장 사고유형 분석 (Analysis of accident types at small and medium-sized construction sites based on web scraping and text mining)

  • 윤영근
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.609-615
    • /
    • 2024
  • 건설업의 사고사망자 수는 402명으로 전체 산업의 약 46%이다. 이 중 50억원 미만의 건설현장이 약 69%를 차지하고 있어 중소규모 건설현장의 안전관리 강화가 요구된다. 본 연구에서는 웹 스크래핑을 이용하여 19,511건의 사고조사자료를 수집하였다. 수집된 정형 데이터에 대한 통계분석, 비정형 데이터에 대한 텍스트마이닝 분석을 통해 50억원 미만의 현장의 공사금액별 사고유형과 사고원인 분석을 진행하였다. 그 결과 공사금액별로 사고유형과 원인에 차이가 있음이 확인되었다. 본 연구의 결과가 중소규모 건설현장 맞춤형 안전관리에 활용되기를 기대한다.

텍스트 마이닝 기법을 이용한 경찰청 업무 트렌드 분석 (Analysis of the National Police Agency business trends using text mining)

  • 선현석;임창원
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.301-317
    • /
    • 2019
  • 최근 통계적인 기법을 이용하여 대량으로 생산되고 있는 텍스트 데이터를 통해 다양한 인사이트 발굴을 하기 위한 연구가 활발히 진행되고 있다. 본 연구는 경찰청에서 생산하는 텍스트 데이터를 통해 연도별 경찰청의 업무 트렌드를 파악하고, 각 지방청별로 생산되는 문서에서 주요 키워드를 파악하여 지방청 간의 업무 특성을 비교하고자 하였다. 의미 있는 결론을 도출하기 위해 각 자료 특성에 맞는 전처리 과정을 시행하고 문서별 단어 빈도수를 계산하였다. 문서에 나타난 키워드의 단순 출현 빈도로는 해당 키워드가 문서에서 갖는 중요도를 설명하기 힘들기 때문에 단어-역문서 가중치를 이용하여 각 단어에 대한 빈도수를 새롭게 계산하였고 단어의 문서별 및 연도별 빈도 비교를 위해 L2 정규화 기법을 이용하였다. 이러한 분석은 향후 경찰청 업무 개선 정책에 새롭게 활용될 수 있는 기초 자료로 사용될 수 있으며, 경찰청 업무 효율성 향상 및 청내 업무 개선 수요 파악을 위한 방법으로 활용될 수 있다.