• 제목/요약/키워드: 정보 수집 및 추출

검색결과 752건 처리시간 0.025초

Big Data Processing and Performance Improvement for Ship Trajectory using MapReduce Technique

  • Kim, Kwang-Il;Kim, Joo-Sung
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권10호
    • /
    • pp.65-70
    • /
    • 2019
  • 최근 선박자동식별장치의 도입으로, 육상에서 선박위치, 침로, 속력, 선박종류 등 선박 항적데이터 수집이 가능해 졌다. 본 연구는 맵리듀스 알고리즘을 분산처리 환경에 적용하여 선박 항적데이터를 효율적으로 처리하는 방법을 제안한다. 제안하는 방법은 데이터 전처리 단계, 맵핑 단계, 리듀싱 단계로 나뉘어져 있다. 데이터 전처리 단계는 선박의 동적 및 정적 데이터를 통합하고, 비관심지역의 선박정보는 필터링한다. 맵핑 단계는 선박 위치를 지오해시 코드로 변환하여 맵리듀스의 키 데이터로 할당하고, 선박의 ID는 값 데이터로 분리한다. 리듀싱 단계에서는 키 데이터가 같은 키-값 쌍 데이터를 추출하여 해당 그리드에서 선박의 수를 계산하여 시각화 한다. 제안한 방법은 항적데이터 분석에 있어서 기존 프로그램 성능에 비해 1~4배 성능 개선이 되었다.

Development of a driver's emotion detection model using auto-encoder on driving behavior and psychological data

  • Eun-Seo, Jung;Seo-Hee, Kim;Yun-Jung, Hong;In-Beom, Yang;Jiyoung, Woo
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권3호
    • /
    • pp.35-43
    • /
    • 2023
  • 운전 중 감정 인식은 사고를 예방하기 위해 꼭 필요한 과제이다. 더 나아가 자율 주행 시대에서 자동차는 모빌리티의 주체로 운전자와의 감정적인 소통이 더욱 요구되고 있으며 감정 인식 시장은 점점 확산되고 있다. 이에 따라 본 연구 방안에서는 수집하기 비교적 용이한 데이터인 심리데이터와 행동 데이터를 이용해 운전자의 감정을 분류하는 인공지능 모델을 개발하고자 한다. 오토인코더 모델을 통해 잠재 변수를 추출하고, 이를 본 분류 모델의 변수로 사용하였으며, 이는 성능 향상에 영향을 미침을 확인하였다. 또한 기존 뇌파 데이터를 포함했을 때 보다 본 논문이 제시하는 프레임워크를 사용하였을 때 성능이 향상됨도 확인하였다. 최종적으로 심리 및 개인정보데이터, 행동 데이터만을 통해 운전자의 감정 분류 정확도 81%와 F1-Score 80%를 달성하였다.

Temporal Fusion Transformers와 심층 학습 방법을 사용한 다층 수평 시계열 데이터 분석 (Temporal Fusion Transformers and Deep Learning Methods for Multi-Horizon Time Series Forecasting)

  • 김인경;김대희;이재구
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권2호
    • /
    • pp.81-86
    • /
    • 2022
  • 시계열 데이터는 주식, IoT, 공장 자동화와 같은 다양한 실생활에서 수집되고 활용되고 있으며, 정확한 시계열 예측은 해당 분야에서 운영 효율성을 높일 수 있어서 전통적으로 중요한 연구 주제이다. 전반적인 시계열 데이터의 향상된 특징을 추출할 수 있는 대표적인 시계열 데이터 분석 방법인 다층 수평 예측은 최근 부가적 정보를 포함하는 시계열 데이터에 내재한 이질성(heterogeneity)까지 포괄적으로 분석에 활용하여 향상된 시계열 예측한다. 하지만 대부분의 심층 학습 기반 시계열 분석 모델들은 시계열 데이터의 이질성을 반영하지 못했다. 따라서 우리는 잘 알려진 temporal fusion transformers 방법을 사용하여 실생활과 밀접한 실제 데이터를 이질성을 고려한 다층 수평 예측에 적용하였다. 결과적으로 주식, 미세먼지, 전기 소비량과 같은 실생활 시계열 데이터에 적용한 방법이 기존 예측 모델보다 향상된 정확도를 가짐을 확인할 수 있었다.

텍스트 마이닝과 네트워크 군집 분석을 활용한 한국의 데이터 관련 정책사업 분석 (Analyzing data-related policy programs in Korea using text mining and network cluster analysis)

  • 최성준;신기윤;오윤환
    • 한국산업정보학회논문지
    • /
    • 제28권6호
    • /
    • pp.63-81
    • /
    • 2023
  • 본 연구는 우리나라 데이터 관련 정책사업에 대한 텍스트 정보를 기반으로 네트워크 군집 분석을 통해 유사한 사업들을 분류하고 유형화하였다. 이를 위해 2022년에 우리나라에서 추진된 데이터 관련 재정사업 설명자료를 수집하고 사업 내용으로부터 키워드를 추출, TF-IDF로 각 사업 간 유사도를 도출하였으며, 이를 기반으로 정책사업 네트워크를 구축하였다. 이후 정책사업 네트워크의 구조적 특징을 분석하고, 네트워크 군집 분석을 통해 유사한 정책사업들을 군집화하여 유형화 하였다. 총 97개의 사업을 분석한 결과, 7개의 주요 군집이 식별되었으며, 이를 통해 비슷한 주제나 목표를 가진 사업들이 응용 분야 혹은 데이터가 활용되는 서비스 관점에서 유형화가 이루어진 것을 확인하였다. 본 연구의 결과는 현재 우리나라 데이터 관련 정책사업의 현황을 보여줌과 동시에 향후 국가데이터전략 수립 및 사업 기획에 있어서 전략적 접근을 위한 정책적 시사점을 제공하며 증거기반 정책 확립에 기여한다.

키워드 네트워크 분석을 이용한 연구데이터 관련 국내 연구 동향 분석 (An Analysis of Domestic Research Trend on Research Data Using Keyword Network Analysis)

  • 한상우
    • 한국도서관정보학회지
    • /
    • 제54권4호
    • /
    • pp.393-414
    • /
    • 2023
  • 본 연구는 연구데이터 관련 국내 연구의 동향을 파악하기 위하여 RISS에서 연구데이터 관련 논문을 수집하였으며, 데이터 정제 후 총 58건의 연구논문을 대상으로 134개의 저자 키워드를 추출하여 키워드 네트워크 분석을 수행하였다. 분석 결과, 첫째, 아직까지 국내에서 연구데이터 관련 연구의 수가 58건에 지나지 않아 추후 많은 관련 연구가 진행될 필요가 있음을 알 수 있었다. 둘째, 연구데이터 관련 연구 분야는 대부분 복합학 중 문헌정보학에 집중되어 있었다. 셋째, 연구데이터 관련 저자 키워드의 빈도분석 결과 '연구데이터관리', '연구데이터공유', '데이터리포지터리', '오픈사이언스' 등이 다빈도 주요 키워드로 분석되어 연구데이터 관련 연구는 위의 키워드를 중심으로 진행되고 있음을 알 수 있었다. 키워드 네트워크 분석 결과에서도 다빈도 키워드는 연결 중심성 및 매개 중심성에서 중심적인 위치를 차지하며 관련 연구에서 핵심 키워드에 위치하고 있음을 알 수 있었다. 본 연구의 결과를 통하여 최근의 연구데이터 관련 동향을 파악할 수 있었고, 향후 집중적으로 연구해야 하는 분야를 확인할 수 있었다.

특징 융합을 이용한 농작물 다중 분광 이미지의 의미론적 분할 (Semantic Segmentation of Agricultural Crop Multispectral Image Using Feature Fusion)

  • 문준렬;박성준;백중환
    • 한국항행학회논문지
    • /
    • 제28권2호
    • /
    • pp.238-245
    • /
    • 2024
  • 본 논문에서는 농작물 다중 분광 이미지에 대해 특징 융합 기법을 이용하여 의미론적 분할 성능을 향상시키기 위한 프레임워크를 제안한다. 스마트팜 분야에서 연구 중인 딥러닝 기술 중 의미론적 분할 모델 대부분은 RGB(red-green-blue)로 학습을 진행하고 있고 성능을 높이기 위해 모델의 깊이와 복잡성을 증가시키는 데에 집중하고 있다. 본 연구는 기존 방식과 달리 다중 분광과 어텐션 메커니즘을 통해 모델을 최적화하여 설계한다. 제안하는 방식은 RGB 단일 이미지와 함께 UAV (unmanned aerial vehicle)에서 수집된 여러 채널의 특징을 융합하여 특징 추출 성능을 높이고 상호보완적인 특징을 인식하여 학습 효과를 증대시킨다. 특징 융합에 집중할 수 있도록 모델 구조를 개선하고, 작물 이미지에 유리한 채널 및 조합을 실험하여 다른 모델과의 성능을 비교한다. 실험 결과 RGB와 NDVI (normalized difference vegetation index)가 융합된 모델이 다른 채널과의 조합보다 성능이 우수함을 보였다.

데이터 분석을 통한 UX 방법론 연구 고객 세그먼트 분류를 통한 페르소나 도출을 중심으로 (UX Methodology Study by Data Analysis Focusing on deriving persona through customer segment classification)

  • 이슬이;박도형
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.151-176
    • /
    • 2021
  • 정보기술 산업이 발전됨에 따라 다양한 종류의 데이터가 생겨나고 있고 이를 가공하여 산업에 활용하는 것이 필수인 시대가 되었다. 온 오프라인 상에서 수집된 다양한 디지털 데이터를 분석하여 활용하는것은 산업 내의 고객에게 적합한 경험을 제공하기 위해서 꼭 필요한 과정이다. 새로운 비즈니스, 제품, 서비스를 창출하기 위해서는다방면에서 수집된 고객 데이터를 활용하여잠재고객의 니즈를 깊게 파악하고 행동패턴을 분석하여 숨겨진 욕망의 신호를 잡아내는것이 필수이다. 그러나 효과적인 서비스 개발을 위해서 병행해서 진행되어야 할 데이터 분석, UX 방법론을 활용한 연구는 각각 따로 진행되고 있고 산업 내의 활용 예시가 부족한 것이 사실이다. 본 연구에서는 데이터 분석 방법과 UX 방법론을 응용하여 하나의 프로세스를 제작하였다. 행복을 주제로 진행된 설문조사에서 추출된 고객 데이터를 활용하여 고객의 특성을 파악하기 위한 데이터 분석을 진행하였다. 요인, 회귀분석을 실시하여 행복 데이터 설문의 요인 간의 연관 관계를 확인하였다. 그 다음 연관 관계를 군집을 분류하고 가장 최적의 군집 수를 추출하여분류하였다. 이러한 결과를 바탕으로 교차분석을 진행하여 군집 별로 인구통계학적 특성을 확인하였다. 세그먼트를 분류하기 전 서비스 정의를 하기 위하여 뉴스 기사 및 SNS 문장들을 바탕으로 텍스트 마이닝을 통해 주요 키워드를 바탕으로 아이디어를 도출하였고 이중에 가장 타당한 서비스를 선택하였다. 이러한 결과를 바탕으로 세그먼트및 목표 고객을 선정한 후 세그먼트의 특성대로 대상자를 선정하여 인터뷰를진행하였다. 그 후 특성 및 프로파일정보를 활용하여 페르소나를 제작하여고객의 행동과 최종 목표를 서술하였다. 일반적인페르소나와 데이터를 활용한 페르소나를 비교하여 각각의 특성을 비교 분석하였다. 본 연구를 통해 도출된 프로세스는 다변화되는 서비스의 변화 상황에서 적절한 타겟 고객의 정의 및 정확한 분류 체계로 나뉘어진 고객군을파악 할 수 있는 방법을 제시 한 것에 의의가 있다.

노인의 스마트 홈 헬스케어 이용 경험 (Older Adults' Experience of Smart-home Healthcare System)

  • 이영주;이주희;나지영
    • 한국콘텐츠학회논문지
    • /
    • 제15권5호
    • /
    • pp.414-425
    • /
    • 2015
  • 목적: 최근 고령화, 만성질환의 증가로 가정 내 소형 정보통신기기를 비치하고 네크워크로 연결하여 건강상태를 모니터링하며 지속적인 건강관리를 가능하게 하는 기술 및 서비스가 시도되고 있다. 본 연구는 서울시 영구임대아파트 단지에서 시행한 스마트 홈 헬스케어 기술을 제공받은 노인들을 대상으로 이용 경험을 파악하기 위해 시행되었다. 방법: 고혈압 또는 당뇨를 가진 총 7명의 노인(평균연령 75세)에게 2013년 7월, 2회에 걸친 포커스그룹 인터뷰를 통해 자료수집이 이루어졌으며, 질적 내용분석방법으로 분석하였다. 결과: 총 27개의 의미있는 자료가 추출되어 코드화 한 후 비교, 대조, 분류 과정을 통해 10개의 카테고리로 재구성하였고, 추상화를 거쳐 총 6개의 주제를 도출하였다. 도출된 주제는 '언제 어디서나 자가 측정으로 건강상태호전을 경험함', '가정에서 전문가 도움을 받는 흥미로운 체험', '잦은 시스템 및 통신장애로 사용하기에 답답함', '노인사용자에게 측정기기는 낯설고 불편함', '활성화를 위한 체계적인 전략보완이 요구됨', '고령 친화적 측정기기 및 프로그램의 업그레이드 필요'이다. 결론: 향후 스마트 홈 헬스케어를 활성화하기 위해서는 노인사용자의 특성을 고려한 고령 친화적인 측정기기 및 프로그램이 개발되고 최적의 전문인력 배치 및 관련단체의 적극적인 지원 속에서 추진되어야 할 것이다.

만화기록 관리 방안 연구 (A Study on the Management of Manhwa Contents Records and Archives)

  • 김선미;김익한
    • 기록학연구
    • /
    • 제28호
    • /
    • pp.35-81
    • /
    • 2011
  • 만화는 대중매체이며 대중예술의 한 분야이다. 만화기록은 1차 문화인프라이기 때문에 팬시, 캐릭터, 게임, 영화, 드라마, 테마파크, 광고 사업 등으로 연결되어 고부가가치 산업을 창출해낼 수 있다. 그러나 국내에서는 능동적이고 체계적인 수집 절차의 부재로 해마다 소중한 만화 원고가 소실되고, 전자기록형태의 만화기록 등 보존이 힘든 콘텐츠가 늘어나고 있어 만화기록관리에 대한 대책이 절실히 요구된다. 본 연구에서는 이러한 인식을 바탕으로 만화기록에 대한 관리의 필요성에 대해 알아보고, 만화기록의 특징 및 구성요소를 분석하였다. 이와 함께 해외의 여러 만화아카이브 사례를 분석하여 만화기록의 특징을 반영한 기록관리 프로세스의 기능을 추출하였다. 이후 이들을 검토하여 기록관리체계의 틀에서 수집 관리 서비스 영역을 각각 나누어 만화기록을 관리하는 일반적인 만화기록 아카이빙 전략을 구성하여 제시해보았다. 수집을 한 만화기록은 다중분류와 계층적 기술요소를 반영하여 기록 사이의 연계를 보장하고 기록의 보존을 담보하며 다채로운 접근점을 제공할 수 있도록 한다. 지적 정리가 끝난 만화기록은 보존설비가 갖추어진 환경에서 보존처리를 하여 보존되기도 하고, 전자기록이나 훼손의 위험이 있는 기록의 경우 디지털 포맷을 사용하여 보존하기도 한다. 만화기록은 활용이 목적이기 때문에 전시 배포 기록정보콘텐츠개발을 통해 다양한 계층의 이용자에게 정보를 제공해 줄 수 있을 것이다. 만화기록이라는 용어 자체가 생소하고, 기록관리의 관점에서 연구된 바가 거의 없기 때문에 만화기록의 수집 전략이나 관리, 서비스 전략을 소개하고 간단한 예시를 보여주는 것에 그친 것이 한계점이라 할 수 있다. 그러나 기록학적 접근을 통한 만화 기록관리 전략을 만화 매뉴스크립트 보존소에 실용적으로 도입할 수 있다면 만화기록의 체계적 보존, 수집, 정리가 가능하여 훗날 한국의 문화 콘텐츠 관리에 큰 밑거름이 될 수 있을 것이다.

데이타 마이닝을 사용한 방학 중 학습방법과 학업성취도의 관계 분석 (Effective Studying Methods during a School Vacation: A Data Mining Approach)

  • 김혜숙;문양세;김진호;노웅기
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권1호
    • /
    • pp.40-51
    • /
    • 2007
  • 학업성취도 향상을 위해 정규 수업 이외에도 과외, 학원수강, 교육방송 시청 등 다양한 교육이 이루어지고 있다. 본 논문에서는 방학 중 학습방법과 생활습관이 학업성취도 변화에 미치는 영향을 분석하기 위한 데이타 마이닝 접근법을 제안한다. 우선, 학업성취도에 영향을 미치는 방학중의 학습방법과 생활습관에 대한 다양한 요소를 도출한다. 다음으로, 마이닝 기법 중 의사결정트리와 연관 규칙을 사용하기 위한 데이타 변환 및 분석 방법을 제안한다. 마지막으로, 설문조사를 통해 수집한 현실의 구체적 데이터에서 의사결정트리를 생성하고 연관 규칙을 추출하는 방법을 제안한다. 중학생들에 대한 설문조사를 분석한 결과, 의사결정트리의 경우 네 가지 의미있는 결과를 도출하였다. 첫째, 상위권 학생들의 경우 학원수강이 성적을 향상시키는 것으로 나타났다. 둘째, 대부분 학생들의 경우 인터넷 학습사이트 이용은 성적을 하락시키는 것으로 나타났다. 셋째, 성적 변화에 큰 영향을 미칠 것으로 예상했던 과외는 실제로 큰 영향을 미치지 못하는 것으로 나타났다. 넷째, 다양한 학습방법의 병행은 오히려 성적 하락의 요인이 되는 것으로 파악되었다. 다음으로, 연관 규칙 추출 결과, 방학 중 활동 사이에는 특이한 규칙이 없는 것으로 나타났다. 본 논문에서 제시한 데이타 마이닝 접근법 및 결과는 학생들의 방학 중 생활 지도나 학습 계획 수립에 많은 도움이 될 수 있다고 사료된다.