• 제목/요약/키워드: 데이터 분석론

검색결과 1,370건 처리시간 0.03초

머신러닝 기반의 기업 리뷰 다중 분류: 부분 문법 적용을 중심으로 (Multi-Label Classification for Corporate Review Text: A Local Grammar Approach)

  • 백혜연;장영균
    • 경영정보학연구
    • /
    • 제25권3호
    • /
    • pp.27-41
    • /
    • 2023
  • 최근 많은 분야에서 기계학습에 대한 연구가 활발히 진행되고 있는데, 상당수의 연구들이 학습 모델의 성능을 개선하는 최신 방법론을 제시하고 있다. 본 연구에서는 방법론의 개발 못지않게 기계학습에 투입되는 훈련용 데이터의 '품질'을 개선하는 것 역시 중요하다는 점에 착안하여, 코퍼스 분석에서 자주 사용되는 '부분 문법' 처리 프로세스를 통해 훈련 데이터의 품질을 향상시키는 방법을 제시한다. 우리나라 100대 기업에 근무하는 재직자들이 채용플랫폼에 게시하는 방대한 양의 비정형 기업 리뷰 텍스트 데이터를 수집하고, 데이터 품질을 부분 문법 프로세스로 개선한 후, 부분 문법이 적용된 분류 모델이 적용되지 않은 모델보다 분류 성능이 우수함을 확인하였다. 분류 카테고리는 직원 몰입의 5가지 요인으로 상정하였는데, 국내 직장인들이 기업 리뷰가 각 유형별로 빈도에 차이가 있는지를 분석하였다. 추가로 리뷰 양상이 코로나 팬데믹 전후로 어떠한 변화가 있었는지도 분석하였다. 본 연구를 통해 국내 직장인들의 생생한 일터 경험들을 자동적으로 식별하고 분류하여, 이직을 포함한 주요한 조직문화 현상의 행태와 유발 원인 등을 유추해 볼 수 있는 근거를 제공한다.

궤도틀림 진전율 추정을 위한 베이지안 회귀분석 모형 연구 (A Bayesian Regression Model to Estimate the Deterioration Rate of Track Irregularities)

  • 박범환
    • 한국철도학회논문집
    • /
    • 제19권4호
    • /
    • pp.547-554
    • /
    • 2016
  • 본 연구는 궤도 틀림을 관리하기 위한 궤도 품질 지수(TQI)의 진전율 추정에 관한 것이다. 이와 관련한 기존 연구 대부분은 시간에 따른 TQI 값의 선형 회귀분석을 통해 구해진 기울기를 기준으로 상수 진전율을 제시하는 데 그치고 있다. 본 연구는 과거 데이터 혹은 전문가의 식견으로부터 도출되는 파라미터의 사전 분포를 효과적으로 반영할 수 있으며, 파라미터값의 확률 분포를 유도해 낼 수 있는 베이지안 방법론에 기초한 진전율 추정 모델을 제안하고, 기존의 전통적인 회귀분석 모형과의 비교 연구를 통해, 베이지안 방법론의 활용 가능성을 검토해 보았다.

한국토지정보시스템 데이터의 세계측지좌표계 변환 실험 (Experiments on Transform to World Geodetic System of Korea Land Information System Database)

  • 신동빈;유선철
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2008년도 공동춘계학술대회
    • /
    • pp.405-410
    • /
    • 2008
  • 세계적으로 세계측지좌표계의 도입이 확대됨에 따라 우리나라도 2001년 측량법의 개정을 통해 현재의 지리정보 좌표계변환을 위한 노력을 시행하고 있다. 이러한 측면에서 본 연구에서는 세계측지좌표계 변환방법론, 변환사례 등을 검토 후 한국토지정보시스템 데이터를 대상으로 시범지역을 선정하여 변환실험을 실시하였다. 그 결과 변환 후의 데이터는 국가GIS활용 및 업무지원을 위한 참조적 데이터로서 충분히 이용이 가능한 수준으로 도출되었다. 하지만 한국토지정보시스템 데이터의 세계측지좌표계로의 변환을 위해서는 각 지역별 변환계수를 산정할 필요가 있으며, 지적데이터가 가지고 있는 다양한 원점을 통일원점으로 변환되어야 할 것으로 판단된다. 또한 마지막으로, 기존의 지적데이터가 가지는 다양한 문제점을 그대로 내포하는 수준으로 변환되었다. 따라서 한국토지정보시스템의 세계측지좌표계 변환을 위해서는 본 연구의 결과를 기초로 하여, 더 많은 대상지역에 대한 변환을 통해 오차와 오류의 유형별 원인 분석 후 한국토지정보시스템의 세계측지좌표계 변환의 체계적이고 계획적인 전략을 수립할 필요가 있다.

  • PDF

Hadoop 플랫폼을 이용한 교통데이터 기반 사용자 경로탐색 방법론 (A Traffic Data based User's Route Exploring Mechanism using Hadoop Platform)

  • 조원희;최은미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.176-179
    • /
    • 2013
  • 본 연구는 최근 활성화된 스마트폰 내비게이션의 교통정보를 이용 시 상대적으로 품질이 취약한 지방지역의 빠른길 및 통행시간 정확도를 개선하는 방안에 대한 연구이다. 본 연구에서는 Hadoop기술을 이용하여 교통데이터에 대한 방대한 양의 데이터를 분석 처리한다. 특히, 실시간 교통정보가 제대로 수집되지 않는 지역의 도로 속도 정보에 대한 개선 방안으로 고객 단말로부터 올라오는 위치 데이터를 실시간으로 수집하여 전자지도 기본 속성값을 실시간 통계 데이터로 교체 반영하여 상대적으로 취약한 지방지역의 경로 품질 및 경로 탐색을 개선하는 방안을 제시하였다. 단말로부터 올라오는 많은 양의 GPS 위치정보등 대용량 데이터 처리를 위해 오픈소스프로젝트인 Hadoop플랫폼 환경에서 빅데이터 처리용 오픈소스를 활용하여 고가의 RDBMS를 대체하는 효과와 시간 단축의 효과를 기대할 수 있게 되었다.

공간통계기법을 이용한 도시 교통량 예측의 정확성 향상 (A Geostatistical Approach for Improved Prediction of Traffic Volume in Urban Area)

  • 김호용
    • 한국지리정보학회지
    • /
    • 제13권4호
    • /
    • pp.138-147
    • /
    • 2010
  • 부정확한 교통량 예측은 잘못된 교통계획 및 설계를 초래할 수 있으므로, 교통량 데이터를 이용한 교통량 예측은 교통계획 및 운영과 같은 공간의사결정과정에서 매우 중요하다. 교통량 예측의 정확도 향상을 위해 최근 공간통계분석방법인 크리깅 방법론을 이용한 연구들이 발표되고 있으며, 연구결과 기존의 전통적인 방법에 비하여 예측력이 높게 나타났다. 이에 본 연구는 먼저 미국 미주리 주의 세인트루이스를 대상으로 크리깅 분석방법론을 이용하여 교통량 데이터를 예측한 후 실제 측정값과 비교하여 그 정확도를 검증하였다. 이후 크리깅 방법론의 예측 값을 더욱 향상 시키기 위한 새로운 방안을 제시하였다. 그 방안으로 첫째, 베리오그램 인자 결정시 나타난 교통량 데이터의 특징인 이방성을 적용하였으며, 둘째, 교통량 데이터의 공간적 상관관계가 높은 주간고속도로를 이차변수로 설정하여 공동크리깅 분석을 실시하였다. 분석결과 일반 크리깅 방법보다 이방성을 적용한 분석에서 더욱 높은 정확도 나타났으며, 이방성의 적용 하에 실시한 공동크리깅의 결과에서 가장 좋은 예측 값이 나타났다.

개인정보보호법에 따른 가명처리로 인한 데이터 손실이 데이터 분석의 정확도에 미치는 영향 (Pseudonymization's effect on data quality: A study under personal information protection act)

  • 김민정;유재근
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.381-393
    • /
    • 2024
  • 이 연구는 개인정보의 가명처리와 이것이 데이터 분석의 정확도에 미치는 영향을 조사하였다. 로지스틱 회귀 모델, 의사결정나무 및 랜덤 포레스트를 사용하여 가명처리의 적용 정도와 가명처리된 데이터 분석의 정확도 간의 관계를 정량적으로 평가하였으며, 이를 통해 민감한 정보의 가명처리가 데이터 분석의 정확도를 크게 손상시키지 않으면서도 개인정보보호를 실현할 수 있음을 확인하였다. 그러나, 단일한 샘플 데이터, 일관된 가명처리 비율의 적용 등의 한계가 있음을 인지하였다. 이러한 한계를 극복하기 위해, 다양한 데이터에 대한 추가적인 연구를 통하여 결과의 일반성을 강화하는 것이 필요하다. 또한, 개별 변수에 대해 최적의 가명처리 비율을 찾는 방법론을 개발하고 적용해 볼 것을 제안한다. 이 연구 결과는 규제 준수와 개인정보 보호를 달성하면서도 데이터의 활용성을 유지하는 방법에 대한 새로운 통찰을 제공한다.

역순 워크 포워드 검증을 이용한 암호화폐 가격 예측 (An Accurate Cryptocurrency Price Forecasting using Reverse Walk-Forward Validation)

  • 안현;장백철
    • 인터넷정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.45-55
    • /
    • 2022
  • 암호화폐 시장의 규모는 날이 갈수록 커져가고 있으며, 대표적인 암호화폐인 비트코인의 경우 시가총액이 500조를 넘어섰다. 이에 따라 암호화폐의 가격을 예측하려는 연구도 많이 이루어졌으며, 이들은 대부분 주식가격을 예측하는 방법론과 유사성을 띄는 연구들이다. 하지만 선행연구를 비춰 봤을 때 주식가격예측과 달리 암호화폐 가격 예측은 머신러닝의 정확도가 우위에 있는 사례가 많다는 점, 개념적으로 주식과 달리 암호화폐는 소유로 인한 수동적 소득이 없다는 점, 통계적으로 시가총액 대비 하루 거래량의 비율을 살펴봤을 때 암호화폐가 주식 대비 최소 3배이상 높다는 점이 도출되었다. 이를 통해 암호화폐 가격 예측 연구에는 주식 가격 예측과 다른 방법론이 적용되어야 함을 본 논문에서 주장하였다. 우리는 기존에 주가 딥러닝 예측에 사용되던 워크 포워드 검증를 응용한 역순 워크 포워드 검증을 제안하였다. 역순 워크 포워드 검증은 워크 포워드 검증과 달리 검증 데이터셋을 테스트 데이터셋에 시계열상으로 바로 앞에 부분으로 고정시켜놓고, 훈련데이터를 훈련 데이터셋에 시계열상으로 바로 앞 부분부터 서서히 훈련 데이터셋의 크기를 늘려가면서 검증에 대한 정확도를 측정한다. 측정된 모든 검증 정확도 중 가장 높은 정확도를 보이는 훈련 데이터셋의 크기에 맞춰서 훈련 데이터를 절삭시킨 뒤 검증 데이터와 합쳐서 실험 데이터에 대한 정확도를 측정하였다. 분석모델로는 로지스틱 회귀분석과 SVM을 사용했으며, 우리가 제안한 역순 워크 포워드 검증의 신뢰성을 위해서 분석 모델 내부적으로도 L1, L2, rbf, poly등의 다양한 알고리즘과 정규화 파라미터를 적용하였다. 그 결과 모든 분석모델에서 기존 연구보다 향상된 정확도를 보임이 확인되었으며, 평균적으로도 1.23%p의 정확도 상승을 보였다. 선행연구를 통해 암호화폐 가격 예측의 정확도가 대부분 50%~60%사이에서 머무르는 걸 감안할 때 이는 상당한 정확도 개선이다.

과학기술 지식인프라 통합 아키텍처 설계방법론 (Design Methodology of Integrated Architecture for S&T Knowledge Infrastructure)

  • 강윤희;김영철
    • Journal of Platform Technology
    • /
    • 제6권3호
    • /
    • pp.31-37
    • /
    • 2018
  • 최근 오픈 사이언스를 위한 플랫폼 개발이 국내외적으로 이루어지고 있으며, 과학기술 지식인프라의 데이터 처리 및 서비스 운영을 분석하여 과학기술 지식인프라의 성과확산을 위한 시스템 개발에 대한 요구가 증가하고 있다. 이 논문은 과학 기술 분야의 지식인프라를 위한 통합 아키텍처 설계 방법론을 도출하고 통합 아키텍처에서 데이터와 서비스의 통합수준 및 연계를 설정하는 그 방안을 제시한다. 연구 전과정에서 오픈 사이언스를 활용하기 위해서는 개별 서비스를 모듈 및 독립적인 기능 블록으로 구성하여 재사용 및 상호 운영될 수 있어야 한다. 이를 위해 제안된 설계 방법론은 과학기술 지식 인프라의 통합 서비스를 위한 서비스 통합을 다루기 위해 사용하며, 이는 다분야의 협력 참여연구자 및 엔지니어의 계산 수행 결과 및 산출물의 솔기없는 접근을 지원할 수 있다.

정밀도로지도를 활용한 차로 이탈 경고장치 평가 방안에 관한 연구 (A Study on the Evaluation Method of Lane Departure Warning System Using High-precision Maps)

  • 이정욱;김덕호
    • 한국지리정보학회지
    • /
    • 제25권4호
    • /
    • pp.181-199
    • /
    • 2022
  • 본 연구에서는 정밀도로지도를 활용하여 자동차의 거동 정보와 정밀도로지도의 위치 관계를 계산하여 차로 이탈 경고장치의 성능을 평가하는 방법론을 도출하였다. 한국의 노면 표시 설치에 대한 기준과 차로 이탈 경고장치의 평가 기준에 대한 분석을 하고, 평가 기준에 맞는 정밀도로지도의 구축하고 평가 장치 을 구성하여 제안한 방법론에 대한 시험을 통해 제안한 방법론에 대한 검증을 실시하였다. 정밀도로지도를 활용한 차로 이탈 경고장치의 평가는 정밀도로지도와 정밀차량위치를 이용한 데이터취득, 실시간 데이터 처리 및 이탈 판단 확인 절차 수행만으로 평가가 가능하고 다양한 도로 환경에 적용 가능하다.

마우스 뇌의 구조적 연결성 분석을 위한 분석 방법 (Analytical Methods for the Analysis of Structural Connectivity in the Mouse Brain)

  • 임상진;백현만
    • 한국방사선학회논문지
    • /
    • 제15권4호
    • /
    • pp.507-518
    • /
    • 2021
  • 자기공명영상(MRI)은 뇌의 구조적 및 기능적 연구에서 핵심 기술로 필요성이 증가하고 있다. Tractography 분석을 이용하는 뇌지도(Connectome)는 MRI를 통해 뇌의 구조적 연결성을 확인하고 연결성의 변동성을 이용해 질병 병리학에 대한 이해를 높이는 방법으로 인간을 대상으로 활발한 연구가 진행되고 있다. 하지만 마우스 같은 작은 동물의 경우 분석 방법의 표준화가 부족하고 영상에 대한 정확한 전처리 전략 및 아틀라스 기반 신경 정보학에 대한 과학적 합의가 없다. 또한, 인간의 뇌에 비해 마우스의 뇌는 매우 작기 때문에 높은 해상도를 갖는 영상을 획득하는 것에도 어려움이 있다. 연구에서는 구조적 영상과 확산 텐서 영상을 이용해 구조 영역 세분화를 포함한 구조적 연결성 분석을 가능하게 하고 마우스 뇌 데이터를 처리하는 Allen Mouse Brain Atlas 기반 영상 데이터 분석 파이프라인을 제시한다. 각 분석 방법은 마우스 뇌 영상 데이터의 분석을 가능하게 하고 이미 인간 영상데이터로 검증된 소프트웨어를 이용해 신뢰성을 가질 수 있게 하였다. 또한, 연구에서 제시되는 파이프라인은 복잡한 분석 과정과 다양한 기능들 중 마우스 Tractography에 필요한 기능들을 정리하여 사용자가 효율적으로 데이터 처리를 하는데 최적화되었다.