• 제목/요약/키워드: 야구 데이터 분석

검색결과 55건 처리시간 0.028초

빅데이터 기반 프로야구 데이터 분석 (Analysis of Professional Baseball Data based on Big Data)

  • 신동진;황승연;이돈희;문진용;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.177-185
    • /
    • 2020
  • 최근 프로야구의 스포츠 인기는 나날이 증가하고 있으며, 다양한 포털 사이트에서 프로야구와 관련된 데이터를 소유하고 있다. 프로야구의 인기를 증가시키고, 관련된 데이터를 활용한 분석을 통해 결과를 만들어 낸다면 프로야구를 접하는데 이점이 있다. 본 논문에서는 프로야구와 관련된 데이터를 활용하여 3가지 분석을 시행하였다. 따라서 본 논문에서는 특정 사이트에서 조회된 특정 프로야구단과 관련된 기사 개수와 트렌드를 알아보고, 프로야구 성적과 관중 수의 상관관계에 대해서 분석하였다. 마지막으로 2016, 2017년도의 프로야구 타자 타율 성적과 출루율 성적에 대한 현황 분석을 실시하였다.

날씨와 한화 이글스의 상관관계 (The Correlation Of Weather And Hanhwa Eagles)

  • 허태성;강하람
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.237-238
    • /
    • 2021
  • 야구는 데이터 스포츠라 불릴 만큼 경기마다 많은 데이터가 생성되며, 이를 바탕으로 경기를 진행한다. 본 연구는 한국 프로야구 구단인 한화 이글스의 승률 및 타자의 성적과 날씨 사이의 상관관계를 분석하였다. 이를 위하여 한화 이글스의 승률과 타자의 성적을 한국프로야구(KBO) 공식 홈페이지 및 야구 기록 통계사이트 스탯티즈(statiz)에서 수집하였으며, 날씨 데이터는 온도와 습도를 고려한 불쾌지수 데이터를 기상청으로 부터 수집하였다. 파이선의 pandas 라이브러리를 사용하여 데이터 전처리를 실행하였다. 이후 파이선의 matplotlib 라이브러리를 이용하여 데이터 분석 및 시각화를 진행하였다. 본 연구의 분석 결과로는 불쾌지수가 보통일 때 승률이 가장 크고 높음일 때 가장 낮음을 확인할 수 있었다. 또한, 타자들의 평균 성적을 분석한 결과 보통과 매우 높음은 전체적인 타격 지수가 비슷하나 높음일 때 부진한 것으로 나왔다.

  • PDF

BERT MRC를 활용한 한국 프로야구 Q&A 시스템 (Korean Baseball League Q&A System Using BERT MRC)

  • 서정우;김창민;김효진;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.459-461
    • /
    • 2020
  • 매일 게시되는 다양한 프로야구 관련 기사에는 경기 결과, 각종 기록, 선수의 부상 등 다양한 정보가 뒤섞여있어, 사용자가 원하는 정보를 찾아내는 과정이 매우 번거롭다. 본 논문에서는 문서 검색과 기계 독해를 이용하여 야구 분야에 대한 Q&A 시스템을 제안한다. 기사를 형태소 분석하고 BM25 알고리즘으로 얻은 문서 가중치로 사용자 질의에 적합한 기사들을 선정하고 KorQuAD 1.0과 직접 구축한 프로야구 질의응답 데이터셋을 이용해 학습시킨 BERT 모델 기반 기계 독해로 답변 추출을 진행한다. 야구 특화 데이터 셋을 추가하여 학습시켰을 때 F1 score, EM 모두 15% 내외의 정확도 향상을 보였다.

  • PDF

빅데이터 분석과 게임이론을 활용한 야구선수 영입 모델 (Baseball Player Scouting Model using Big Data Analysis and Game Theory)

  • 김윤후;김상헌;최형준;정재은
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.321-322
    • /
    • 2018
  • 빅데이터 분석은 스포츠에서 다양한 분야에서 사용되고 있다. 야구산업에서도 세이버 메트릭스를 활용하여 전술 훈련, 개인 훈련 등 다양한 방면으로 활용되고 있다. 본 논문에서는 기존의 연구인 빅데이터 분석과 게임이론을 활용한 축구선수 영입 모델을 야구에 적용킨 시뮬레이션을 진행하고 합리적인 의사결정 모델을 제안한다.

  • PDF

야구기록 활용에 기반한 '한국야구명예의전당' 운영 방안 연구 (A Study on the Excellent Operation of the "Korea Baseball Hall of Fame" Based on Baseball Records)

  • 최태석;임진희
    • 한국기록관리학회지
    • /
    • 제16권3호
    • /
    • pp.157-177
    • /
    • 2016
  • 본 연구는 야구기록 활용에 기반하여 '한국야구명예의전당'을 운영하기 위한 효과적인 방향성을 제시하는 것이 목적이다. 이를 위해 문헌 조사에 의한 미국과 일본 명예의 전당 사례 분석과 한국 야구기록의 종류와 관리현황, 현업에서 종사 중인 야구 관계자들의 면담을 통해 문제점을 도출하였다. 종합 방안으로서 '한국야구명예의전당'에서 수집, 관리, 활용해야 할 관련 아카이브 컬렉션 구성과 야구 영웅의 기억을 보존하기 위한 구술 확보의 필요성, 야구 경기기록의 DB화와 데이터 구축 등을 제시하였다.

데이터마이닝을 이용한 프로야구 경기 시뮬레이터에서의 투수 선정 방법에 대한 연구 (The Study of Selecting Pitcher using Data Mining on Professional Baseball Game Simulator)

  • 정지문;박혜원;최성
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.370-374
    • /
    • 2000
  • 야구 경기에서는 한 경기에 여러 투수가 등판하게 되는데, 상황에 따라 성격이 다른 투수가 공을 던지게 된다. 이러한 등판 투수의 선정은 감독 고유의 권한이며 감독이 오랜 경험을 통해 승리하기 위해 최적의 투수를 선정하게 된다. 본 논문은 그러한 감독의 경험을 학습하기 위하여 프로야구 경기에서 발생하는 기록 데이터를 데이터마이닝을 이용하여 분석한 후, 앞으로 열릴 경기에 등판할 투수를 미리 예측할 수 있는 방안에 대하여 연구하였다.

빅데이터 기반의 실시간 생체 신호 모니터링을 이용한 분석시스템: 야구 수비능력 측정을 중심으로 (An Analysis System Using Big Data based Real Time Monitoring of Vital Sign: Focused on Measuring Baseball Defense Ability)

  • 오영환
    • 한국전자통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.221-228
    • /
    • 2018
  • 빅데이터(Big data)는 제4차 산업혁명 시대를 맞이하여 과학, 기술, 산업, 사회분야에서 사물인터넷(IoT), 인공지능(AI), 클라우드(Cloud)와 더불어 공공분야와 민간분야를 아우르는 곳에서 중요한 키워드가 되고 있다. 빅데이터 기반의 서비스는 교통, 기상, 의료, 마케팅 등의 다양한 분야에서 제공되고 있다. 특히 스포츠 분야에서는 병원이나 재활센터가 아닌 훈련이나 일상 생활에서 생체 신호(Vital sign)를 측정할 수 있는 웨어러블 장치(Wearable device)의 등장으로 여러 형태의 생체 신호를 수집, 관리할 수 있게 되었다. 하지만 아직까지 스포츠분야, 즉 야구선수의 훈련(training)과 재활(rehabilitation)을 위한 웨어러블 장치에서 추출된 생체 신호를 가지는 빅데이터에 대한 연구가 활성화되지 못하고 있다. 따라서 본 논문에서는 야구선수에 대한 훈련, 특히 내야와 외야 수비선수에 대한 운동량 측정 생체신호를 빅데이터 기반으로 저장하고 분석할 수 있는 시스템에 대한 연구를 제안한다.

마르코프 연쇄를 이용한 한국 프로야구 경기 분석 (Analysis of the Korean Baseball League using a Markov Chain Model)

  • 문형우;우용태;신양우
    • 응용통계연구
    • /
    • 제26권4호
    • /
    • pp.649-659
    • /
    • 2013
  • 본 논문에서는 마르코프 연쇄로 모형을 이용하여 한국프로야구의 경기결과를 예측하고 분석하였다. 타자의 타격결과와 주자상태를 나타내는 확률과정을 구체적으로 정의하여 경기진행 상황을 동적으로 반영한 프로야구 경기를 마르코프 연쇄를 구성하여 실제 데이터를 바탕으로 주자 상태를 고려한 진루행렬과 각 선수별 타격 확률을 구하여 경기당 득점 분포와 타석에 서는 타자 수의 분포를 구하였다.

An Estimation Model for Defence Ability Using Big Data Analysis in Korea Baseball

  • Ju-Han Heo;Yong-Tae Woo
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.119-126
    • /
    • 2023
  • 본 연구에서는 한국프로야구에서 수비수의 수비 능력을 객관적으로 평가하기 위한 새로운 모델을 제시하였다. 제안 모델에서는 2016년부터 2019년까지 한국프로야구 경기 데이터를 이용하여 구단, 수비 포지션별로 대표 수비수를 선정하여 수비 능력을 평가하였다. 수비력을 평가하기 위하여 포지션별로 수비 범위를 계산하고 계산된 수비지역을 분할하는 방법은 제안하였다. 포지션별 수비 범위는 같은 포지션의 수비수들이 타구를 아웃시킨 지점을 기준으로 컨벡스 헐(Convex Hull) 알고리즘을 이용하여 계산하였다. 포지션별 수비 범위를 이용하여 내야수, 외야수 모두에 대한 아웃전환점수, 승리기여점수를 기본 점수로 계산하였다. 또한, 내야수는 병살 점수, 외야수는 추가진루 점수를 따로 계산하여 합산하였다.

한국프로야구 기록들의 장기추세 (Long term trends in the Korean professional baseball)

  • 이장택
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.1-10
    • /
    • 2015
  • 본 연구에서는 한국프로야구 변천사를 야구 통계량들을 중심으로 살펴보았다. 분석방법으로는 1982년부터 2013년까지의 한국프로야구 데이터를 이용하여 야구 통계량들의 시계열 그래프와 상관계수를 이용하였다. 그 결과 유의수준 1%에서 연도와 유의한 양의 상관관계를 보인 통계량은 2루타, 타점, 4구, 삼진, 병살타, 사구, 출루율, OPS, 방어율, 폭투, WHIP이고, 유의한 음의 상관관계를 보인 통계량은 3루타, 도루자, 실책, 완투, 완봉, 보크였다. 상관계수가 유의한 야구통계량의 예측을 위해서는 Box-Jenkins의 ARIMA 모형을 이용하였다. 결론적으로 세월의 흐름과 가장 상관이 큰 것은 완투 횟수의 감소이며, 그 다음으로 삼진 개수의 증가를 들 수 있었다.