• 제목/요약/키워드: accuracy analysis

검색결과 11,980건 처리시간 0.047초

국가 감염병 공동R&D전략 수립을 위한 분류체계 및 정보서비스에 대한 연구: 해외 코로나바이러스 R&D과제의 분류모델을 중심으로 (The Classification System and Information Service for Establishing a National Collaborative R&D Strategy in Infectious Diseases: Focusing on the Classification Model for Overseas Coronavirus R&D Projects)

  • 이도연;이재성;전승표;김근환
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.127-147
    • /
    • 2020
  • 세계는 신형 코로나바이러스 감염증(COVID-19)으로 수 많은 인명 피해와 경제적 손실을 기록하고 있는 상황이다. 우리나라 정부는 연구개발(Research & Development)을 통해 국가 감염병 위기를 극복하려는 전략을 수립하고 실행하기 위한 투자방향을 수립하였다. 기존 기술분류나 과학기술 표준분류에 따른 통계를 활용하면 특정 R&D 분야의 특이점 및 변화를 발견하기 어렵다는 한계가 존재해왔다. 최근 우리나라 감염병 연구개발 과제를 대상으로 수요자의 목적에 맞게 분류체계를 수립하고 연구비 비교 분석을 통해 투자가 요구되는 연구 분야를 제시하는 연구들이 진행되었다. 하지만 현재 국가 보건 안보와 신성장 산업육성이라는 목표를 달성하기 위한 실행방안으로 요구되고 있는 전염병 연구분야의 국가간 협력전략 수립에 필요한 정보를 체계적으로 제공하고 있지 못한 상황이다. 따라서 국가 공동 연구개발 전략 수립을 위한 분류체계와 분류모델기반의 정보서비스에 대한 연구가 요구되고 있다. 우선 감염병관련 NTIS 과제데이터를 기반으로 정성분석을 통해 7개의 분류체계를 도출하였다. 스코퍼스(Scopus) 데이터와 양방향 RNN모델을 사용하여, 분류체계 모델을 학습시켰다. 최종적인 모델의 분류 성능은 90%이상의 높은 정확도와 강건성을 확보하였다. 실증연구를 위해 주요 국가의 코로나바이러스 연구개발 과제를 대상으로 전염병 분류체계를 적용하였다. 주요 국가의 감염병(코로나바이러스) 연구개발 과제를 분류체계별로 분석한 결과, 세계적으로 유행하는 바이러스의 예상치 못한 창궐이 확산되는 속도에 비해 백신과 치료제 개발이 제대로 이뤄지지 않는 원인의 배경을 간접적으로 확인할 수 있었다. 국가별 비교분석을 통해 미국과 일본은 상대적으로 모든 영역에 골고루 연구개발 투자를 하고 있는 것으로 나타난 반면, 유럽은 상대적으로 특정 연구분야에 많은 투자를 하는 집중화 전략을 취하는 것으로 나타났다. 동시에 주요 국가의 코로나 바이러스 주요 연구조직에 대한 정보를 분류체계별로 제공하여 국제 공동R&D 전략의 기초정보를 제공하였다. 본 연구 결과를 통해 세 가지 정책적 의미를 도출할 수 있다. 첫째, 데이터기반 과학기술정책 관점에서 수요자 관심분야에 대한 국가 R&D사업의 정보를 글로벌 기준으로 문서를 분류하는 방안을 제시하였다. 둘째, 감염병관련 국가 R&D사업 영역에 대한 정보분석 서비스 기획의 기반을 마련하였다. 마지막으로 국가 감염병 R&D 분류체계 수립을 통해 분류 체계의 궁극적 목표인 산업, 기업, 정책 정보를 제공할 수 있는 기반을 마련한 것이다.

국내 프로축구 팬들의 유니폼 소비 분석: 손흥민의 토트넘 홋스퍼 FC 이적 전후 비교 (Analysis of Football Fans' Uniform Consumption: Before and After Son Heung-Min's Transfer to Tottenham Hotspur FC)

  • 최영현;이규혜
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.91-108
    • /
    • 2020
  • 박지성 선수의 2005년 맨체스터 유나이티드 FC 입단 이후로, 국내에서 프로축구 유니폼 시장이 본격적으로 성장하기 시작했다. 이후, 국내 선수들의 해외 리그에서 활약이 계속되면서 국내에서도 잉글랜드 프리미어리그에 대한 대중의 관심이 지속되고 있다. 이러한 시점에서 본 연구는 국내 프로축구 팬들의 유니폼 소비에 전반적인 소비자 인식을 알아보고, 선수의 영입에 따른 소비자 인식 변화를 비교하고자 했다. EPL의 토트넘에서 활동하고 있는 손흥민 선수의 영입 전후를 중심으로 소셜 미디어에 나타난 프로축구 팬들의 소비자 인식과 구매 요인을 알아보았다. 'EPL 유니폼'을 키워드로, 국내 포털사이트와 소셜 미디어의 게시글을 수집하고, 텍스트 마이닝, SNA, 회귀분석을 사용하여 분석했다. 연구 결과, 첫째, 선수의 소속 팀, 실적, 포지션과 구단의 실적, 순위, 리그의 우승 여부가 프로축구 유니폼의 구매와 탐색에 있어 주요 요인으로 확인되었다. 가격, 디자인, 사이즈, 로고 등과 같은 항목보다 유니폼의 형태, 마킹, 정품 여부, 스폰서와 더 중요하게 작용하고 있었다. 둘째, 구조적 등위성 분석과 군집분석을 통해 국내 프로축구 팬들 사이에서 유니폼과 관련되어 언급되고 있는 주요 주제를 알아본 결과, EPL에 소속된 구단과 유명 선수들이 가장 핵심적인 주제로 나타났다. 셋째, 프로축구 유니폼에 대한 시기별 주제는 월드컵과 EPL 리그에 대한 관심에서 EPL에서 활동하는 다양한 국내외 선수들에 대한 관심으로, 2015년 이후에는 유니폼 자체에 대한 것으로 주제가 변화했다. 이를 통해, 선수들의 이적에 따라 선수가 소속된 해당 구단의 유니폼이 관심을 받고 있음을 알 수 있었다. 넷째, 남녀 소비자 모두 손흥민에 대한 관심이 증가함에 따라서 토트넘이 소속된 리그인 EPL에 대한 관심도 증가하는 것으로 나타났다. 여성의 경우 손흥민에 대한 관심이 증가함에 따라 축구 유니폼에 대해서도 관심을 가지는 것으로 나타난 반면, 남성의 경우 손흥민 선수에 대한 관심과 축구 유니폼에 대한 관심 사이의 관계가 유의하게 나타나지 않았다. 각 구단은 선수와 구단의 성적과 이미지 관리, 스폰서 브랜드 관리에 집중하고, 선수의 이적이 결정되면 선수의 자국에 해당 물량의 공급을 늘리며, 인기를 끌고 있는 선수의 등번호가 부착된 유니폼의 경우에는 여성을 위한 다양한 사이즈를 제공해야 할 필요가 있다.

데이터마이닝을 활용한 기업 R&D역량 특성에 관한 탐색 연구 (A Study on the Characteristics of Enterprise R&D Capabilities Using Data Mining)

  • 김상국;임정선;박완
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.1-21
    • /
    • 2021
  • 글로벌 경영환경 변화로 기술개발과 시장니즈의 불확실성이 커지고 기업 간 상호 경쟁이 심화되면서 개별 기업들의 연구개발 활동에 대한 관심과 요구가 증가하고 있다. 이러한 환경변화에 대응하기 위하여 연구개발 기업들은 설비투자에 더욱 신중을 가하면서 연구개발의 질적인 경쟁력을 제고시키기 위한 수단 중 하나로 연구개발 투자를 강화하고 있다. 결과적으로 설비나 연구개발 투자 요소는 연구개발 기업들의 입장에서는 미래 불확실성을 떠안아야하는 부담이 될 수 밖에 없다. 단지 연구개발 역량을 제고시키기 위한 수단으로 연구개발 투자를 증가시키는 경영 전략은 기업성과측면에서 불확실성이 높은 것이 사실이다. 본 연구에서는 데이터마이닝 기법을 활용하여 기업들의 연구개발 역량에 영향을 주는 특성들을 기술경영능력, 연구개발능력, 그리고 기업분류 속성 관점에서 탐색하고 이러한 개별 요인들이 연구개발 역량의 수준에 따라 나타나는 특성들을 탐색하였다. 이를 위해서 국내 연구개발 기업 전체를 대상으로 증거데이터에 근거해 군집분석과 실험결과를 제시하였다. 상기의 3개 관점마다 세부 평가지표를 각각 7개, 2개, 4개로 구성하여 해당 영역에서의 개별적인 수준을 정량적으로 측정하고자 하였다. 기술경영능력과 연구개발능력의 경우 현행 기술력 평가기관들이 주도적으로 활용하고 있는 소항목 평가지표를 참조하였으며, 이때 정량적으로 자료 확보가능한지 여부를 고려하여 최종적인 세부 평가지표를 새롭게 구성하였다. 기업분류 속성의 경우에는 가장 기본적인 기업 분류 프로파일 정보를 고려하여 구성하였다. 특히 연구개발 역량수준의 동질성 파악을 위해서 기술경영능력과 연구개발능력의 세부평가지표를 활용하여 개별기업별 종합점수를 부여하였으며, 이때 역량수준을 5개의 등급으로 분류하여 군집분석 결과와 비교하였다. 분석된 군집과 역량수준 등급과의 비교평가에 따른 의미를 부여하기 위해서 군집별로 연구개발 역량수준이 높은 경향과 낮은 경향이 존재하는 군집들을 탐색하였다. 이후 해당 군집에서 세부 평가지표에 따른 특징들을 분석하였다. 이와 같은 연구수행 방법을 통해 연구 개발 역량수준이 높은 군집이 2개, 낮은 군집이 1개로 분석되었으며, 나머지 2개의 군집들은 역량수준이 거의 높은 발생 빈도로 유사하게 나타났다. 결과적으로 본 연구에서는 역량수준이 높은 2개 군집과 낮은 1개의 군집들을 대상으로 세부 평가지표에 따른 개별적 특징들을 분석하였다. 본 연구의 결과가 제시하고 있는 시사점은 기술변화 속도와 시장수요의 변화에 효과적으로 대응할 수 있는 전문 경영자의 교체주기가 빠를수록 연구개발 역량 제고에 기여할 가능성이 높다는 점이다. 개인기업의 경우에 법인기업으로의 전환을 통해 연구개발 인력들의 기업에 대한 소속감을 제고시킴으로써 연구개발 역량의 투입강도를 높일 필요가 있으며, 조직적 측면에서도 팀단위의 조직구성을 통해 책임과 권한의 정확성을 제공할 필요가 있다는 점이다. 기술상용화 실적건수나 기술인증건수는 역량제고에 기여하는 경우와 그렇지 않은 경우 모두 발생되고 있어, 경영자 입장에서 연구개발 역량제고를 위한 중요 인자로 검토하는데 한계가 있는 것으로 확인되었다. 마지막으로 실용신안출원의 경험 여부는 연구개발 역량에 중요한 영향을 미치는 요인으로 파악되어, 연구개발 역량 제고를 위해서는 실용신안출원 장려를 위한 동기부여를 제공할 필요성을 확인하였다. 이처럼 본 연구결과는 개별 기업들의 연구개발 역량 제고를 위한 기업 경영전략의 중요한 시사점을 제공할 수 있을 것으로 기대된다.

골밀도검사의 올바른 질 관리에 따른 임상적용과 해석 -이중 에너지 방사선 흡수법을 중심으로- (A Study of Equipment Accuracy and Test Precision in Dual Energy X-ray Absorptiometry)

  • 동경래;김호성;정운관
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제31권1호
    • /
    • pp.17-23
    • /
    • 2008
  • 목적 : 골밀도검사의 중요한 부분을 차지하고 있는 검사장비 및 검사자의 정밀도와 정확도는 환경에 따라 차이가 있기 때문에 질 관리가 체계적으로 이루어져야 한다. 골밀도 검사장비의 노화 및 잦은 고장에 의하여 장비의 교체 및 추가 구입으로 인하여, 추적검사를 하는 환자들의 호환성에 문제가 있다. 따라서 장비 교체 및 증설 후 동일한 장비처럼 호환하여 시용해도 환자의 임상적인 골밀도 변화를 정확하고 정밀하게 반영할수 있는지 알아보고자 한다. 재료 및 방법 : 장비 정밀도는 GE Lunar Prodigy Advance 2 대의 장비 (P1, P2)와 HOLOGIC Spine Phantom(HSP)을 이용하여 각 장비에서 20 번씩 스캔하여 팬텀을 이용한 정밀도 데이터를 획득하였고 (Group 1), 여성 120명 (평균나이 48.78, $20{\sim}60$세)을 대상으로 각 장비에서 15명씩, 같은 환자가 두 번 촬영을 하여 각 검사자의 정밀도를 측정했다(Group 2), 또한 검사자의 정밀도는 팬텀(ASP)을 이용하여 매일 아침마다 질 관리 시행후 얻은은 데이터를 기준으로, 각각의 장비에서 HSP를 이용하여 각 장비에서 20번씩 스캔 후 데�歷� 획득하여 검사자정밀도 및교차 보정 데이터를 산출하였고(Group 3), 여성 120명(평균나이 48.78, $20{\sim}60$세)의 동일 환자를 대상으로 한 장비에서 한 번씩 교차로 측정하여 검사자 정밀도 및 교차보정 데이터를 산추라였다(Group 4). 결과 : Daily Q.C Data는 $0.996\;g/cm^2$, 변동계수(%CV) 0.08로 안정된 장비로서 Group 1에서 Mean${\pm}$SD 및 %CV값은 ALP(P1: $1.064{\pm}0.002\;g/cm^2$, $%CV=0.190\;g/cm^2$, P2: $1.061{\pm}0.003\;g/cm^2$, %CV=0.192). Group 2에서 Mean${\pm}$SD 및 %CV값은 P1: $1.187{\pm}0.002\;g/cm^2$, $%CV=0.164\;g/cm^2$, P2: $1.198{\pm}0.002\;g/cm^2$, %CV=0.163, Group 3에서의 Mean${\pm}$2SD 및 %CV는 P1 - (spine: $0.001{\pm}0.03\;g/cm^2$, %CV=0.94, Femur: $0.001{\pm}0.019\;g/cm^2$, %CV=0.96), P2 - (spine: $0.002{\pm}0.018\;g/cm^2$, %CV=0.55, Femur: $0.001{\pm}0.013\;g/cm^2$, %CV=0.48), Group 4에서 Mean${\pm}$2SD 및 %CV는, r값은 spine: $0.006{\pm}0.024\;g/cm^2$, %CV=0.86, r=0.995, Femur: $0{\pm}0.014\;g/cm^2$, %CV=0.54, r=0.998이였다. 결론 : HOLOGIC Spine Phantom과 LUNAR ASP %CV는 ISCD에서 규정한 정상오차 범위인 ${\pm}2%$안에 모두 포함되었고 BMD가 비교적 일정한 값을 유지하면 측정되어 뛰어난 재현성을 보였다. 하지만 Phantom은 환자의 체중이나 체지방 조성의 변화 등 임상적인 부분을 반영하는 데는 한계성을 갖고 있어 mis-calibration을 check하는데 유용할 것으로 판단된다. Group 3과 Group 4의 결과에서 환자를 하나의 장비로 두 번 측정한 값을 보았을 때와 두 대의 장비를 교차하여 측정한 값 모두 2SD값 이내에 포함되었고 선형회귀분석(Regression Analysis) r값이 0.99 이상으로 높은 정밀도와 상관도를 나타냄으로써 두 장비를 호환하여 추적검사를 시행하여도 영향이 없었다. 신뢰있는 BMD 산출을 위해서는 정기적으로 장비 및 검사자의 기능테스트와 이에 대한 적절한 교정행위가 이루어져야 할 것이다.

  • PDF

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

전신 PET/CT 검사에서 팔의 위치에 따른 감약 정도와 SUV 변화 평가 (The Evaluation of Attenuation Difference and SUV According to Arm Position in Whole Body PET/CT)

  • 곽인석;이혁;최성욱;석재동
    • 핵의학기술
    • /
    • 제14권2호
    • /
    • pp.21-25
    • /
    • 2010
  • PET/CT검사에 있어서 CT는 해부학적인 정보를 제공할 뿐 아니라 PET영상에 대한 감약 정보를 제공하는 역할을 하고 있다. CT의 감약차를 이용하는 것으로서 검사 부위에 존재하는 여러 가지 변수에 의해 그 정도가 달라질 수 있다. 이것은 현재 본 원에서 PET/CT검사 시에 팔을 몸 옆에 두고 검사하는 것에도 적용할 수 있으며, 이에 본 논문에서는 일부 타 병원에서 시행하고 있는 팔을 머리 위로 올리고 검사하는 방법과 함께 CT값의 변화에 따른 표준섭취계수의 변화를 비교 연구했다. NEMA 1994 PET 모형의 삽입체와 모형의 부피를 고려하여 4:1의 비율로 $^{18}F$-FDG를 주입하였다. 먼저 테플론 삽입체 두 개를 NEMA 1994 PET 모형의 양 옆에 고정시켜 팔을 내리고 있는 상태를 가정하여 영상을 얻었으며 테플론 삽입체를 제거하여 팔을 머리 위로 올린 상태를 가정하여 영상을 얻었다. 앞의 과정을 거쳐 얻은 영상을 재구성 하여 Volume Viewer를 이용해 한 영상면 당 5개의 관심 체적을 설정했고 각 측정값을 평균하여 얻어낸 CT값과 표준섭취계수로 그 변화를 측정하였다. 측정된 값과 폐 관련 암환자의 간에 관심 영역을 설정하고 측정한 값을 비교하여 실제 임상 영상에서의 차이를 측정하였다. 모형 실험결과 테플론 삽입체를 부착하였을 때보다 테플론 삽입체를 부착하지 않았을 때 CT값이 -5.8 HU에서 0 HU으로 평균 5.8 HU 증가하였고 표준섭취계수는 24.64에서 24.29로 평균 0.35 감소하였다. 축방향 균일도는 0.064에서 0.052로 평균 0.012 감소하였다. 환자 실험결과 팔을 내리고 검사하였을 때보다 팔을 머리 위로 올리고 검사하였을 때 CT값은 54.1 HU에서 59.9 HU로 평균 5.8 HU 증가하였고 표준섭취계수는 2.02에서 1.85로 평균 0.17 감소하였다. 테플론 삽입물을 부착한 상태로 검사할 때 보다 테플론 삽입물을 부착하지 않은 상태로 검사할 때 CT값은 증가하고 표준섭취계수는 감소하는 양상을 보였다. 이러한 현상이 일어나는 이유는 감약의 정도와 표준섭취계수의 상관관계에서 찾을 수 있다. CT값이 증가할수록 감약 계수는 비례하여 증가하는데 이것은 결국 CT값이 증가될수록 감약이 증가된다고 볼 수 있다. 따라서 팔에 의해 감약이 과다하게 측정될 수 있으므로 결국 표준섭취계수의 증가로 이어진다고 판단된다. 하지만 그 값의 차이가 매우 적어 진단적으로 유의한 범위라고 볼 수 없다. 팔을 머리 위로 올리고 검사하는 자세가 어깨 및 팔에의 $^{18}F$-FDG섭취와 환자의 고통을 야기하게 된다는 점들을 종합하여 고려해 보았을 때, PET/CT검사 시에는 팔을 내리고 검사하는 것이 합리적이나, 환자의 상태 및 영상의 질적 측면을 고려하여 결정하여야 하겠다.

  • PDF

소셜 네트워크 분석 기법을 활용한 협업필터링의 특이취향 사용자(Gray Sheep) 문제 해결 (Resolving the 'Gray sheep' Problem Using Social Network Analysis (SNA) in Collaborative Filtering (CF) Recommender Systems)

  • 김민성;임일
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.137-148
    • /
    • 2014
  • 상품 검색시간의 단축과 쇼핑에 투입되는 노력의 감소 등, 온라인 쇼핑이 주는 장점에 대한 긍정적인 인식이 확산되면서 전자상거래(e-commerce)의 중요성이 부각되는 추세이다. 전자상거래 기업들은 고객확보를 위해 다양한 인터넷 고객관계 관리(eCRM) 활동을 전개하고 있는데, 개인화된 추천 서비스의 제공은 그 중 하나이다. 정확한 추천 시스템의 구축은 전자상거래 기업의 성과를 좌우하는 중요한 요소이기 때문에, 추천 서비스의 정확도를 높이기 위한 다양한 알고리즘들이 연구되어 왔다. 특히 협업필터링(collaborative filtering: CF)은 가장 성공적인 추천기법으로 알려져 있다. 그러나 고객이 상품을 구매한 과거의 전자상거래 기록을 바탕으로 미래의 추천을 하기 때문에 많은 단점들이 존재한다. 신규 고객의 경우 유사한 구매 성향을 가진 고객들을 찾기 어렵고 (Cold-Start problem), 상품 수에 비해 구매기록이 부족할 경우 상관관계를 도출할 데이터가 희박하게 되어(Sparsity) 추천성능이 떨어지게 된다. 취향이 독특한 사용자를 뜻하는 'Gray Sheep'에 의한 추천성능의 저하도 그 중 하나이다. 이러한 문제인식을 토대로, 본 연구에서는 소셜 네트워크 분석기법 (Social Network Analysis: SNA)과 협업필터링을 결합하여 데이터셋의 특이 취향 사용자 (Gray Sheep) 문제를 해소하는 방법을 제시한다. 취향이 독특한 고객들의 구매데이터를 소셜 네트워크 분석지표를 활용하여 전체 데이터에서 분리해낸다. 그리고 분리한 데이터와 나머지 데이터인 두 가지 데이터셋에 대하여 각기 다른 유사도 기법과 트레이닝 셋을 적용한다. 이러한 방법을 사용한 추천성능의 향상을 검증하기 위하여 미국 미네소타 대학 GroupLens 연구팀에 의해 수집된 무비렌즈 데이터(http://movielens.org)를 활용하였다. 검증결과, 일반적인 협업필터링 추천시스템에 비하여 이 기법을 활용한 협업필터링의 추천성능이 향상됨을 확인하였다.

주가지수 방향성 예측을 위한 주제지향 감성사전 구축 방안 (Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary)

  • 유은지;김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.95-110
    • /
    • 2013
  • 최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.

한정된 O-D조사자료를 이용한 주 전체의 트럭교통예측방법 개발 (DEVELOPMENT OF STATEWIDE TRUCK TRAFFIC FORECASTING METHOD BY USING LIMITED O-D SURVEY DATA)

  • 박만배
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 1995년도 제27회 학술발표회
    • /
    • pp.101-113
    • /
    • 1995
  • The objective of this research is to test the feasibility of developing a statewide truck traffic forecasting methodology for Wisconsin by using Origin-Destination surveys, traffic counts, classification counts, and other data that are routinely collected by the Wisconsin Department of Transportation (WisDOT). Development of a feasible model will permit estimation of future truck traffic for every major link in the network. This will provide the basis for improved estimation of future pavement deterioration. Pavement damage rises exponentially as axle weight increases, and trucks are responsible for most of the traffic-induced damage to pavement. Consequently, forecasts of truck traffic are critical to pavement management systems. The pavement Management Decision Supporting System (PMDSS) prepared by WisDOT in May 1990 combines pavement inventory and performance data with a knowledge base consisting of rules for evaluation, problem identification and rehabilitation recommendation. Without a r.easonable truck traffic forecasting methodology, PMDSS is not able to project pavement performance trends in order to make assessment and recommendations in the future years. However, none of WisDOT's existing forecasting methodologies has been designed specifically for predicting truck movements on a statewide highway network. For this research, the Origin-Destination survey data avaiiable from WisDOT, including two stateline areas, one county, and five cities, are analyzed and the zone-to'||'&'||'not;zone truck trip tables are developed. The resulting Origin-Destination Trip Length Frequency (00 TLF) distributions by trip type are applied to the Gravity Model (GM) for comparison with comparable TLFs from the GM. The gravity model is calibrated to obtain friction factor curves for the three trip types, Internal-Internal (I-I), Internal-External (I-E), and External-External (E-E). ~oth "macro-scale" calibration and "micro-scale" calibration are performed. The comparison of the statewide GM TLF with the 00 TLF for the macro-scale calibration does not provide suitable results because the available 00 survey data do not represent an unbiased sample of statewide truck trips. For the "micro-scale" calibration, "partial" GM trip tables that correspond to the 00 survey trip tables are extracted from the full statewide GM trip table. These "partial" GM trip tables are then merged and a partial GM TLF is created. The GM friction factor curves are adjusted until the partial GM TLF matches the 00 TLF. Three friction factor curves, one for each trip type, resulting from the micro-scale calibration produce a reasonable GM truck trip model. A key methodological issue for GM. calibration involves the use of multiple friction factor curves versus a single friction factor curve for each trip type in order to estimate truck trips with reasonable accuracy. A single friction factor curve for each of the three trip types was found to reproduce the 00 TLFs from the calibration data base. Given the very limited trip generation data available for this research, additional refinement of the gravity model using multiple mction factor curves for each trip type was not warranted. In the traditional urban transportation planning studies, the zonal trip productions and attractions and region-wide OD TLFs are available. However, for this research, the information available for the development .of the GM model is limited to Ground Counts (GC) and a limited set ofOD TLFs. The GM is calibrated using the limited OD data, but the OD data are not adequate to obtain good estimates of truck trip productions and attractions .. Consequently, zonal productions and attractions are estimated using zonal population as a first approximation. Then, Selected Link based (SELINK) analyses are used to adjust the productions and attractions and possibly recalibrate the GM. The SELINK adjustment process involves identifying the origins and destinations of all truck trips that are assigned to a specified "selected link" as the result of a standard traffic assignment. A link adjustment factor is computed as the ratio of the actual volume for the link (ground count) to the total assigned volume. This link adjustment factor is then applied to all of the origin and destination zones of the trips using that "selected link". Selected link based analyses are conducted by using both 16 selected links and 32 selected links. The result of SELINK analysis by u~ing 32 selected links provides the least %RMSE in the screenline volume analysis. In addition, the stability of the GM truck estimating model is preserved by using 32 selected links with three SELINK adjustments, that is, the GM remains calibrated despite substantial changes in the input productions and attractions. The coverage of zones provided by 32 selected links is satisfactory. Increasing the number of repetitions beyond four is not reasonable because the stability of GM model in reproducing the OD TLF reaches its limits. The total volume of truck traffic captured by 32 selected links is 107% of total trip productions. But more importantly, ~ELINK adjustment factors for all of the zones can be computed. Evaluation of the travel demand model resulting from the SELINK adjustments is conducted by using screenline volume analysis, functional class and route specific volume analysis, area specific volume analysis, production and attraction analysis, and Vehicle Miles of Travel (VMT) analysis. Screenline volume analysis by using four screenlines with 28 check points are used for evaluation of the adequacy of the overall model. The total trucks crossing the screenlines are compared to the ground count totals. L V/GC ratios of 0.958 by using 32 selected links and 1.001 by using 16 selected links are obtained. The %RM:SE for the four screenlines is inversely proportional to the average ground count totals by screenline .. The magnitude of %RM:SE for the four screenlines resulting from the fourth and last GM run by using 32 and 16 selected links is 22% and 31 % respectively. These results are similar to the overall %RMSE achieved for the 32 and 16 selected links themselves of 19% and 33% respectively. This implies that the SELINICanalysis results are reasonable for all sections of the state.Functional class and route specific volume analysis is possible by using the available 154 classification count check points. The truck traffic crossing the Interstate highways (ISH) with 37 check points, the US highways (USH) with 50 check points, and the State highways (STH) with 67 check points is compared to the actual ground count totals. The magnitude of the overall link volume to ground count ratio by route does not provide any specific pattern of over or underestimate. However, the %R11SE for the ISH shows the least value while that for the STH shows the largest value. This pattern is consistent with the screenline analysis and the overall relationship between %RMSE and ground count volume groups. Area specific volume analysis provides another broad statewide measure of the performance of the overall model. The truck traffic in the North area with 26 check points, the West area with 36 check points, the East area with 29 check points, and the South area with 64 check points are compared to the actual ground count totals. The four areas show similar results. No specific patterns in the L V/GC ratio by area are found. In addition, the %RMSE is computed for each of the four areas. The %RMSEs for the North, West, East, and South areas are 92%, 49%, 27%, and 35% respectively, whereas, the average ground counts are 481, 1383, 1532, and 3154 respectively. As for the screenline and volume range analyses, the %RMSE is inversely related to average link volume. 'The SELINK adjustments of productions and attractions resulted in a very substantial reduction in the total in-state zonal productions and attractions. The initial in-state zonal trip generation model can now be revised with a new trip production's trip rate (total adjusted productions/total population) and a new trip attraction's trip rate. Revised zonal production and attraction adjustment factors can then be developed that only reflect the impact of the SELINK adjustments that cause mcreases or , decreases from the revised zonal estimate of productions and attractions. Analysis of the revised production adjustment factors is conducted by plotting the factors on the state map. The east area of the state including the counties of Brown, Outagamie, Shawano, Wmnebago, Fond du Lac, Marathon shows comparatively large values of the revised adjustment factors. Overall, both small and large values of the revised adjustment factors are scattered around Wisconsin. This suggests that more independent variables beyond just 226; population are needed for the development of the heavy truck trip generation model. More independent variables including zonal employment data (office employees and manufacturing employees) by industry type, zonal private trucks 226; owned and zonal income data which are not available currently should be considered. A plot of frequency distribution of the in-state zones as a function of the revised production and attraction adjustment factors shows the overall " adjustment resulting from the SELINK analysis process. Overall, the revised SELINK adjustments show that the productions for many zones are reduced by, a factor of 0.5 to 0.8 while the productions for ~ relatively few zones are increased by factors from 1.1 to 4 with most of the factors in the 3.0 range. No obvious explanation for the frequency distribution could be found. The revised SELINK adjustments overall appear to be reasonable. The heavy truck VMT analysis is conducted by comparing the 1990 heavy truck VMT that is forecasted by the GM truck forecasting model, 2.975 billions, with the WisDOT computed data. This gives an estimate that is 18.3% less than the WisDOT computation of 3.642 billions of VMT. The WisDOT estimates are based on the sampling the link volumes for USH, 8TH, and CTH. This implies potential error in sampling the average link volume. The WisDOT estimate of heavy truck VMT cannot be tabulated by the three trip types, I-I, I-E ('||'&'||'pound;-I), and E-E. In contrast, the GM forecasting model shows that the proportion ofE-E VMT out of total VMT is 21.24%. In addition, tabulation of heavy truck VMT by route functional class shows that the proportion of truck traffic traversing the freeways and expressways is 76.5%. Only 14.1% of total freeway truck traffic is I-I trips, while 80% of total collector truck traffic is I-I trips. This implies that freeways are traversed mainly by I-E and E-E truck traffic while collectors are used mainly by I-I truck traffic. Other tabulations such as average heavy truck speed by trip type, average travel distance by trip type and the VMT distribution by trip type, route functional class and travel speed are useful information for highway planners to understand the characteristics of statewide heavy truck trip patternS. Heavy truck volumes for the target year 2010 are forecasted by using the GM truck forecasting model. Four scenarios are used. Fo~ better forecasting, ground count- based segment adjustment factors are developed and applied. ISH 90 '||'&'||' 94 and USH 41 are used as example routes. The forecasting results by using the ground count-based segment adjustment factors are satisfactory for long range planning purposes, but additional ground counts would be useful for USH 41. Sensitivity analysis provides estimates of the impacts of the alternative growth rates including information about changes in the trip types using key routes. The network'||'&'||'not;based GMcan easily model scenarios with different rates of growth in rural versus . . urban areas, small versus large cities, and in-state zones versus external stations. cities, and in-state zones versus external stations.

  • PDF

한국 소아 청소년 정상 혈압 참고치 (Normative blood pressure references for Korean children and adolescents)

  • 이종국;문진수;최중명;남정모;이순영;오경원;김영택
    • Clinical and Experimental Pediatrics
    • /
    • 제51권1호
    • /
    • pp.33-41
    • /
    • 2008
  • 목 적 : 소아 청소년 건강관리에서 혈압 측정의 중요성이 점차 강조되고 있는 시점에서 한국의 소아 청소년들을 위한 정상 혈압 참고 치를 만들고자 하였다. 방 법 : 2005년에 새로운 신체성장 표준치를 만들기 위해 시행한 전국 소아 청소년들의 신체계측사업에 혈압 계측사업을 포함시켜 7-20세에 해당하는 소아 청소년 57,433명(남: 29,443명, 여: 27,990명)에서 신장, 체중 및 혈압 계측치를 얻었다. 혈압은 자동 진동혈압계인 Dinamap Procare 200(GE Inc., Milwaukee, Wi, USA)를 이용하여 측정하였고 앉은 자세에서 안정한 후 우측 팔에서 5분 간격으로 2번 측정하였다. 두 측정치의 평균치를 수축기 혈압과 이완기 혈압으로 기록하여 원 자료로 하였다. 체중이 +3SD 이상인 과체중아들 2,373명의 혈압은 제외하고 분석 하였다. 혈압 백분위수 표는 성별, 연령별, 신장 백분위수별로 만들어 졌으며 통계기법은 2004 Task Force in NHLBI (USA)이 사용한 통계기법을 원용한 고정 변형 LMS 방법을 사용하였다. 결 과 : 성별, 연령별(7-18세), 신장 백분위수별(5th, 10th, 25th, 50th, 75th, 90th, 95th) 혈압 참고치가 완성되었으며 신장 백분위수에 대한 자료는 질병관리본부 홈페이지인 http://www.cdc.go.kr/webcdc/에서 확인 할 수 있다. 고혈압의 기준치는 성별, 연령별, 신장대비에서 95 백분위수 이상으로 하고, 전고혈압 기준치는 90-95 백분위수 또는 수축기 및 이완기 혈압 130/80 mmHg 이상으로 정하였다. 결 론 : 이번에 마련된 우리나라 소아 청소년 정상 혈압 참고치는 처음이기 때문에 사용기준 및 고혈압의 기준은 앞으로 지속적인 논의와 연구가 필요할 것으로 생각된다. 또한 본 혈압 표는 자동 진동혈압계로 마련된 것이기 때문에 수동 수은 혈압계를 이용한 혈압 치를 평가하는 기준표로 사용하는 것은 주의해야 할 것이다.