• 제목/요약/키워드: Web based system

검색결과 5,297건 처리시간 0.037초

트윗 데이터를 활용한 IT 트렌드 분석 (An Analysis of IT Trends Using Tweet Data)

  • 이진백;이충권;차경진
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.143-159
    • /
    • 2015
  • 불확실한 환경변화에 대처하고 장기적 전략수립을 위해 기업에게 있어서 IT 트렌드에 대한 예측은 오랫동안 중요한 주제였다. IT 트렌드에 대한 예측을 기반으로 새로운 시대에 대한 인식을 하고 예산을 배정하여 빠르게 변화하는 기술의 추세에 대비할 수 있기 때문이다. 해마다 유수의 컨설팅업체들과 조사기관에서 차년도 IT 트렌드에 대해서 발표되고는 있지만, 이러한 예측이 실제로 차년도 비즈니스 현실세계에서 나타났는지에 대한 연구는 거의 없었다. 본 연구는 현존하는 빅데이터 기술을 활용하여 서울지역을 중심으로 지난 8개월동안(2013년 5월1일부터 2013년12월31까지) 정보통신산업진흥원과 한국정보화진흥원에서 2012년 말에 발표한 IT 트렌드 토픽이 언급된 21,589개의 트윗 데이터를 수집하여 분석하였다. 또한 2013년에 나라장터에 올라온 프로젝트들이 IT트렌드 토픽과 관련이 있는지 상관관계분석을 실시하였다. 연구결과, 빅데이터, 클라우드, HTML5, 스마트홈, 테블릿PC, UI/UX와 같은 IT토픽은 시간이 지날수록 매우 빈번하게 언급되어졌으며, 이 같은 토픽들은 2013년 나라장터 공고 프로젝트 데이터와도 매우 유의한 상관관계를 가지고 있는 것을 확인할 수 있었다. 이는 전년도(2012년)에 예측한 트렌드들이 차년도(2013년)에 실제로 트위터와 한국정부의 공공조달사업에 반영되어 나타나고 있는 것을 의미한다. 본 연구는 최신 빅데이터툴을 사용하여, 유수기관의 IT트렌드 예측이 실제로 트위터와 같은 소셜미디에서 생성되는 트윗데이터에서 얼마나 언급되어 나타나는지 추적했다는 점에서 중요한 의의가 있고, 이를 통해 트위터가 사회적 트랜드의 변화를 효율적으로 추적하기에 유용한 도구임을 확인하고자 할 수 있었다.

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

식도암 방사선 치료에 대한 Patterns of Care Study ($1998{\sim}1999$)의 예비적 결과 분석 (Preliminary Report of the $1998{\sim}1999$ Patterns of Care Study of Radiation Therapy for Esophageal Cancer in Korea)

  • 허원주;최영민;이형식;김정기;김일한;이호준;이규찬;김정수;전미선;김진희;안용찬;김상기;김보경
    • Radiation Oncology Journal
    • /
    • 제25권2호
    • /
    • pp.79-92
    • /
    • 2007
  • 목 적: 전국 병원의 방사선종양학과에서 식도암으로 방사선 치료를 받은 환자들을 각 병원으로부터 입력 받아 세부 항목별로 분석하여 식도암 환자들의 구성과 특징을 파악하여 범국가적인 자료로 활용하는 한편 치료방침을 분석하여 향후 적절한 치료를 위한 가이드라인으로 삼고자 하였다. 대상 및 방법: 전국 병원의 방사선종양학과에서 1998년과 1999년의 2년간에 걸쳐 식도암으로 확진된 246명을 대상으로 하였다. 연간 400명 미만의 방사선치료 신환자 발생병원들을 A군, 400명 이상 900명 미만의 병원들을 B군, 그리고 900명 이상 신환자가 발생하는 병원을 C군으로 분류하여 최종적으로 A군에서 12병원, B군에서 8개 병원, 그리고 C군에서 3개의 병원이 연구에 참여하였다. 이미 개발된 Web-based Korean PCS system을 통해 각 병원으로부터 직접 자료를 입력 받아 이를 세부 항목별로 분석하였고 통계적 처리는 SPSS version 12.0.1을 사용하고 범주형 자료는 Chi-squared test를 사용하였고 연속변수는 ANOVA, Kruskal-Wallis test를 적용하였다. 결 과: 입력된 환자들의 성별 분포는 남자 224명(91.1%), 여자 22명(8.9%)이었고 연령별 중앙값은 62세 전후였다. 진단 및 병기결정을 위한 검사로는 식도 촬영술(228명, 92.7%), 식도내시경(226명, 91.9%) 및 흉부 식도 CT 스캔(238명, 96.7%)을 주로 시행하였다. 편평상피암이 대종을 이루어 237명(96.3%)의 환자에서 관찰되었고 중흉부식도(mid-thoracic esophagus)에서 발생한 식도암이 가장 많았다(110명, 44.7%). 임상 병기는 III기가 과반수 이상을 차지하였다(135명, 54.9%). 방사선 치료만 받은 경우는 57명(23.2%), 방사선 치료와 수술을 병용한 경우는 전체의 15%인 37명, 항암약물 치료와 방사선 치료를 병용한 경우는 123명(50%)이었다. 수술과 방사선 치료를 병행한 경우 전례에서 수술을 먼저 시행한 후 방사선 치료를 하였다. 항암치료를 방사선치료와 병행한 경우 반수 이상에서(70명, 56.9%) 동시항암방사선 치료를 시행하였고 31명(25.2%)에서 항암치료 후 방사선치료를 또는 항암요법 단독치료 후 동시항암방사선치료를(13명, 10.6%) 시행하였다. 방사선 치료는 6 MV (116명, 47.2%)와 10 MV (87명, 35.4%)의 X-ray가 대종을 이루었다. 방사선 치료 시 조사야는 longitudinal margin의 경우 중앙값은 7.0 cm이었지만 각 군별로 현저한 차이가 있었다(A군; 5.5 cm, B군; 8.0 cm, C군; 14.0 cm). 계획용 CT를 사용하지 않고 고식적인 AP/PA 조사야를 사용하여 치료한 경우가 대부분이었는데(206명, 83.7%) 이 때 방사선 조사량의 중앙값은 3,600 cGy이었다. 이후 추가 방사선 치료 시 계획용 CT를 사용하지 않고 2-oblique fields 사용하여 치료한 경우가 87명(35.4%)이었는데 방사선 조사량의 중앙값은 1,800 cGy이었다. 전 환자에서 1일 1회 180 cGy로 치료하였다. 전 환자에서 조사된 총 방사선량의 중앙값은 5,580 cGy이었다. 수술 후 방사선 치료를 시행한 경우 중앙값은 5,040 cGy이었고 수술을 받지 않은 환자 중앙값은 5,940 cGy이었다. 근접조사 방사선 치료는 총 34명(13.8%)에서 시행되었고, 전 환자에서 high dose rate Iridium-192를 사용하였다. 조사범위는 종양에서 longitudinal margin의 중앙값은 1 cm, prescribed isodose curve에서 axial length의 평균값은 8.25 cm, 폭은 2 cm, 그리고 전후 폭의 중앙값도 2 cm이었다. Fraction size의 중앙값은 300 cGy이었는데 B군의 경우는 500 cGy이었다. 총 분할 횟수는 $3{\sim}4$회가 대부분이었다. 한편, 방사선 치료 중 발생한 급성 부작용은 식도염이 가장 많았는데 전체 246명 환자 중 155명(63.0%)에서 발생하였다. 결 론: 전국 23개 병원의 식도암 환자 치료 Data를 분석해 본 결과 대부분의 병원에서 환자의 특징과 진단 및 병기 결정 방법, 치료의 유형 등에서 유사한 결과를 보였으며 신환 발생 수에 따른 병원 규모의 차이는 조사 결과에 큰 영향을 미치지 못하였다. 하지만 병원 규모가 클수록 10 MV 이상의 고에너지로 치료하는 경향이 많았으며 3D CT Plan도 병원 규모가 클수록 활용도가 높았다. 조사 야의 면적도 병원 군별로 차이를 보였다. 향후 더 많은 환자를 입력하여 생존율 분석까지 이루어지면 이 연구는 식도암 치료방침의 결정에 중요한 guideline을 제시해 줄 것으로 사료된다.

공연장에서 다중 몰입도 측정을 위한 시스템 개발 (System Development for Measuring Group Engagement in the Art Center)

  • 류준모;최일영;최이권;김재경
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.45-58
    • /
    • 2014
  • 몰입은 관람객이 콘텐츠를 관람할 때 관람객들이 콘텐츠에 몰두하고 있는 심리적 상태를 의미하는 것으로, 관람객의 몰입경험은 콘텐츠의 만족도에 긍정적인 영향을 미친다. 따라서 공연 같은 콘텐츠를 제공하는 기업들은 콘텐츠의 흥행을 위해 관람객의 몰입도를 측정하는 것은 매우 중요하다. 설문 등의 표본조사 방법을 통해 관람객의 몰입도를 측정 연구는 방송분야 등 에서 널리 사용되고 있다. 이러한 몰입도 측정방법은 콘텐츠 관람 이후 설문을 실시하기 때문에 몰입도를 실시간으로 측정할 수 없을 뿐만 아니라 몰입도 측정의 정확성이 저하되는 문제 등이 있다. 이러한 문제를 해결하기 위하여 생리적 반응이나 얼굴 표정 분석, 그리고 움직임 관찰 방법 등을 이용하여 몰입도를 측정하는 연구가 수행되고 있다. 생체 신호를 이용하여 몰입도를 측정하는 연구의 경우, 1인을 대상으로 생체신호를 측정할 뿐만 아니라, 많은 데이터 처리 시간과 비용이 소모되는 단점이 있어 많은 관람객이 관람하는 공연장에 적용하기에는 한계가 있다. 얼굴 표정인식 통해 몰입도를 측정하는 경우도 1인을 대상으로 하고 있으며, 밝은 조명의 실험실 환경에서만 가능하다는 단점이 존재한다. 또한 관람객들의 움직인 동기화를 이용하여 몰입도를 특정한 연구는 다중관객을 대상으로 하였지만, 이는 실험실 환경에 한정하여 적용된 사례이다. 따라서 본 연구에서는 공연장, 시사회관 등 많은 관람객들이 콘텐츠를 관람하는 실제 환경에서 다중관람객이 다중몰입도의 정량적 평가를 위한 시스템을 설계하고 개발하였다. 제안된 시스템은 외부장치, 서버, 내부장치 등의 3부분으로 구성되어 있다. 서울시 마포구 상암동에 위치한 DMC 홍보관에 상설 전시장으로 운영하고 있으며, 관람객들을 대상으로 데이터를 획득하고 있다. 제안하고 있는 시스템을 활용하면 콘텐츠의 어느 구간에서 관객들이 몰입을 하고 있는지, 어느 구간에서 몰입을 하고 있지 못한지 분석가능하기 때문에, 향후 콘텐츠 제작 및 마케팅에 유용하게 활용할 수 있을 것으로 기대된다.

산란계 동물복지에 대한 국내 소비자의 인지도 조사 (A Survey of Korean Consumers' Awareness on Animal Welfare of Laying Hens)

  • 홍의철;강환구;박기태;전진주;김현수;김찬호;김상호
    • 한국가금학회지
    • /
    • 제45권3호
    • /
    • pp.219-228
    • /
    • 2018
  • 본 연구는 국내 소비자의 계란 구매 형태와 산란계 동물복지에 대한 인지도를 조사하기 위하여 살충제 계란 파동 사태 전후 2차례에 걸쳐 수행되었다. 조사대상은 가정 내 계란 구입 주 결정권자 및 취식자인 전국 만 25~59세 여성과 만 25~35세의 1인 가구 남성을 대상으로 하였다. 조사방법은 웹조사(Computer Assisted Web Interview; CAWI) 방법과 Gang survey 방법으로 수행되었다. 계란 구매 시 주요 고려 요인에 대하여 '가격'을 고려한다는 응답이 모두 가장 높았으며, 2차 조사에서 '포장일자/제조일자'를 고려한다는 응답률이 증가하였다. 계란 10개의 적정 가격으로 '2,000~3,000원 미만' 응답 비율이 1와 2차 조사에서 각각 53.8%과 42.9%로 가장 높았으며, 적정 가격 평균은 각각 2,482원과 2,132원이었다. 국내 계란 소비자의 구매 장소에 대해 '대형마트'에서 구입한다는 응답 비율이 가장 높고, 다음으로 '중대형 슈퍼마켓', '체인 슈퍼마켓'의 순이었다. 동물복지 관련 인지도를 보면 2차 조사의 결과에서 인지 비율(73.5%)이 높아졌다. 동물복지 용어 인지 시기는 살충제 계란 파동 사태 이전 59.0%, 이후 41.0%였다. 동물복지 인증마크와 동물복지 축산농장 인증마크를 본 적이 있는지에 대해서는 처음 본다는 응답이 59.6%이며, 동물복지 인증마크를 알고 있다는 응답비율이 37.6%였다. 동물복지 사육시스템에 대하여 가장 현실적으로 적합한 동물복지형 계사로는 '방사형' 응답율이 85.8%로 가장 높았다. 동물복지 사육시스템 정보 제시 후 '방사형' 적합 응답은 34.2%p 감소한 반면, '평사형'과 '유럽형' 적합 응답은 각각 13.2%p와 24.1%p 증가하였다. 국내 소비자의 동물복지 인증 계란에 대한 인지 및 취식경험에 대하여 '본 적이 없다'는 감소한 반면, '본 적이 있다'와 '먹어 본 경험이 있다'는 응답은 모두 증가하였다. 백화점, 유기농 관련 협동조합, 인터넷 쇼핑몰에서 동물복지 인증 계란을 구입했다는 응답이 일반 계란을 구입했다는 응답비율보다 높았다. 가격 제시 전 기준으로 전체 응답자 중 동물복지 계란을 구입할 의향은 92.0%이었으나, 동물복지 계란 가격을 제시후 구입 의향은 62.7%로 가격 제시 전 대비 약 30%p 감소하였다. 동물복지 인증 계란 구입 의향 이유로는 '식품 안전성이 높을 것 같아서' 응답이 71.0%로 가장 높고, 구입 의향이 없는 이유로는 '가격이 비쌀 것 같아서'가 38.1%로 가장 높았다. 동물복지 계란 관능평가 조사에서 일반 계란의 난각색과 껍질 촉감이 동물복지인증계란보다 유의하게 더 높은 것으로 나타났으며(P<0.05), 삶은 계란은 동물복지인증계란의 흰자 색이 일반계란보다 더 밝은 것으로 인식되었다(P<0.05). 결과적으로, 본 연구결과는 동물복지 인증 농가들에게 소비자 인식에 대한 기초자료를 제공함으로써 산란계 동물복지 인증제도의 활성화에 도움이 될 것으로 판단된다.

SaaS 기업의 차별화 및 가격전략이 고객획득성과에 미치는 영향: SaaS 기술성숙도 수준의 매개효과 및 조절효과를 중심으로 (Effects of firm strategies on customer acquisition of Software as a Service (SaaS) providers: A mediating and moderating role of SaaS technology maturity)

  • 채성욱;박승범
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.151-171
    • /
    • 2014
  • SaaS는 사용자가 필요한 소프트웨어를 인터넷을 통해 원격으로 서비스 받을 수 있도록 하는 모델로 소프트웨어 시장에서 차지하는 비중이 커짐과 동시에 관련 분야의 비즈니스 요구사항의 증가에 따라 지속적인 성장이 기대되는 분야이다. 이에 본 연구는 SaaS 공급업체들을 대상으로 기업에서 추구하는 차별화 전략 및 낮은 가격전략과 고객획득성과와의 관계를 살펴보고 더 나아가 이들 간의 관계에서 SaaS 기술성숙도 수준의 매개효과와 조절효과를 알아보고자 하였다. 이를 위해 SaaS 제공업체 및 국내 CNK(commerce net Korea) 데이터베이스에 등록된 업체의 어플리케이션을 대상으로, 175개 기업 총 199개 SaaS 전략사업단위의 설문결과를 분석에 활용하였다. SaaS 기술성숙도가 차별화전략 및 낮은가격전략과 고객획득성과와의 관계를 매개하는지 검증하기 위해 Baron and Kenny (1986)가 제안한 절차에 따라 회귀분석을 실시하였고, SaaS 기술성숙도의 조절효과를 살펴보기 위해 위계적 회귀분석(hierarchical regression analysis) 방법을 적용한 상호작용효과를 검증하였다. 분석결과, 첫째, SaaS 제공업체가 추구하는 차별화 전략(업종특화, 파트너활용, 전담인력수) 및 낮은 가격전략(월이용료, 초기설치비)과 같은 기업전략은 고객획득에 긍정적인 영향을 미치는 것으로 나타났다. 또한, SaaS 공급업체의 기술성숙도 수준(어플리케이션 서비스 제공, 웹 기본 어플리케이션, 웹 서비스 어플리케이션)과 고객 획득성과 간에 유의미한 긍정적인 관계가 있는 것으로 확인되었다. 마지막으로, SaaS 기술성숙도 수준의 기업전략과 고객획득성과와의 관계에 대한 조절효과는 주로 차별화 전략에 대해 나타난 반면, 매개효과는 주로 낮은 가격전략에 대해 나타남을 확인하였다.

자동차 대기오염물질 산정 방법론 설정에 관한 비교 연구 (강남구의 실시간 교통량 자료를 이용하여) (Comparative Study on the Methodology of Motor Vehicle Emission Calculation by Using Real-Time Traffic Volume in the Kangnam-Gu)

  • 박성규;김신도;이영인
    • 대한교통학회지
    • /
    • 제19권4호
    • /
    • pp.35-47
    • /
    • 2001
  • 대도시에서 자동차는 1차 대기오염물질의 가장 큰 발생원 중의 하나이기 때문에 자동차 오염물질을 감소시키기 위한 수많은 저감 대책이 추진되고 있다. 이러한 저감 대책 연구의 대표적인 특징은 대기오염물질의 배출목록 자료의 구축 시 오염물질의 정량성과 공간적인 분포성에 대한 것이다. 자동차 오염물질을 산정 할 때 배출목록은 활동도 통계와 차종별 배출계수 자료 등이 수집되어야 한다. 대부분의 배출목록은 개별조사나 교통모델에 의한 수동적인 자료로서 자료가 수집되는 순간부터 과거 자료가 되는 특성을 지닌다. 따라서, 최근의 추세는 도시 교통제어시스템과 자동차가 주변 환경에 미치는 영향 평가의 결합에 대한 연구가 추진되고 있다. 본 연구에서는 실시간 교통 자료를 이용한 이동오염원의 배출량을 평가하기 위한 산출 기법을 비교하여 배출량 자료구축의 방향을 설정하고자 하였다. 대상지역에서 대표적인 자동차 오염물질 중 CO의 배출량을 산정 하였다. 교통자료는 서울시 강남구 지역(강남대로-영동대로와 역삼로-양재대로 축)에 설치되어 있는 교차로 검지기에서 수집되는 첨단교통신호시스템의 실시간 교통정보를 이용하였다. 실시간 교통정보 중 시간대별 통과 교통량과 통과속도 자료를 이용하여 시간대별 평균주행속도에 따른 배출계수와 각 도로의 길이를 고려하여 각 도로별·시간대별로 자동차에서 배출되는 CO 배출량을 산정 하였다. 또한, 기존의 차종별 일일평균주행거리에 의한 방법으로 산정한 결과와 비교하여 각각의 방법에 따른 장·단점을 파악하여 자동차 대기오염물질 배출량 산정방법론을 제시하고자 하였다.5 nm 부근과 410nm 부근의 두 부분에서 최대 파장을 나타내는 것으로 보아 410 nm 부근이 파장은 180일 이후에 형성되는 것으로 보인다. 또한 오늘날 주거형태 변화에 따라 담금용기를 항아리에 유리병으로 달리하여 보았을 때 맛과 향미, 색의 면에서 유리병에 담근 간장이 바람직하지 못한 결과를 나타내었다.), Scene editor, Spatial analyzer(Intersect, Buffering, Network analysis), VRML exporter. While, most other 3D GISes or cartographic mapping systems may be categorized into 3D visualization systems handling terrain height-field processing, 2D GIS extension modules, or 3D geometric feature generation system using orthophoto image: actually, these are eventually considered as several parts of "real 3D GIS". As well as these things, other components, especially web-based 3D GIS, are being implemented in this study: Surface/feature integration, Java/VRML linkage, Mesh/Grid problem, LOD(Level of Detail)

  • PDF

협업필터링에서 고객의 평가치를 이용한 선호도 예측의 사전평가에 관한 연구 (Pre-Evaluation for Prediction Accuracy by Using the Customer's Ratings in Collaborative Filtering)

  • 이석준;김선옥
    • Asia pacific journal of information systems
    • /
    • 제17권4호
    • /
    • pp.187-206
    • /
    • 2007
  • The development of computer and information technology has been combined with the information superhighway internet infrastructure, so information widely spreads not only in special fields but also in the daily lives of people. Information ubiquity influences the traditional way of transaction, and leads a new E-commerce which distinguishes from the existing E-commerce. Not only goods as physical but also service as non-physical come into E-commerce. As the scale of E-Commerce is being enlarged as well. It keeps people from finding information they want. Recommender systems are now becoming the main tools for E-Commerce to mitigate the information overload. Recommender systems can be defined as systems for suggesting some Items(goods or service) considering customers' interests or tastes. They are being used by E-commerce web sites to suggest products to their customers who want to find something for them and to provide them with information to help them decide which to purchase. There are several approaches of recommending goods to customer in recommender system but in this study, the main subject is focused on collaborative filtering technique. This study presents a possibility of pre-evaluation for the prediction performance of customer's preference in collaborative filtering before the process of customer's preference prediction. Pre-evaluation for the prediction performance of each customer having low performance is classified by using the statistical features of ratings rated by each customer is conducted before the prediction process. In this study, MovieLens 100K dataset is used to analyze the accuracy of classification. The classification criteria are set by using the training sets divided 80% from the 100K dataset. In the process of classification, the customers are divided into two groups, classified group and non classified group. To compare the prediction performance of classified group and non classified group, the prediction process runs the 20% test set through the Neighborhood Based Collaborative Filtering Algorithm and Correspondence Mean Algorithm. The prediction errors from those prediction algorithm are allocated to each customer and compared with each user's error. Research hypothesis : Two research hypotheses are formulated in this study to test the accuracy of the classification criterion as follows. Hypothesis 1: The estimation accuracy of groups classified according to the standard deviation of each user's ratings has significant difference. To test the Hypothesis 1, the standard deviation is calculated for each user in training set which is divided 80% from MovieLens 100K dataset. Four groups are classified according to the quartile of the each user's standard deviations. It is compared to test the estimation errors of each group which results from test set are significantly different. Hypothesis 2: The estimation accuracy of groups that are classified according to the distribution of each user's ratings have significant differences. To test the Hypothesis 2, the distributions of each user's ratings are compared with the distribution of ratings of all customers in training set which is divided 80% from MovieLens 100K dataset. It assumes that the customers whose ratings' distribution are different from that of all customers would have low performance, so six types of different distributions are set to be compared. The test groups are classified into fit group or non-fit group according to the each type of different distribution assumed. The degrees in accordance with each type of distribution and each customer's distributions are tested by the test of ${\chi}^2$ goodness-of-fit and classified two groups for testing the difference of the mean of errors. Also, the degree of goodness-of-fit with the distribution of each user's ratings and the average distribution of the ratings in the training set are closely related to the prediction errors from those prediction algorithms. Through this study, the customers who have lower performance of prediction than the rest in the system are classified by those two criteria, which are set by statistical features of customers ratings in the training set, before the prediction process.

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.