• 제목/요약/키워드: decision-tree analysis

검색결과 727건 처리시간 0.026초

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

기록 생애주기 관점에서 본 기록관리 메타데이터 표준의 특징 분석 (Feature Analysis of Metadata Schemas for Records Management and Archives from the Viewpoint of Records Lifecycle)

  • 백재은;스기모토 시게오
    • 한국기록관리학회지
    • /
    • 제10권2호
    • /
    • pp.75-99
    • /
    • 2010
  • 인터넷과 컴퓨터의 발전으로 다양한 환경이 끊임없이 제공되고, 이로 인해 대량의 디지털 리소스가 축적, 발신되고 있다. 이는 다양한 문제를 가져왔고, 우리는 디지털 리소스를 미래에 이용가능하도록 지속하고 보존하기 위한 기본적인 문제에 직면하게 되었다. 디지털 리소스를 장기간 보존하기 위해서는 리소스에 적합한 보존 방침과 방법이 필요하고, 따라서 여러 스탠다드가 개발되고 사용되어지고 있다. 메타데이터는 디지털 리소스를 장기간 유지하기 위한 디지털 아카이브에서 가장 중요한 구성요소 중 하나 이다. 디지털 리소스의 아카이빙과 보존을 위해 사용되는 메타데이터는 많이 있다. 그러나 각각의 스탠다드 는 주된 어플리케이션에 따라 각각의 특징을 가지고 있다. 이는 각각의 스키마가 특정한 어플리케이션에 따라 적절하게 선택하고 맞춰지지 않으면 안 되는 것을 의미한다. 경우에 따라서는DCMI의 어플리케이션 프레임워크와 METS와 같이, 스키마는 거대한 프레임워크와 컨테이너 메타데이터로 결합되어 있다. 다양한 메타데이터가 있는 가운데, 본 논문에서는 아카이브를 행하기 위해 용이되어 있는 메타데이터 스키마로, 공문서 혹은 행정문서등의 아카이브를 위해 기술하고 있는 ISAD(G), 디지털 리소스를 위해 작성된 EAD, 보존한 디지털 리소스를 위해 메타데이터 프레임워크를 정의하고 있는 OAIS, 디지털 리소스의 보존을 위한 PREMIS, 그리고 리소스의 관리와 검색을 위해 작성된 AGLS Metadata를 사용하여, '보존해야 되는 리소스에 하나의 메타데이터만을 선택해서 이용한다면 어떠한 문제가 생기는 가'라고 하는 의문을 바탕으로 접근하였다. 본 논문은 기록 생애주기 모델을 기초로, 스탠다드의 특징분석을 통해서 알게 된 메타데이터 스탠다드의 특징을 보여주고 있다. 특징은 이들 스탠다드의 메타데이터 기술요소가 기록 생애주기에서의 작업(task)에 관련하는 것을 간단하게 단일의 프레임워크로 보여줬다. 메타데이터 기술요소의 상세한 분석을 통해서, 우리는 기술 생애주기의 단계와 기술요소 간의 관계의 관점에서부터 스탠다드의 특징을 확실하게 할 수 있었다. 메타데이터 스키마간의 매핑은 다른 스키마가 기록 생애주기에서 사용되기에 장기 보존과정에 있어 자주 요구된다. 따라서 이러한 스키마의 상호운용성을 향상시키기 위해서는 통일된 프레임워크를 구축하는 것이 중요하다. 이 연구에서는 디지털 아카이빙과 보존에 사용되는 다른 메타데이터 스키마의 상호운용성을 기초로 제시한다.

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.

교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교 (Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data)

  • 김정민;류광렬
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.

RFM 기반 SOM을 이용한 매장관리 전략 도출 (Strategy for Store Management Using SOM Based on RFM)

  • 정윤정;최일영;김재경;최주철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.93-112
    • /
    • 2015
  • 소비자의 소비성향이 필요 품목을 중심으로 근거리에서 구매하는 근린형으로 변화함에 기존의 소매점은 식료품, 생활용품을 위주로 제공하는 슈퍼마켓, 하이퍼마켓 또는 편의점으로 진화하고 있다. 따라서 소매점이 한정된 공간에서 효율적으로 공간을 활용하고 매출을 증대하기 위해서는 소비자의 구매욕을 충족시킬 수 있는 상품배치와 적정한 재고수준을 유지하는 것이 매우 중요하다. 본 연구에서는 소매점의 판매 상품에 대하여 RFM 기반 SOM 군집화를 하여 효율적으로 매장을 관리할 수 있는 상품 배치전략 및 재고전략을 제안하였다. 실제 M마트의 판매데이터를 이용하여 RFM모델을 상품에 적용한 후, 기존 문헌 연구뿐만 아니라 해석 가능성, 응용 가능성 등을 고려하여 3X3 총 9개의 군집으로 분류하여 분석한 결과, 주요 군집으로 R값, F값, M값이 모두 높은 군집, R값, F값, M값 모두 낮은 군집, R값만 높은 군집, F값만 높은 군집이 도출되었다. 본 논문에서는 다른 군집과 비교시 R값, F값, M값이 차이를 보이는 주요 4개의 군집의 상품 배치 및 재고 전략을 제시하였다. R값, F값, M값이 모두 높은 군집의 상품은 소비자 동선을 늘림으로써 상품 노출을 확대시킬 수 있는 장소에 배치하여야 할 뿐만 아니라 높은 수준의 재고를 보유할 필요가 있다. 반면에 R값, F값, M값이 모두 낮은 군집의 상품은 가시성이 낮은 곳에 배치하고 최소한의 안전재고만 보유할 필요가 있다. 또한 R값이 높은 군집은 신상품으로 매장 입구에 배치하여 상품의 판매를 유도할 필요가 있다. 그리고 F값만 높은 군집의 경우, R값과 M값이 평균 값 보다 작은 상품들의 군집이므로 최근에는 판매가 저조하며 빈도 수에 비해 총 판매액이 낮다는 것을 유추할 수 있다. 따라서 현재보다 과거에 많이 판매된 저가의 상품군집으로 재고 수준을 점차 감소시킬 필요가 있다. 본 연구에서 제시한 방법은 POS 시스템의 보유한 소매점에서 상품배치 및 재고관리 방법으로 활용되어 매장의 수익성 증대에 기여할 수 있을 것으로 기대된다.

일본전문식당의 급식품질 개선을 위한 HACCP 시스템 적용 연구 (HACCP Model for Quality Control of Sushi Production in the Eine Japanese Restaurants in Korea)

  • 김혜경;이복희;김인호;조경동
    • 동아시아식생활학회지
    • /
    • 제13권1호
    • /
    • pp.25-38
    • /
    • 2003
  • 본 연구는 서울에 소재한 일식전문점을 대상으로 2001년 4월부터 6월까지 예비실험 및 본실험을 실시하였다. 주방과 조리종사자의 위생상태, 주방 배치도를 통한 위생상태를 조사하였고, 그곳에서 판매되는 7가지 생선초밥(광어, 도미, 숭어, 새우, 참치, 연어, 문어)의 생산 각 단계에서의 소요시간 및 온도상태, pH를 측정하고 각 초밥 생산 단계에서 채취한 초밥재료와 초밥 생산에 사용된 기구 및 용기, 작업자에 대한 미생물적 품질평가를 실시하였다. 이러한 실험 결과를 토대로 결정계통수를 활용하여 CCP를 결정하고 본 일본식식당의 생선초밥 생산에 대한 HACCP plan을 작성하였다. 본 연구의 결과를 요약한 내용은 아래와 같다. 1. 주방의 위생상태 평가결과, 시설 및 환경의 평균점수는 1.28, 용기 및 설비에 평균점수는 1.60이었으며 전체 평균점수는 1.44로 보통 수준이었다. 2. 조리 종사자의 위생습관 평가결과 개인 위생 1.33, 식품취급습관은 1.33으로 전반적인 위생습관은 보통 수준이었다. 그러나 조리 종사자에 대한 체계적이고 기본적인 위생 교육이 실시되지 않고 있었다. 3. 주방배치도를 통한 위생상태 평가결과 작업 동선은 복잡하지 않았으나 작업장별 구획구분이 없었고 도마 용도별 사용 구분이 명확하지 않았다. 4. 생선초밥 생산 소요시간은 3시간 36분~6시간으로 최장 4시간이내에 생산을 완료하여야 하는 기준시간을 초과하고 있었으며, 생산과정 중 시료 자체의 온도(10~23$^{\circ}C$)도 위험온도 범위대(5~6$0^{\circ}C$)에 있어 미생물적 위해 발생 요인을 제공하고 있었다. 또한 참치의 경우 실온에서 장시간 방치하여 해동함으로써 또 다른 위해 발생요인이 되고 있었다. 5. 생선초밥 재료에 대한 pH측정결과 3.65~7.03 범위에 있었는데 pH 4.6 이상인 경우에는 미생물의 증식우려가 있는 잠재적 위험 pH이므로 관리가 요구되었다. 6. 생선초밥의 미생물검사 결과는 양호하였는데 총균수는 4.5$\times$$10^2$~5.3$\times$$10^{5}$ CFU/g, 대장균군수는 3.5$\times$$10^1$~2.4$\times$$10^2$CFU/g으로 나타나 허용범위내에 있었다. Salmo nella와 Vibrio parahaemolyticus는 나타나지 않았고, Staphylococcus aureus는 초밥재료 중 밥에서만 101 CFU/g검출되었으나 역시 허용 범위내에 있었다. 그러나 포도상구균의 검출은 비위생적인 위생습관이 주요원인이므로 철저한 원인규명과 관리가 이루어져야 하겠다. 7. 기구, 용기 및 종사자의 손에 대한 미생물검사 결과를 보면 총균수는 8.0$\times$$10^2$~3.3$\times$$10^{6}$ CFU/g, 대장균군수는 1.0$\times$$10^1$~l.6$\times$$10^3$CFU/g으로 이는 즉각적인 조치를 강구할 만큼 매우 불량한 수준이었다. 8. 결정계통수를 활용하여 CCP(critical control point)fmf 결정한 결과, 참치초밥을 제외한 6개 초밥(광어, 도미, 숭어, 연어, 새우, 문어) 생산 시 CCP는 보관단계(holding step)이었고, 참치초밥의 CCP는 해동단계(thawing step)였다.

  • PDF

인공위성 원격 탐사 정보가 자료 기반 모형의 미계측 유역 하천유출 예측성능에 미치는 영향 분석 (Analysis of the Impact of Satellite Remote Sensing Information on the Prediction Performance of Ungauged Basin Stream Flow Using Data-driven Models)

  • 서지유;정하은;원정은;최시중;김상단
    • 한국습지학회지
    • /
    • 제26권2호
    • /
    • pp.147-159
    • /
    • 2024
  • 부족한 하천유출 관측 데이터는 모델 보정 작업을 어렵게 만들어 모델의 성능 향상을 제한한다. 위성 기반 원격탐사 자료는 수문 관련 데이터의 확보에 적극적으로 활용될 수 있으므로 새로운 대안이 될 수 있다. 최근에는 여러 연구를 통하여 기존의 개념적/물리적 모델보다는 인공지능을 이용한 해법이 더 적절하다는 평가를 받고 있다. 본 연구에서는 다양한 순환 신경망들과 의사결정나무 기반 알고리즘들을 결합한 자료 기반 접근 방식을 제안하였다. 또한 인공지능 학습을 위하여 인공위성 원격탐사 정보의 활용성을 조사하였다. 본 연구에서 위성영상은 MODIS와 SMAP의 자료가 사용된다. 공적으로 공개된 25개 유역의 자료를 사용하여 제안된 접근 방식을 검증하였다. 전통적인 지역화 접근법에서 착안하여 모든 유역의 자료를 통합하여 하나의 자료 기반 모델을 학습하는 전략을 채택하였으며, Leave-one-out cross-validation 지역화 설정을 이용하여 하나의 모델이 다양한 유역의 하천유출을 예측함으로써 제안된 접근 방식의 잠재력을 평가하였다. GRU + Light GBM 모델이 대상 유역에 적합한 모델 조합으로 판명되었으며(25개 미계측 유역 일 하천유량 예측 모형효율계수 평균 0.7187) 하천유출이 매우 작은 시기를 제외하면 우수한 미계측 유역의 하천유출 예측 성능을 보여주었다. 인공위성 원격탐사 정보의 영향력은 최대 10% 정도로 파악되었으며, 위성 정보의 추가 적용이 풍수기 또는 평수기보다는 저수기 또는 갈수기의 하천유출 예측에 더 큰 영향을 미쳤다.