• 제목/요약/키워드: 중복 데이터

검색결과 1,022건 처리시간 0.026초

무선인터넷 환경에서의 개인화상품추천에이전트 (A Personalized Product Recommendation Agent on Mobile Internet)

  • 이승화;이은석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.145-147
    • /
    • 2004
  • 본 논문에서는 무선인터넷 환경에 적합한 개인화된 상품추천에이전트를 제안한다. 기존에 유선인터넷상의 많은 개인화 추천시스템에서는 초기 사용자 모델링을 위해 사용자에게 수많은 질의를 하고 응답을 요구하였다. 그러나 이러한 방식은 무선인터넷 환경에서 정보 전송량에 따른 높은 사용요금을 고려할 때 적용하기 힘든 방식이다. 본 제안 시스템은 사용자의 Social data률 이용하여 사용자를 비슷한 연령과 성별 그룹으로 나누고, 해당 그룹에서 구매율이 높은 상품을 우선 제시한 후, 사용자 행동을 모니터링 하여 암시적(Implicit)피드백을 통해 프로파일을 생성함으로써, 번거로운 질의-응답 과정 없이도 초기 사용자 모델링을 수행할 수 있다. 프로파일 생성 이후에는 이를 기반으로 하여 사용자몰 유사한 취향을 가진 그룹으로 다시 군집화한 후 협력적 추천을 하게 되며, 프로파일에는 해당 상품의 최종 카테고리명과 키워드를 수집함으로써, 상품의 브랜드와 규격정보를 반영한 추천이 가능하다. 또한 추천 상품과 사용자의 구매데이터와의 비교를 수행하여 사용자가 해당상품을 구매하였을 경우, 상품에 대한 취향정보는 그대로 유지하고 관련 상품을 추천하되, 구매한 상품이 중복 추천되지 않도록 하였다. 시스템 평가를 위해 프로토타입을 구현하여, 다수의 사용자에게 시스템을 이용하며 관심품목을 체크하도록 하였고. 추천횟수가 반복되며 히트율이 증가하는 결과를 통해 시스템의 학습속도와 성능을 평가하였다. 그리고 쇼핌몰에서 구매경험이 있는 사용자의 기존 구매데이터와 Social data를 이용한 초기 제시상품을 역으로 비교하여 오랜 시간과 비용 발생 없이도 초기 프로파일 생성의 유효성을 증명하였다. 포함하는 XML 질의에 대해서도 웹에서 캐쉬를 이용한 처리가 효율적임을 확인하였다.키는데 목적이 있다.RED에 비해 향상된 성능을 보여주었다.웍스 네트워크상의 다양한 디바이스들간의 네트워크 다양화와 분산화 기능을 얻을 수 있었고, 기존의 고가의 해외 솔루션인 Echelon사의 LonMaker 소프트웨어를 사용하지 않고도 국내의 순수 솔루션인 리눅스 기반의 LonWare 3.0 다중 바인딩 기능을 통해 저 비용으로 홈 네트워크 구성 관리 서버 시스템 개발에 대한 비용을 줄일 수 있다. 기대된다.e 함량이 대체로 높게 나타났다. 점미가 수가용성분에서 goucose대비 용출함량이 고르게 나타나는 경향을 보였고 흑미는 알칼리가용분에서 glucose가 상당량(0.68%) 포함되고 있음을 보여주었고 arabinose(0.68%), xylose(0.05%)도 다른 종류에 비해서 다량 함유한 것으로 나타났다. 흑미는 총식이섬유 함량이 높고 pectic substances, hemicellulose, uronic acid 함량이 높아서 콜레스테롤 저하 등의 효과가 기대되며 고섬유식품으로서 조리 특성 연구가 필요한 것으로 사료된다.리하였다. 얻어진 소견(所見)은 다음과 같았다. 1. 모년령(母年齡), 임신회수(姙娠回數), 임신기간(姙娠其間), 출산시체중등(出産時體重等)의 제요인(諸要因)은 주산기사망(周産基死亡)에 대(對)하여 통계적(統計的)으로 유의(有意)한 영향을 미치고 있어 $25{\sim}29$세(歲)의 연령군에서, 2번째 임신과 2번째의 출산에서 그리고 만삭의 임신 기간에, 출산시체중(出産時體重) $3.50{\sim}3.99kg$사이의 아

  • PDF

편재형 컴퓨팅 환경에서의 e-비즈니스 응용을 위한 분할 동기화 이동 트랜잭션 처리 모델 (A Split Synchronizable Mobile Transaction Processing Model for e-Business Applications in Ubiquitous Computing Environment)

  • 최미선;김영국
    • 정보처리학회논문지D
    • /
    • 제11D권4호
    • /
    • pp.783-798
    • /
    • 2004
  • 제한된 무선통신 대역폭 및 불완전한 무선통신 인프라, 이동 단말기의 배터리 용량 등과 같은 이동 컴퓨팅 환경의 고유한 특성으로 인해 이동 단말기에서 실행되는 e-비즈니스 응용은 잦은 접속단절에 직면하게 된다. 또한 고가의 무선통신 비용이나 잦은 무선 통신으로 인해 급격하게 소모되는 이동 단말기 전력을 절약하기 위해 자발적인 접속단절 상태에서 동작하기도 한다. 본 연구에서는 데이터비축을 이용하여 대부분 접속 단절 상태에서 이동 단말기에서 자치적으로 이동 트랜잭션을 처리하면서도 데이터 중복과 네트워크 분할로 인해 발생가능한 일관성 문제를 효율적으로 해결할 수 있는 분할 동기화 이동 트랜잭션 모델을 제안한다. 분할 동기화 이동 트랜잭션 모델은 이동 트랜잭션을 컴포넌트 단위로 분할한 후, 서버에서의 사용 가능성과 충돌 가능성을 고려하여 컴포넌트 트랜잭션들로 동기화 우선순위를 할당하고 우선순위가 높은 컴포넌트 트랜잭션들부터 동기화를 우선 실시하여 부분 결과를 공개한다. 결과적으로 이동 클라이언트에서 변경한 데이터에 대한 서버에서의 가용성을 높이고, 중요도가 낮은 부분은 이동 단말기의 제한된 자원 및 무선 대역폭과 고가의 통신 요금 등을 고려하여 서버에 늦게 반영함으로써 무선 대역폭 및 컴퓨팅 자원의 활용도를 극대화시키는 효과를 기대할 수 있다.

단거리 순환버스 도입을 위한 통행패턴 기반의 우선순위 결정방법 (A Prioritization Method Considering Trip Patterns to Introduce Short-turn Buses)

  • 문세동;김동규;조신형
    • 한국ITS학회 논문지
    • /
    • 제18권5호
    • /
    • pp.1-18
    • /
    • 2019
  • 기존 노선의 일부 구간을 운행하는 버스를 '단거리순환버스(short-turn bus)'라 하는데, 단거리순환버스 관련 연구는 버스 네트워크보다 단일 노선에 대해 최적 회차지점을 결정하였으며, 대중교통의 편의성에 큰 영향을 미치는 차내혼잡을 고려하지 않은 한계가 존재한다. 따라서, 본 연구에서는 버스 네트워크의 노선별 및 구간별로 단거리순환버스 도입의 우선순위를 차내 혼잡을 반영하여 결정하는 방법론을 개발하였다. 이를 위해 교통카드 데이터 기반으로 단거리 순환버스 노선과 중복되는 기존 버스 노선들의 단거리순환버스 도입 전후의 재차인원을 산정하고, 단거리순환버스 도입 전후의 버스 네트워크 전체에서의 차내혼잡 감소 편익을 산정하였다. 또한, 단거리순환버스 도입으로 인한 운영자 및 사회적 비용을 산정하여 단거리순환버스를 도입할 노선 및 그 노선 내에서의 운행 구간을 변화시켜 반복적으로 결과를 도출하였다. 한 노선 내에서 단거리순환버스 도입의 비용/편익 비(B/C)가 가장 큰 구간을 그 노선의 단거리순환버스 도입 구간으로 채택하였다. B/C 값을 기반으로 버스 노선들의 단거리순환버스 도입 우선순위를 결정하였으며, 여러 노선에 도입할 경우의 최적 대수를 산정하였다.

의료영상 분석에서 인공지능 이용 동향 (Trends in the Use of Artificial Intelligence in Medical Image Analysis)

  • 이길재;이태수
    • 한국방사선학회논문지
    • /
    • 제16권4호
    • /
    • pp.453-462
    • /
    • 2022
  • 본 논문에서는 의료 영상 분석 분야에서 이용되고 있는 AI(Artificial Intelligence)기술을 문헌 검토를 통해 분석하였다. 문헌 검색은 중심어(keyword)를 사용하여 PubMed, ResearchGate, Google 및 Cochrane Review의 문헌 검색을 수행했다. 문헌 검색을 통해 114개의 초록을 검색하였고 그 중 16개의 중복된 것을 제외하고 98개의 초록을 검토했다. 검토된 문헌에서 AI가 응용되고 있는 분야는 분류(Classification), 국소화(Localization), 질병의 탐지(Detection), 질병의 분할(Segmentation), 합성 영상의 적합도(Fit degree) 등으로 나타났다. 기계학습(ML: Machine Learning)을 위한 모델은 특징 추출을 한 후 신경망의 네트워크에 특징 값을 입력하는 방식은 지양되는 것으로 나타났다. 그 대신에 신경망의 은닉층을 여러 개로 하는 심층학습(DL: Deep Learning) 방식으로 변화되고 있는 것으로 나타났다. 그 이유는 컴퓨터의 메모리 량의 증가와 계산속도의 향상, 빅 데이터의 구축 등으로 특징 추출을 DL 과정에서 처리하는 것으로 사료된다. AI를 이용한 의료영상의 분석을 의료에 적용하기 위해서는 의사의 역할이 중요하다. 의사는 AI 알고리즘의 예측을 해석하고 분석할 수 있어야 한다. 이러한 이해를 위해서는 현재 의사를 위한 추가 의학 교육 및 전문성 개발과 의대에 재학 중인 학습자를 위한 개정된 커리큘럼이 필요해 보인다.

스케일러블 동적 메쉬 압축을 위한 SHVC 기반 텍스처 맵 부호화 방법 (SHVC-based Texture Map Coding for Scalable Dynamic Mesh Compression)

  • 권나성;변주형;최한솔;심동규
    • 방송공학회논문지
    • /
    • 제28권3호
    • /
    • pp.314-328
    • /
    • 2023
  • 본 논문에서는 동적 메쉬 부/복호화 시 스케일러빌리티 기능을 지원하기 위해 SHVC의 계층적 부호화 방식을 기반으로 텍스처 맵을 압축하는 방법을 제안한다. 제안하는 방법은 고해상도 텍스처 맵을 다운샘플링하여 다해상도의 텍스처 맵을 생성하고 이를 SHVC로 부호화함으로써 효과적으로 다해상도 텍스처 맵들의 중복성을 제거한다. 동적 메쉬 복호화기에서는 수신기 성능, 네트워크 환경 등에 따라 적합한 해상도의 텍스처 맵을 복호화하여 메쉬 데이터의 스케일러빌리티를 지원할 수 있도록 한다. 제안하는 방법의 성능을 검증하기 위해 V-DMC (Video-based Dynamic Mesh Coding) 참조 소프트웨어인 TMMv1.0에 제안하는 방법을 적용하고 본 논문에서 제안하는 스케일러블 부/복호화기와 TMMv1.0 기반의 시뮬캐스트 방식의 성능을 비교하였다. 제안하는 방법은 시뮬캐스트 방법 대비 AI, LD 환경에서 Luma BD-rate (Luma PSNR)가 각각 평균 -7.7%, -5.7%의 향상된 결과를 얻어 제안하는 방법을 통해 효과적으로 동적 메쉬 데이터의 텍스처 맵 스케일러빌리티 지원이 가능함을 확인하였다.

정부의 기술혁신 재정지원 정책효과에 대한 체계적 문헌연구 (Systemic literature review on the impact of government financial support on innovation in private firms)

  • 안준모
    • 기술혁신연구
    • /
    • 제30권1호
    • /
    • pp.57-104
    • /
    • 2022
  • 정부는 시장실패 방지, 정보의 비대칭성 완화, 자원의 효율적 배분 등 다양한 목적을 가지고 시장에 개입하여 민간기업의 기술혁신을 지원해 왔다. 2000년대 들어 국가 연구개발 예산이 급격히 증가하면서 기업에게 지원되는 정부재원도 비례하여 증가해왔으나 정부의 재정지원이 효과적이고 바람직한 정책목표를 달성했는지에 대해서는 분명하지 않다. 본 연구는 이러한 문제인식 하에 국내·외 관련 논문과 정책연구 보고서, 리뷰 페이퍼 등을 종합적·체계적으로 분석하여 다양한 정부 재정지원에 대한 문제점을 살펴보고자 하였다. 국·내외 총 168편의 연구를 체계적 문헌분석과 컨텐츠 분석을 활용하여 정책 부가성, 지원방식, 기업규모, 분석단위(unit of analysis), 분석대상, 연구방법론과 데이터 등 다양한 관점에서 입체적으로 분석하였다. 문헌 간 교차 비교를 통해 다수의 중복 수혜, 재정지원과 정책효과 간의 구조적 시차, 재정지원 효과의 비선형성, 정책간의 간섭과 교호작용, 폐쇄형 혁신과 제조업에 최적화된 조세제도 등이 현재 정부 재정지원의 문제점으로 분석되었으며, 이를 해결하기 위한 정책개선 방향으로 행동 부가성을 고려한 재정지원사업 성과지표 개발, 정부부처 간 정책협력과 조율 강화, 다양한 상황을 고려할 수 있는 정책혼합(policy mix) 도입, 디지털 혁신·서비스 연구개발 등 새로운 형태의 기술혁신에 맞는 기업 재정지원 방식, 데이터에 기반 한 증거기반 정책강화 등을 제시하였다.

Level 4 자율주행서비스 ODD 구성요소 기반 공간정보분석을 통한 자율주행의 안전성에 영향을 미치는 공간적 요인 분석 (Spatial Factors' Analysis of Affecting on Automated Driving Safety Using Spatial Information Analysis Based on Level 4 ODD Elements)

  • 김탁영;맹주영;강경표;배상훈
    • 한국ITS학회 논문지
    • /
    • 제22권5호
    • /
    • pp.182-199
    • /
    • 2023
  • 정부는 2021년부터 다부처 연구개발사업으로 자율주행기술개발혁신사업을 추진해오고 있다. 해당 연구개발사업에서 개발되는 자율주행차와 서비스 기술은 추후 선정된 리빙랩 도시를 대상으로 일반인들에게 제공한다는 계획이다. 특히 서비스분야는 해당 서비스별 목적과 특성에 따라 안전하고 안정적인 서비스가 가능한 공간적 범위와 운행구간을 선정하는 것이 중요하다. 본 연구에서는 향후 Level 4 수준의 자율주행서비스 제공 구역 설정 방법론을 개발하기 위한 기초 연구로서 기존 공개된 논문 및 관련 문헌조사를 통해 Level 4 수준의 자율주행서비스를 위한 정적인 ODD 구성요소를 재분류하고, 자율주행의 안전성에 미치는 공간적인 영향 요인에 대하여 Level 3 자율주행차 실제 주행데이터 및 공간정보분석 기법을 활용하여 분석하였다. 공간정보분석 기법을 통해 총 6개의 주행모드변경(제어권전환) 다발 지점이 도출되었고, 해당 지점의 중복된 정적인 ODD 구성요소 확인 결과 자율주행의 안전성에 영향을 미치는 요인은 횡단보도, 신호등, 교차로, 자전거 도로, 포켓차로, 주의 표지판, 중앙분리대로 나타났다. 이러한 공간정보분석을 통한 자율주행의 공간적 요인분석은 자율주행기술개발혁신사업의 리빙랩 도시뿐만 아니라 현재 확대·운영되고 있는 자율주행차 시범운행지구에서 자율주행서비스 운영지구 선정에도 기초연구로 활용될 것으로 기대한다.

협력필터링과 사회연결망을 이용한 신규고객 추천방법에 대한 연구 (The Research on Recommender for New Customers Using Collaborative Filtering and Social Network Analysis)

  • 신창훈;이지원;양한나;최일영
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.19-42
    • /
    • 2012
  • 고객이 상품을 구매하는 패턴이 빠르게 변화하고 있다. 오프라인에서 고객이 직접 상품을 보고, 체험한 후 구매하던 패턴이 TV홈쇼핑, 인터넷 쇼핑 등 고객이 편리한 장소에서 자유롭게 구매하는 방법으로 확산되었다. 이처럼 구매 가능한 상품의 범위는 점점 더 다양해지고 있지만 이로 인하여 고객이 상품을 구매할 때 생기는 번거로움은 더욱 커지고 있다. 오프라인에서는 물건을 직접보고 구매하기 때문에 반품율이 낮은 반면에 온라인 구매 물품은 배송과 환불 등에서 복잡한 일들이 많이 발생한다. 온라인을 통해서 물건을 구매할 때 상품에 대한 사전 정보는 매우 한정적이며 실제로 물건을 구매했을 경우 고객이 생각했던 것과 다를 수 있다. 이러한 결과는 결국 고객의 불만족 및 구매취소로 이어진다. 또한 TV홈쇼핑이나 인터넷 쇼핑 등을 통해서 물건을 구매할 때 고객들은 이미 상품을 구매한 고객의 리뷰에도 관심을 기울이고 있다. 좋은 평가를 받은 상품은 더 많은 매출로 이어질 수 있기 때문에 기업은 이에 관심을 기울일 필요가 있다. 고객의 욕구를 만족시킬 수 있는 적절한 상품을 추천해 주고 이를 구매로 연결시키는 것은 기업의 이윤 창출과 직결되기 때문에 그 중요성이 강조된다. 고객을 위한 추천방법은 베스트셀러기반 추천방법, 인구통계 정보기반 추천방법, 최소질의대상 상품결정방법, 내용필터링기법, 협력필터링기법 등이 존재하며, 이에 대한 많은 연구가 활발하게 진행되고 있다. 그러나 위의 방법들을 신규고객에게 적용하는 것에는 문제가 발생할 수 있다. 신규고객은 상품에 대한 과거 구매이력이 존재하지 않기 때문이다. 이를 해결하기 위한 방안으로 가입 시, 고객의 인구통계적 정보나 선호도에 대한 응답을 유도하는 방법을 활용할 수 있다. 그러나 고객이 이에 대한 번거로움을 느낄 수도 있으며, 불완전한 답변을 하게 되면 추천의 정확도는 감소한다. 최근 이미 상품을 구매한 고객의 리뷰 및 기업에서 추천하는 제품에 의존하는 고객들이 증가하면서 이를 악용하는 사례도 자주 등장한다. 결국 추천에 대한 고객들의 신뢰는 감소하게 될 것이다. 따라서 좀 더 명확한 방식의 추천시스템이 절실하며, 이것이 개선된다면 는 곧 고객들의 신뢰 증가로 이어질 것이다. 본 연구에서는 협력필터링기법과 사회연결망기법의 중심성을 결합한 분석을 시도하였다. 중심성은 신규고객의 선호도를 기존고객들의 데이터를 통하여 유추하기 위하여 활용되는 정보이다. 기존 연구들에서는 기존고객들의 구매 가운데 구매성향이 유사한 고객들의 정보에 초점을 맞추고 있으며 구매성향이 다른 고객들의 정보에 대한 분석은 이루어지고 있지 않다. 그러나 이처럼 구매성향이 서로 다른 고객들의 정보를 활용한다면 추천의 정확성이 더 향상되지 않을까 하는 점을 기반으로 데이터들을 다양한 방식으로 분석하였다. 연구에 사용된 데이터는 미네소타대학의 GroupLens Research Project팀이 협력필터링기법을 통하여 영화를 추천하기 위해 만든 MovieLens의 데이터이다. 이는 1,684편의 영화에 대한 선호도를 943명이 응답한 정보로 총 100,000개의 데이터가 있다. 이를 시간 순으로 구분하여 초기 50,000개의 데이터를 기존고객의 데이터로, 후기 50,000개의 데이터를 신규고객의 데이터로 사용하였다. 이 때, 신규고객과 기존고객은 연구자가 임의로 구분한 것이다. 따라서 신규고객이라고 표현되는 고객의 데이터는 실제로 추천시스템을 통해 정보를 제공받은 고객이라고는 볼 수 없다. 그러나 현실적으로 실제 신규고객의 데이터를 수집하는 것이 쉽지 않기 때문에 전체 고객의 정보를 시간 순으로 구분하고 신규고객으로 분류한 것임을 밝혀둔다. 제시된 추천시스템은 [+]집단 추천시스템, [-]집단 추천시스템, 통합 추천시스템으로 총 3가지이다. [+]집단 추천시스템은 기존의 연구들과 유사한 방식으로 유사도가 높은 고객들을 신규고객의 이웃고객으로 분석하였다. 유사도가 높다는 것은 다른 고객들과 상품 구매에 대한 성향이 유사한 것을 의미한다. 또한 [-]집단 추천시스템은 유사도가 낮고 다른 고객들과 상품의 구매패턴이 반대에 가까운 고객들의 데이터를 활용하였으며, 통합 추천시스템은 [+]집단 추천시스템과 [-]집단 추천시스템을 결합한 방식이다. [+]집단 추천시스템과 [-]집단 추천시스템에서 각각 추천된 영화 가운데 중복되는 영화만을 신규고객에게 추천하는 방식이다. 다양한 방법의 시도를 통하여 적절한 추천시스템을 찾고, 추천시스템의 정확도를 향상시키는데 그 목적이 있다. 활용된 데이터의 분석 결과는 통합 추천시스템이 정확도가 가장 높았으며 [-]집단 추천시스템, [+]집단 추천시스템의 순인 것으로 나타났다. 이는 통합 추천시스템이 가장 효율적일 것이라는 연구자의 추측과 일치하는 결과이다. 각각의 추천시스템은 정확도의 변화를 쉽게 비교할 수 있도록 등고선지도 및 그래프를 이용하여 나타냈다. 연구의 한계점으로는 연구자가 제시한 통합 추천시스템과 [-]집단 추천시스템에 대한 정확도는 향상되었지만 이는 임의로 구분한 기준을 바탕으로 분석하였다는 점이다. 실제 추천된 영화를 바탕으로 신규고객이 영화를 선택 한 것이 아니라 기존고객의 데이터를 임의로 분류하였기 때문이다. 따라서 이는 추천 영화가 실제 고객에 미친 영향이 아니라는 한계가 존재한다. 또한 영화가 아닌 다른 상품에 대해서 이 추천시스템을 적용하였을 경우 추천 정확도에는 차이가 있을 수 있다. 따라서 추천시스템을 적용할 때에는 각 상품 및 고객집단의 특성에 적합한 적용이 필요하다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

시계열 데이타베이스에서 서브시퀀스 매칭의 성능 병목 : 관찰, 해결 방안, 성능 평가 (The Performance Bottleneck of Subsequence Matching in Time-Series Databases: Observation, Solution, and Performance Evaluation)

  • 김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.381-396
    • /
    • 2003
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이타베이스로부터 검색하는 연산이다. 본 논문에서는 서브시퀀스 매칭 처리의 성능 병목을 파악하고, 이를 해결함으로써 전체 서브시퀀스 매칭의 성능을 크게 개선하는 방안에 관하여 논의한다. 먼저, 사전 실험을 통하여 전체 서브시퀀스 매칭의 처리 시간 중 인덱스 검색 단계와 후처리 단계에서 디스크 액세스 시간 및 CPU 처리 시간이 차지하는 비중을 분석한다. 이를 바탕으로 후처리 단계가 서브시퀀스 매칭의 성능 병목이며, 후처리 단계의 최적화가 기존의 서브시퀀스 매칭 기법들이 간과한 매우 중요한 이슈임을 지적한다. 이러한 서브시퀀스 매칭의 성능 병목을 해결하기 위하여 후처리 단계를 최적으로 처리할 수 있는 간단하면서도 매우 효과적인 기법을 제안한다. 제안된 기법은 후처리 단계에서 후보 서브시퀀스들이 질의 시퀀스와 실제로 유사한가를 판단하는 순서를 조정함으로써 기존의 후처리 단계의 처리에서 발생하는 많은 디스크 액세스의 중복과 CPU 처리의 중복을 완전히 제거한 수 있다 제안된 기법이 착오 기각을 발생시키지 않음과 후처리 단계를 처리하기 위한 최적의 기법임을 이론적으로 증명한다. 또한, 실제 데이타와 생성 데이타를 이용한 다양한 실험들을 통하여 제안된 기법의 성능 개선 효과를 정량적으로 검증한다. 실험 결과에 의하면, 제안된 기법은 기존 기법의 후처리 단계 수행 시간을 실제 주식 데이타를 이용한 실험의 경우 ,3.91 배에서 9.42배까지, 대규모의 생성 데이터를 이용한 실험의 경우 4.97 배에서 5.61배까지 개선시키는 것으로 나타났다. 또한, 제안된 기법을 채택함으로써 전체 서브시퀀스 매칭 처리 시간의 90%에 이르던 후처리 단계의 비중을 70%이하로 내릴 수 있었다. 이것은 제안된 기법이 서브시퀀스 매칭의 성능 병목을 성공적으로 해결하였음을 보여주는 것이다. 이 견과, 제안된 기법은 전체 서브시퀀tm 매칭의 성능을 실제 주식 데이타를 사용한 실험의 경우 3.05 배에서 5.60 배까지, 대규모의 생성 데이타를 이용한 실험의 경우 3.68 배에서 4.21 배까지 개선시킬 수 있었다.