• Title/Summary/Keyword: 분류기 알고리즘

검색결과 597건 처리시간 0.029초

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

오프라인 필기체 한글 자소 인식에 있어서 특징성능의 비교 (Comparison of Feature Performance in Off-line Hanwritten Korean Alphabet Recognition)

  • 고태석;김종렬;정규식
    • 인지과학
    • /
    • 제7권1호
    • /
    • pp.57-74
    • /
    • 1996
  • 본 논문에서는 근래의 필기체 한글인식에서 상요되고 있는 특징들의 인식 성능을 비교한다.본 연구는 인식률 뿐만 아니라 인식시스템의 효율성을 향상시키기 위한 특징 선택의 기반을 마련함에 그 목적이 있다.특징성능 비교를 위해 그 특징들의 특성들을 분석하였고,그 특성에 따라 특징들을 전역적 특징(영상변환,통계적 특징,지역/위상적 특징의 3가지 종류로 분류하였다.각 종류별로 한글 자소 특징을 나타내는데 적합한 특징들을 4-5가지씩 선정하였고,인식실험을 한글의 초성자음,횡모음,종모음별로 수행하였다. 실험에 사용된 인식기로는 오류역전파 알고리즘으로 학습된 은닉층이 하나인 다층 퍼셉트론이 사용되었다.실험에 사용된 학습 및 시험용 데이타는 PE92중 30벌이다.실험결과를 보면,1)지역/위상적 특징들이 다른 종류의 특징들보다 인식 성능이 우수하였으며,2) 통계적 특징 중에서는 망 특징과 투영특징이,전역적인 특징들 중에서는 왈쉬특징과 DCT특징이,지역/위상적 특징에서는 윤곽선 위상변화 특징과 오목성 특징이 각각 성능이 우수하였다.

  • PDF

실시간 얼굴 검출을 위한 Cascade CNN의 CPU-FPGA 구조 연구 (Cascade CNN with CPU-FPGA Architecture for Real-time Face Detection)

  • 남광민;정용진
    • 전기전자학회논문지
    • /
    • 제21권4호
    • /
    • pp.388-396
    • /
    • 2017
  • 얼굴 검출에는 다양한 포즈, 빛의 세기, 얼굴이 가려지는 현상 등의 많은 변수가 존재하므로, 높은 성능의 검출 시스템이 요구된다. 이에 영상 분류에 뛰어난 Convolutional Neural Network (CNN)이 적절하나, CNN의 많은 연산은 고성능 하드웨어 자원을 필요로한다. 그러나 얼굴 검출을 위한 소형, 모바일 시스템의 개발에는 저가의 저전력 환경이 필수적이고, 이를 위해 본 논문에서는 소형의 FPGA를 타겟으로, 얼굴 검출에 적절한 3-Stage Cascade CNN 구조를 기반으로하는 CPU-FPGA 통합 시스템을 설계 구현한다. 가속을 위해 알고리즘 단계에서 Adaptive Region of Interest (ROI)를 적용했으며, Adaptive ROI는 이전 프레임에 검출된 얼굴 영역 정보를 활용하여 CNN이 동작해야 할 횟수를 줄인다. CNN 연산 자체를 가속하기 위해서는 FPGA Accelerator를 이용한다. 가속기는 Bottleneck에 해당하는 Convolution 연산의 가속을 위해 FPGA 상에 다수의 FeatureMap을 한번에 읽어오고, Multiply-Accumulate (MAC) 연산을 병렬로 수행한다. 본 시스템은 Terasic사의 DE1-SoC 보드에서 ARM Cortex A-9와 Cyclone V FPGA를 이용하여 구현되었으며, HD ($1280{\times}720$)급 입력영상에 대해 30FPS로 실시간 동작하였다. CPU-FPGA 통합 시스템은 CPU만을 이용한 시스템 대비 8.5배의 전력 효율성을 보였다.

시지각강도를 고려한 명승 구역설정에 관한 연구 (A Study on the Designation of Scenic Sites Considering Visual Perception Intensity)

  • 하태일;김충식
    • 헤리티지:역사와 과학
    • /
    • 제50권1호
    • /
    • pp.58-77
    • /
    • 2017
  • 본 연구는 경관적 가치와 조망여부를 정량적으로 다루는 시지각강도(視知覺强度)라는 지표를 도입하여 명승 지정구역 설정의 가능성과 효과를 검토하였다. 연구결과는 다음과 같다. 첫째, 명승 지정구역 설정을 위한 시지각강도 지표를 제시하였다. 조망지점에서 대상과의 거리, 입사각을 고려하여 시지각강도의 지표를 적용하였다. 또한 시지각강도 분석과정을 GIS로 구현하였으며 분석 알고리즘을 개발하였다. 둘째, 누적가시도의 단순빈도와 시지각강도 결과를 비교하여 시지각강도의 가능성을 규명하였다. 시지각강도는 4.74km이내 지역에서 조망지점과 대상과의 거리보다는 입사각에 많은 영향을 받는 것으로 밝혀졌다. 셋째, 시지각강도의 결과를 토대로 현장 조사를 실시하여 사람의 시지각을 충분히 반영하는지를 검증하였다. 실제 시지각강도가 높은 지역이 현장조사를 통해서도 중요한 지역임이 확인되었다. 넷째, 기 지정된 명승에 경관 시지각강도를 도입하여 지정구역 조정가능성을 검토하였다. 시지각강도를 3등급으로 분류한 결과, 2등급 이상은 문화재 지정구역, 3등급은 역사문화환경보존지역으로 설정이 가능할 것으로 보인다.

사전검수영역기반정합법과 't-분포 과대오차검출법'을 이용한 위성영상의 '자동 영상좌표 상호등록' (Automated Satellite Image Co-Registration using Pre-Qualified Area Matching and Studentized Outlier Detection)

  • 김종홍;허준;손홍규
    • 대한토목학회논문집
    • /
    • 제26권4D호
    • /
    • pp.687-693
    • /
    • 2006
  • 최근 전 지구적, 혹은 대규모 지역의 분석 및 모니터링을 위한 위성영상의 사용이 늘어나고 있으며 이를 처리하기 위해 빠르고 편리한 '영상좌표 상호등록'방법이 요구되고 있다. 이러한 '영상좌표 상호등록'은 위성의 센서모델 및 천체력 자료를 이용하는 엄밀 모델식을 이용하는 방법과 기 존재하는 기준 영상(Reference image)을 사용하거나 혹은 수치지도를 사용하는 경험적 방법의 두 가지로 분류할 수 있다. '영상좌표 상호등록'의 효율성을 높이기 위해서 저자는 '사전검수 영역기반정합법'(Pre-qualified area matching)을 사용하였다. 이는 Canny 연산자를 이용한 경계추출법, 교차상관계수를 사용한 영역기반정합법(Area based matching), t-분포를 이용하여 95%의 신뢰구간 내에서 과대오차 소거법을 적용한 방법이다. 이러한 사전검수(Pre-qualification) 과정을 통해 연산시간을 현저히 단축시켰고, '영상좌표 상호등록'의 정확도 역시 향상됨을 알 수 있었다. 제안한 알고리즘을 사용하여 프로그램을 작성하고, 한반도 Landsat ETM+ 영상 3장을 이용하여 테스트하였다. 정합점 간의 평균제곱오차는 0.435 영상소, 정합점은 평균 25,573개로 나타났다. 연산 시간은 3.0GHz 1Gb RAM 사양의 컴퓨터에서 평균 약 4.2분으로 나타났다.

인공지능(AI) 스피커에 대한 사회구성 차원의 발달과정 연구: 제품과 시기별 공진화 과정을 중심으로 (A study of Artificial Intelligence (AI) Speaker's Development Process in Terms of Social Constructivism: Focused on the Products and Periodic Co-revolution Process)

  • 차현주;권상희
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.109-135
    • /
    • 2021
  • 본 연구는 전통뉴스 보도에 나타난 인공지능(AI)스피커 뉴스 텍스트 분석을 통해 인공지능(AI) 스피커 발달과정을 분류하고 시기별 제품별 특성을 파악하였다. 또한 AI 스피커 사업자 제품별 뉴스 보도와 시기별 뉴스 보도간의 상관관계를 분석하였다. 분석에 사용된 이론적 배경은 뉴스의 프레임과 토픽프레임이다. 분석방법으로는 LDA 방식을 활용한 토픽모델링(Topic Modeling)과 의미연결망분석이 사용되었으며, 추가로 'UCINET'중 QAP분석을 적용하였다. 연구방법은 내용분석 방법으로 2014년부터 2019년까지 AI 스피커 관련 2,710건의 뉴스를 1차로 수집하였고, 2차적으로 Nodexl 알고리즘을 이용하여 토픽프레임을 분석하였다. 분석 결과 첫째, AI 스피커 사업자 유형별 토픽 프레임의 경향은 4개 사업자(통신사업자, 온라인 플랫폼, OS 사업자, IT디바이스 생산업자) 특성에 따라 다르게 나타났다. 구체적으로, 온라인 플랫폼 사업자(구글, 네이버, 아마존, 카카오)와 관련한 프레임은 AI 스피커를 '검색 또는 입력 디바이스'로 사용하는 프레임의 비중이 높았다. 반면 통신 사업자(SKT, KT)는 모회사의 주력 사업인 IPTV, 통신 사업의 '보조 디바이스' 관련한 프레임이 두드러지게 나타났다. 나아가 OS 사업자(MS, 애플)는 '제품의 의인화 및 음성 서비스' 프레임이 두드러지게 보였으며, IT 디바이스 생산업자(삼성)는 '사물인터넷(IoT) 종합지능시스템'과 관련한 프레임이 두드러지게 나타났다. 둘째, AI 스피커 시기별(연도별) 토픽 프레임의 경향은 1기(2014-2016년)에는 AI 기술 중심으로 발달하는 경향을 보였고, 2기(2017-2018년)에는 AI 기술과 이용자 간의 사회적 상호 작용과 관련되어 있었으며, 3기(2019년)에는 AI 기술 중심에서 이용자 중심으로 전환되는 경향을 나타냈다. QAP 분석 결과, AI 스피커 발달에서 사업자별과 시기별 뉴스 프레임이 미디어 담론의 결정요인에 의해 사회적으로 구성되는 것을 알 수 있었다. 본연구의 함의는 AI 스피커 진화는 사업자별, 발달시기별로 모회사 기업의 특성과 이용자 간의 상호작용으로 인한 공진화 과정이 나타냄을 발견할 수 있었다. 따라서 본 연구는 AI 스피커의 향후 전망을 예측하고 그에 따른 방향성을 제시하는 데 중요한 시사점을 제공한다.

MaxEnt 모형 분석을 통한 남북한 접경지역의 금강초롱꽃 자생가능지 예측 (Predicting Potential Habitat for Hanabusaya Asiatica in the North and South Korean Border Region Using MaxEnt)

  • 성찬용;신현탁;최송현;송홍선
    • 한국환경생태학회지
    • /
    • 제32권5호
    • /
    • pp.469-477
    • /
    • 2018
  • 금강초롱꽃(Hanabusaya asiatica)은 한반도 중동부에서만 제한적으로 분포하는 고유종으로, 분포범위가 좁고 개체수가 적어 서식지를 세계자연보전연맹(IUCN, International Union for Conservation of Nature) 중요 생물다양성 보호지역(key biodiversity areas: KBAs)으로 지정하여 보호할 필요가 있다. 본 연구에서는 maximum entropy(MaxEnt) 모형을 통해 남북한 접경지역 내 금강초롱꽃 자생가능지를 추정하고 이를 바탕으로 KBAs 후보지를 설정하였다. 기계학습(machine learning) 알고리즘의 하나인 MaxEnt 모형은 생물종의 출현지점만 기록한 데이터(presence-only data)로도 생물종 분포를 편향되지 않게 예측할 수 있는 생물종 분포 모형으로, 본 연구의 연구대상지처럼 현장 조사가 어려운 경우 유용한 방법이다. 본 연구에서는 현장 조사를 통해 수집한 38개 금강초롱꽃 출현 위치와 기후, 지형, 식생 등을 측정한 11개 환경변수를 이용하여 MaxEnt 모형을 학습하여 남북한 접경지역의 모든 지점에 대해 금강초롱꽃 출현확률을 추정하였다. MaxEnt 모형 분석 결과, 금강초롱꽃 출현확률이 0.5를 넘어 금강초롱꽃 분포가능지로 분류된 지역은 $778km^2$이었고, 추정된 서식가능지와 기지정된 보호지역 경계를 고려하여 설정한 최종 KBA 후보지는 $1,321km^2$이었다. 또한 11개 환경변수 중 표고와 연평균 강수량, 생장기 평균 강수량, 최한월 평균 기온이 금강초롱꽃 출현확률에 영향을 미쳐, 금강초롱꽃은 고도가 높은 서늘한 지역을 선호하는 것으로 분석되었다. 이와 같은 금강초롱꽃의 분포지 선호도 분석 결과는 KBA 후보지 설정 뿐 아니라 남북한 통일이나 기후변화와 같은 시나리오에 대비한 금강초롱꽃 보존 계획 수립의 기초자료로 활용될 수 있을 것으로 기대된다.