• 제목/요약/키워드: 인식구조

검색결과 4,071건 처리시간 0.031초

터널 구조물의 균열 영상 인식 및 분석 (Detecting and Analyzing Crack Image of Tunnel Construction)

  • 김영린;정동현;진광원;이강문;송창근
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.263-266
    • /
    • 2004
  • 본 논문에서는 터널 구조물에서 발생하는 균열의 인식과 이에 대한 정보를 획득하기 위한 방법에 대한 연구를 수행하였다. 터널 구조물에서 발생하는 균열의 경우, 건설 분야의 특수성 때문에 기존의 경계점 인식(edge detection) 알고리즘을 적용하는 경우 정밀도 저하의 문제가 발생한다. 이러한 문제점을 해결하고 더불어 정밀도를 향상시킬 수 있는 방법으로 영상에서 균열을 인식하는 균열 인식 단계와 인식된 균열의 길이, 두께 등을 측정하는 균열 정보 획득 단계로 구분하였다. 균열 인식 단계에서는 균열의 시작점과 끝점을 기준으로 휴리스틱(Heuristic) 알고리즘을 사용하여 픽셀 값의 분포에 따라 균열의 중심선을 계산하여 균열을 인식한다. 균열 정보 획득 단계에서는 균열 인식 단계에서 얻은 정보를 통해 균열의 길이, 진행 방향 정보, 그리고 균열의 두께를 계산한다. 균열의 길이 및 진행 방향 정보는 균열 인식 단계에서 얻어진 정보를 통하여 계산하며, 균열 두께 측정은 각 픽셀의 누적 값을 이용하여 계산하는 원형 검출기(Daugman 알고리즘)를 변형하여 사용하였다.

  • PDF

다국어 음성인식을 위한 언어별 출력 계층 구조 Wav2Vec2.0 (Language Specific CTC Projection Layers on Wav2Vec2.0 for Multilingual ASR)

  • 이원준;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.414-418
    • /
    • 2021
  • 다국어 음성인식은 단일언어 음성인식에 비해 높은 난이도를 보인다. 하나의 단일 모델로 다국어 음성인식을 수행하기 위해선 다양한 언어가 공유하는 음성적 특성을 모델이 학습할 수 있도록 하여 음성인식 성능을 향상시킬 수 있다. 본 연구는 딥러닝 음성인식 모델인 Wav2Vec2.0 구조를 변경하여 한국어와 영어 음성을 하나의 모델로 학습하는 방법을 제시한다. CTC(Connectionist Temporal Classification) 손실함수를 이용하는 Wav2Vec2.0 모델의 구조에서 각 언어마다 별도의 CTC 출력 계층을 두고 각 언어별 사전(Lexicon)을 적용하여 음성 입력을 다른 언어로 혼동되는 경우를 원천적으로 방지한다. 제시한 Wav2Vec2.0 구조를 사용하여 한국어와 영어를 잘못 분류하여 음성인식률이 낮아지는 문제를 해결하고 더불어 제시된 한국어 음성 데이터셋(KsponSpeech)에서 한국어와 영어를 동시에 학습한 모델이 한국어만을 이용한 모델보다 향상된 음성 인식률을 보임을 확인하였다. 마지막으로 Prefix 디코딩을 활용하여 언어모델을 이용한 음성인식 성능 개선을 수행하였다.

  • PDF

관측 시점에 강인한 손 모양 인식을 위한 손 모양과 손 구조 사이의 학습 기반 유사도 결정 방법 (Learning Similarity between Hand-posture and Structure for View-invariant Hand-posture Recognition)

  • 장효영;정진우;변증남
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.187-191
    • /
    • 2006
  • 본 논문에서는 비전 기술에 기반을 둔 손 모양 인식 시스템의 성능 향상을 위해 학습을 통해 손 모양과 손 구조 간 유사도를 결정하는 방법을 제안한다. 비전 센서에 기반을 둔 손 모양 인식은 손의 높은 자유도로 인한 자체 가림 현상과 관찰 방향 변화에 따른 입력 영상의 다양함으로 인해 인식에 어려움이 따른다. 따라서 비전 기반 손 모양 인식의 경우, 카메라와 손 간의 상대적인 각도에 제한을 두거나 여러 대의 카메라를 배치하는 것이 일반적이다. 그러나 카메라와 손 간의 상대적 각도에 제한을 두는 경우에는 사용자의 움직임에 제약이 따르게 되며, 여러 대의 카메라를 사용할 경우에는 각 입력된 영상에 대한 인식 결과를 최종 인식 결과에 반영하는 방식에 대해서 추가적으로 고려해야 한다. 본 논문에서는 비전 기반 손 모양 인식의 이러한 문제점을 개선하기 위하여 인식의 과정에서 사용되는 손 모양 특징을 손 구조적인 각도 정보와 손 영상 특징으로 나누고, 학습을 통해 각 특징 간 연관성을 정의한다.

  • PDF

음성 압축기를 사용한 통신 시스템에서의 음성 인식 성능 분석 (Performance Analysis of Speech Recognition in Communication Systems using Speech Coder)

  • 한상욱;정희석;박호종
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.179-182
    • /
    • 2002
  • 본 논문에서는 음성 압축기를 사용하는 디지털 이동통신 환경에서 한글 음성 인식기의 성능을 분석하기 위하여 다양한 표준 음성 압축기를 이용하여 음성 압축기의 구조, 전송률, 전송 채널의 에러율에 대한 성능을 측정하여 비교하였다. 동일한 구조의 음성 압축기에 대하여 전송률의 증가에 따라 음성 인식률이 증가하지만, 음성 압축기의 구조에 따라 동일 전송률에서도 많은 성능 차이가 발생하는 것을 확인하였다. 특히 IS-127 EVRC의 인식 성능이 매우 떨어지는 것을 알 수 있고, EVRC의 잡음 제거기와 가변 전송률에 의하여 음성 인식 성능이 저하되는 것을 확인하였다. 이를 통하여 청취 음질과 음성 인식 성능 사이의 상관 관계가 높지 않는 것을 알 수 있다. 모든 음성 압축기에 대하여 채널 에러율과 음성 인식기의 성능은 매우 밀접한 관계가 있음을 확인하였고, 평균적으로 채널 에러율 $1.0\%$에서 인식률이 $0.6\%$ 감소하고, 에러 $5.0\%$에서 인식률이 $1.8\%$ 감소한다.

  • PDF

비디오 행동인식을 위한 효과적인 딥러닝 알고리즘 (Efficient Deep-learning Algorithm for Action Recognition in Video)

  • 차상국;한종기
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.253-254
    • /
    • 2018
  • 본 논문은 비디오기반 행동인식을 연구하였으며, 기존의 구조를 참조하여 더 높은 인식률을 위한 새로운 구조를 제안한다. 딥러닝의 기본인 CNN과 RNN을 베이스로 한 구조이며 UCF-101 이라는 Data Set를 사용하였다.

  • PDF

협력적 필터링 기법을 이용한 P2P 모바일 에이전트 기반 사용자 컨텍스트 인식 및 서비스 처리 구조 (A Structure of Users′Context-Awareness and Service Processe based P2P Mobile Agent using Collaborative Filtering)

  • 윤효근;양종원;이상용
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.415-418
    • /
    • 2004
  • 컨텍스트 인식은 유비쿼터스 컴퓨팅 환경에서 사용자의 주변환경과 상태에 따라 양질의 서비스를 제공할 수 있는 중요한 요소이다. 컨텍스트 인식을 위한 정보 수집 도구로는 이동이 편리한 소형 모바일 장치와 그 안에 내장된 모바일 에이전트를 이용하고 있다 현재 모바일 에이전트는 각 사용자의 컨텍스트 정보를 수집하고 인식하는데 많은 시간과 비용이 소모되고 있다. 이에 모바일 에이전트의 부하를 줄이고, 빠른 시간내에 사용자의 컨텍스트 정보 인식을 위한 구조에 대한 연구가 필요하다. 본 논문에서는 모바일 에이전트에 협력적 필터링 기법과 P2P 에이전트를 혼합한 P2P 모바일 에이전트 구조를 제안한다. 제안한 구조는 동일 지역내에서 각 사용자의 컨텍스트 정보를 분석하고 비슷한 선호도를 갖는 사용자들로 그룹핑하며, 그룹핑된 사용자는 P2P 모바일 에이전트를 이용하여 정보를 공유한다. 또한 이 구조는 사용자들의 행위와 서비스를 지속적으로 관찰 및 학습하여 새로운 상관 관계를 측정하도록 하였다.

  • PDF

XML 기반 학술지 데이터베이스 저장관리시스템의 개발 (A Development of XML-Based ]Repository Management System for a thesis database)

  • 조남선;김우성;서인홍
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 춘계학술대회 발표논문집
    • /
    • pp.330-333
    • /
    • 2001
  • 학술지 데이터 베이스 구축에 있어서 가장 주요한 문제점온 기존 문헌의 디지털화이다. 기존 문헌을 디지털화함에 있어서 택할 수 있는 방법은 문서 인식기(OCR)를 통한 자동인식과 수작업을 통해서 컴퓨터로 입력하는 방법이 있다. 전자의 방법은 현재의 한글 문서 인식기술로 볼 때 인식률이 저조하고, 인식기를 통한 자동인식에서 발생된 오류를 수정하는 비용이 수작업으로 입력하는 비용에 비해 더 크다고 판단된다. 따라서 자료의 입력은 수작업으로 하는 것이 효율적이다 학술지 데이터 베이스들 구축하고 이를 서비스하기 위해 서는 입력된 텍스트 데이터를 표준화하여 구조적으로 변환/편집해야 한다. 이는 구조문서 표준이라 할 수 있는 XML의 이용이 필요하다는 말이기도 할 것이다. 또한 디지털화 된 문서를 효율적으로 활용하고 관리하기 위해서는 비쥬얼한 구조문서 저장 관리기가 필요하다. 본 논문에서는 디지털화 된 텍스트를 구조적인 XML문서로 변환하여 효과적으로 저장 관리 할 수 있는 저장관리기를 설계하고 개발하였다.

영상 인식을 위한 생리학적 퍼지 신경망 (Physiological Fuzzy Neural Networks for Image Recognition)

  • 김광백;문용은;박충식
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 춘계학술대회
    • /
    • pp.169-185
    • /
    • 2005
  • 신경계의 뉴런 구조는 흥분 뉴런과 억제 뉴런으로 구성되며 각각의 흥분 뉴런과 억제 뉴런은 주동근 뉴런(agonistic neuron)에 의해 활성화되며 길항근 뉴런(antagonist neuron)에 의해 비활성화 된다. 본 논문에서는 인간 신경계의 생리학적 뉴런 구조를 분석하여 퍼지 논리를 이용한 생리학적 퍼지 신경망을 제안한다. 제안된 구조는 주동근 뉴런에 의해 흥분 뉴런이 될 수 있는 뉴런들을 선택하여 흥분시켜 출력층으로 전달하고 나머지 뉴런들을 억제시켜 출력층에 전달시키지 않는다. 신경계를 기반으로 한 제안된 생리학적 퍼지 신경망의 학습구조는 입력층, 학습 데이터의 특징을 분류하는 중간층, 그리고 출력층으로 구성된다. 제안된 퍼지 신경망의 학습 및 인식 성능을 평가하기 위해 정확성이 요구되는 의학의 한 분야인 기관지 편평암 영상인식과 영상 인식의 주요 응용 분야인 차량 번호판 인식에 적용하여 기존의 신경망과 성능을 비교 분석하였다. 실험 결과에서는 제안된 생리학적 퍼지 신경망이 기존의 신경망보다 학습 시간과 수렴성이 개선되었을 뿐만 아니라, 인식에 있어서도 우수한 성능이 있음을 확인하였다.

  • PDF

화학 구조 문서 합성 데이터셋 제안 및 Mask R-CNN 기반의 화학 구조 인식 (Synthetic Chemical Structure Documentation Dataset Proposal and Mask R-CNN Based Chemical Structure Segmentation)

  • 윤정환;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1301-1304
    • /
    • 2022
  • 최근 인공지능 신경망에 대한 활발한 연구를 바탕으로 다양한 분야에서의 적용에 대해 많은 시도들이 이루어지고 있다. 이러한 흐름에 맞추어 화학 문서에서 화학 구조를 인식하는 문제 또한 딥러닝을 이용하여 해결하려는 시도들이 생겨나고 있다. 본 논문에서는 화학 문서에서 화학 구조를 인식하는 모델을 학습시키기 위한 합성 데이터셋을 제안하였다. 문서의 구조를 이용하여 정교하게 화학 구조들을 문서에 합성하여 데이터셋을 생성하였고, 이를 최신 딥러닝 모델 중 하나인 Mask R-CNN[7]에 학습시켜 제안한 데이터셋을 이용하여 문서에서 화학 구조를 인식할 수 있음을 보였다.

  • PDF

문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법 (Structure Recognition Method of Invoice Document Image for Document Processing Automation)

  • 이동석;권순각
    • 한국산업정보학회논문지
    • /
    • 제28권2호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문은 인보이스 문서 이미지에 문서 처리 자동화를 적용하기 위한 문서 구조 인식 방법과 문서 구조 인식 결과를 토대로 스프레드문서 형태로 출력하는 방법을 제안한다. 딥러닝 OCR 엔진을 통해 문서 내 단어 블록들과 해당 블록들의 문자 인식 결과를 얻는다. 단어 블록의 위치 정보들을 통해 같은 행과 같은 열에 존재하는 단어 블록들을 검출한다. 단어 블록들의 배치 정보를 통해 문서 영역을 분할한다. 문서의 구역 정보를 통해 얻어진 문서 구조를 토대로 스프레드시트의 알맞은 위치에 문자 인식 결과를 입력한다. 실험 결과 제안된 방법을 통한 항목 배치는 평균 92.30%의 정확도를 보인다.