• 제목/요약/키워드: 개체인식

검색결과 447건 처리시간 0.021초

신경망을 이용한 도로가 포함된 야외영상 인식 (Recognition of Outdoor Scenery Containing Roads using Neural Network)

  • 이효종
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권2호
    • /
    • pp.132-140
    • /
    • 2001
  • 야외에서 인지되는 자연 경치는 다양한 개체, 빛의 산란, 또는 변화를 주는 많은 요소들 때문에 컴퓨터 영상처리에서 인식하기가 쉽지 않다. 본 논문에서는 다층 인지 신경망을 이용하여 도로가 포함된 야외영상에 나타나는 개체들을 인식하는 방법을 연구하였다. 자연 영상을 영역화한 후, 각각의 영역들에 대하여 색상과 기하학적인 특성에 근거하여 특성벡터를 추출하고 이를 신경망에 입력하여 각 영역을 구분하는 2단계의 알고리듬을 제안한다. 먼저 야외 영상들을 개선된 영역 확장법과 병합과정에 의하여 개체별로 영역화하였다. 영역화된 연상은 자연 영상과 함께 영상 데이타베이스에 저장되고, 이 자료들을 이용하여 각 영역의 특성벡터를 계산하였다. 이 특성 벡터를 구성된 신경망의 입력층에 전달하면, 각 영역은 27개의 개체 중의 하나로 출력층에서 인식된다. 제안된 방법은 학습에 사용된 데이타, 학스베 사용되지 않은 새로운 데이타, 그리고 모두 합하여 놓은 데이타의 세가지 데이타 군에서 무작위로 선별하여 인식률을 측정하였다. 학습된 데이타에서는 99.4%까지의 인식률을 보여주었고, 학습되지 않은 데이타에 대해서도 최고 89.1%까지의 인식률을 나타내었다. 제안된 방법은 평균적으로 88.1%~97.9%의 인식률을 보여주어 자연 경치의 인식에 신뢰성이 있는 방법으로 사용될 수 있음을 증명하였다.

  • PDF

Bidirectional Dynamic LSTM 을 이용한 음절 단위 개체명 추출 및 자동화된 말뭉치 구축 (Syllables-based Named Entity Extraction and Automatic Corpus Construction using Bidirectional Dynamic LST)

  • 오성식;임창대;안기호;박외진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-320
    • /
    • 2017
  • 개체명 인식은 자연어 문장에서 장소, 제작물, 사람 등 분류를 통한 의미 부여가 가능한 단어를 파악하는 기술로서 의미 분석을 위한 핵심 기술이다. 현재 많은 개체명 분석 관련 연구들은 형태소 분석 결과에 의존적인 형태를 갖고 있어서, 형태소 분석 결과의 정확성이 개체명 분석 결과의 성능에 영향을 미치고 있다. 본 연구에서는 형태소 분석 과정을 거치지 않는 음절 기반의 개체명 분석 기술을 제안하여 형태소 분석의 정확도가 낮은 통신어, 신조어 분석 성능을 향상하였다. 또한, 자동화된 방법으로 음절 단위 개체명 말뭉치 및 개체명 사전을 구축하는 프로세스를 정의하여 개체명 분석의 정확도 향상 및 인지 범주의 확대를 도모하였다. 본 연구에서 제안한 개체명 인식 기술은 한국어 개체명 표준에 기반한 129가지의 개체명 분류가 가능하며, 이는 자연어 처리 기술이 필요한 산업계에서 상용화하는데 큰 기여를 할 것으로 판단된다.

  • PDF

Bi-directional LSTM-CNN-CRF를 이용한 한국어 개체명 인식 시스템 (Korean Entity Recognition System using Bi-directional LSTM-CNN-CRF)

  • 이동엽;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-329
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템을 개발하기 위해 딥러닝 기반의 워드 임베딩(word embedding) 자질과 문장의 형태적 특징 및 기구축 사전(lexicon) 기반의 자질 구성 방법을 제안하고, bi-directional LSTM, CNN, CRF과 같은 모델을 이용하여 구성된 자질을 학습하는 방법을 제안한다. 실험 데이터는 2017 국어 정보시스템 경진대회에서 제공한 2016klpNER 데이터를 이용하였다. 실험은 전체 4258 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 실험을 진행하였다. 실험 결과 본 연구에서 제안하는 모델은 BIO 태깅 방식의 개체 청크 단위 성능 평가 결과 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score를 나타냈다.

  • PDF

음절 기반의 CNN를 이용한 개체명 인식 (Named Entity Recognition using CNN for Korean syllabic character.)

  • 박혜웅;송영숙
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.330-332
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition, 이하 NER)은 인명(PS), 기관명(OG), 장소(LC), 날짜(DT), 시간(TI) 등에 해당하는 개체명에 일정한 태깅 값을 주어 그 정보를 가시화하는 작업이다. 한국어 개체명 인식은 아직 그 자질이 충분히 밝혀져 있지 않아 자연어 처리 분야의 발전을 더디게 하는 한 요소로 작용하고 있다. 한국어가 음절 기반으로 단어를 형성하고 비교적 어순이 자유롭다는 특성이 있기에, 이런 특징을 잘 포착할 수 있는 "음절 기반의 Convolutional Neural Network(CNN)"의 아키텍쳐를 제안하여 66.80%의 성능을 보였다. 이 방법을 사용하면 형태소 분석등 개체명 이전 단계에서 발생하는 오류에 의해 개체명 인식(NER)의 성능이 떨어지는 문제를 해결할 수 있고, 조사나 어미 등을 제거하기 위한 후처리를 생략할 수 있다.

  • PDF

한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용 (Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition)

  • 남석현;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

Bi-directional LSTM-CNN-CRF를 이용한 한국어 개체명 인식 시스템 (Korean Entity Recognition System using Bi-directional LSTM-CNN-CRF)

  • 이동엽;임희석
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.327-329
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템을 개발하기 위해 딥러닝 기반의 워드 임베딩(word embedding) 자질과 문장의 형태적 특징 및 기구축 사전(lexicon) 기반의 자질 구성 방법을 제안하고, bi-directional LSTM, CNN, CRF과 같은 모델을 이용하여 구성된 자질을 학습하는 방법을 제안한다. 실험 데이터는 2017 국어 정보시스템 경진대회에서 제공한 2016klpNER 데이터를 이용하였다. 실험은 전체 4258 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 실험을 진행하였다. 실험 결과 본 연구에서 제안하는 모델은 BIO 태깅 방식의 개체 청크 단위 성능 평가 결과 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score를 나타냈다.

  • PDF

한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용 (Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition)

  • 남석현;함영균;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

음절 기반의 CNN를 이용한 개체명 인식 (Named Entity Recognition using CNN for Korean syllabic character.)

  • 박혜웅;송영숙
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.330-332
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition, 이하 NER)은 인명(PS), 기관명(OG), 장소(LC), 날짜(DT), 시간(TI) 등에 해당하는 개체명에 일정한 태깅 값을 주어 그 정보를 가시화하는 작업이다. 한국어 개체명 인식은 아직 그 자질이 충분히 밝혀져 있지 않아 자연어 처리 분야의 발전을 더디게 하는 한 요소로 작용하고 있다. 한국어가 음절 기반으로 단어를 형성하고 비교적 어순이 자유롭다는 특성이 있기에, 이런 특징을 잘 포착할 수 있는 "음절 기반의 Convolutional Neural Network(CNN)"의 아키텍쳐를 제안하여 66.80%의 성능을 보였다. 이 방법을 사용하면 형태소 분석등 개체명 이전 단계에서 발생하는 오류에 의해 개체명 인식(NER)의 성능이 떨어지는 문제를 해결할 수 있고, 조사나 어미 등을 제거하기 위한 후처리를 생략할 수 있다.

  • PDF

제약기반 KBQA를 위한 질문분석 (Question Analysis for Constraint-based KBQA)

  • 허정;이형직;배경만;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.665-668
    • /
    • 2018
  • 본 논문에서는 제약기반 KBQA를 위한 질문분석 기술에 대해서 소개한다. 핵심개체와 속성에 대한 연결 모호성을 해소하기 위해서 세 종류의 제약정보 활용을 제안한다. 세 종류의 제약은 핵심개체에 기반한 제약, 의미정답유형에 기반한 제약, 속성단서에 기반한 제약이다. 제약을 위해서는 질문 내에서 핵심개체와 속성단서를 인식하여야 한다. 본 논문에서는 규칙과 휴리스틱에 기반한 핵심개체와 속성단서 인식 방법에 대해서 소개한다. 핵심개체와 속성단서 인식 실험은 구축된 229개의 질문을 대상으로 수행하였으며, 핵심개체와 속성단서가 모두 정확히 인식된 정확도(accuracy)가 57.21%이고, KBQA 대상질문에서는 71.08%를 보였다.

  • PDF

Cotraining 학습을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using Cotraining-based Learning)

  • 이현숙;정의석;황이규;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.597-600
    • /
    • 2002
  • 본 논문에서는 정보추출 및 정보검색, 문서요약과 같은 자연어처리 응용에서 중요한 역할을 하는 개체명 인식 모델을 제안하였다. 기존의 한국어 개체명 인식에 관한 연구는 규칙 기반 연구의 경우 수동으로 생성한 규칙이나 어휘사전에 매우 의존적이고, 통계기반의 연구의 경우 개체명이 태깅된 대량의 학습데이터를 필요로 하므로 새로운 도메인으로의 이식성 관점에서 한계가 있다. 이를 극복하기 위해 본 논문에서는 개체명이 태깅되지 않은 학습데이터를 이용하여 Cotraining 기반 학습을 수행함으로써 개체명 인식을 위한 규칙과 사전을 자동적으로 확장하였다. 실험 결과, 경제분야 문서에 대해 87.6%의 정확률을 보였다.

  • PDF