• 제목/요약/키워드: 기선벡터

검색결과 36건 처리시간 0.02초

한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용 (Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition)

  • 남석현;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용 (Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition)

  • 남석현;함영균;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

용례 벡터와 웹 자원을 이용한 전문용어 용례의 추출 및 순위화 (Extraction and Ranking of Term Usages using Usage Vector and Web Resources)

  • 정하용;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.95-101
    • /
    • 2006
  • 전문용어의 용례는 일반용어의 용례와 다르게 의미를 드러내는 것이 중요하다. 또한 사전 및 시소러스와 같은 자원이 부족하다는 특징이 있다. 본 논문에서 우리는 전문용어의 용례를 벡터를 이용한 표현을 통해 더 정량적으로 나타내는 방법을 제안했다. 또한 전문용어의 자료부족 문제를 극복하기 위해 대체적 자원으로 웹을 이용하는 것을 제안했다. 실험 결과, 제안한 시스템은 기존의 시스템에 비해 최대 30%의 성능 향상을 이룰 수 있었다. 게다가 제안한 시스템에의 추출된 전문용어의 용례는 다른 자연어 처리 응용을 위한 보완적 자원으로서의 가능성을 보여줬다.

  • PDF

KAISER: 워드 임베딩 기반 개체명 어휘 자가 학습 방법을 적용한 개체명 인식기 (KAISER: Named Entity Recognizer using Word Embedding-based Self-learning of Gazettes)

  • 함영균;최동호;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-339
    • /
    • 2016
  • 본 논문에서는 한국어 개체명 인식의 성능 향상을 위하여 워드 임베딩을 활용할 수 있는 방법에 대하여 기술한다. 워드 임베딩이란 문장의 단어의 공기정보를 바탕으로 그 단어의 의미를 벡터로 표현하는 분산표현이다. 이러한 분산 표현은 단어 간의 유의미한 정도를 계산하는데 유용하다. 본 논문에서는 이러한 워드 임베딩을 통하여 단어 벡터들의 코사인 유사도를 통한 개체명 사전 자가 학습 및 매칭 방법을 적용하고, 그 실험 결과를 보고한다.

  • PDF

GPS망조정에 의한 3등측지기준점의 세계측지계 성과산정 (The $3^{rd}$ Order GPS Network Adjustment for Determining of KGD2002 Coordinate Sets)

  • 이영진;정광호;이흥규;권찬오;송준호;조준래;남기범;차상헌
    • 한국측량학회지
    • /
    • 제25권5호
    • /
    • pp.437-449
    • /
    • 2007
  • 우리나라 국토지리정보원에서는 3등측지기준점의 세계측지계 전환을 위해 1997년에서 2005년까지 총 69개 사업지구에서 관측된 약 11,000여개 삼각점의 GPS관측데이터를 확보하였다. 본 연구에서는 3등측지기준점 관측데이터와 관련된 사항을 요약하고, 연도별 사업지구별 데이터를 분석한 후 40개 지구의 데이터를 재처리하였다. 또한, 과대오차 검출과 통계모델의 추정을 위해 사업지구별로 최소제약조건에 의한 망조정을 실시하고 추정한 정확도는 수평 $5mm{\pm}0.5ppm$ 수직 $10mm{\pm}1ppm$을 얻었다. 한국측지계 2002(KGD2002)의 최종성과 산정을 위한 GPS망조정은 GPS기선벡터를 기선해석 S/W별로 구분하여 총 17개의 블록으로 구성하고 블록별 최소제약 조정에 의해 평가하였으며, 다점고정 조정에 따라 최종성과를 산정하고 절대정확도 점검을 실시하였다.

구문 및 의미 분석을 통한 한국어 자동 색인

  • 최기선
    • 정보관리학회지
    • /
    • 제8권2호
    • /
    • pp.96-107
    • /
    • 1991
  • 통계적 정보 혹은 벡터 모델을 이용하는 자동 색인은 색인어와 문서간에 관계성을 간접적으로 혹은 상대적으로 계산하기 때문에 검색의 정확도를 높이는데 한계가 있다. 이 보다는 적극적인 방법으로 언어학적 정보와 인공 지능의 기술을 이용하여 색인어의 관계성 을 계산하는 방법론을 소개한다. 동사의 격틀을 이용하여 개발된 시스템으로부터 언어적 분 석 방법의 가능성을 찾아볼 수 있다. 미래의 정보 검색은 사용자 중심으로 구성이 되어 사 용자에 대한 연구가 깊게 반영이 되어야 할 것이다.

  • PDF

LDA와 Local MLP를 이용한 얼굴 인식 (Face Recognition using LDA and Local MLP)

  • 이대종;최기선;전명근
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.212-216
    • /
    • 2006
  • MLP는 뛰어난 학습능력으로 인하여 많은 분야에 성공적으로 적용되고 있다. 그러나, 학습 방법으로서 최급경사법에 근거한 오차역전파 알고리즘을 적용하기 때문에 학습시간이 오래 걸리는 단점이 있다. 또한 입력차원의 크기가 크거나 클래스간 학습데이터의 유사성이 클 경우 최적의 파라미터를 구하는데는 한계가 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 LDA와 local MLP을 이용한 새로운 얼굴인식시스템을 제안하고자 한다. 제안된 방법은 우선 LDA 기법에 의해 차원이 축소된 얼굴의 특징벡터를 계산한다. 다음 단계로서 전체 학습영상을 사용하기 보다는 그룹별로 분할된 얼굴영상에 대해 MLP를 수행하므로서 그룹별로 최적인 파라미터를 결정한다. 마지막 단계로 그룹별로 수행된 local MLP를 결합함으로써 전체 얼굴인식 시스템을 구성한다. 제안된 방법의 타당성을 보이기 위해 ORL 얼굴영상을 대상으로 실험한 결과 기존 방법인 PCA나 LDA에 비해 향상된 결과를 보임을 확인할 수 있었다.

  • PDF

피라미드 구조와 쿼드트리를 이용한 프레임율 증가 변환 (Frame Rate Up-Conversion Using Pyramid Structure and Quadtree)

  • 이지찬;김준건;이준호;김기선;이대호
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 추계학술대회
    • /
    • pp.90-92
    • /
    • 2014
  • 본 논문에서는 피라미드 구조와 쿼드트리를 이용하는 움직임 보상 프레임 보간(motion compensated frame interpolation, MCFI)의 새로운 방법을 제안한다. 일반적인 MCFI 방법에서는 고정된 크기의 프레임과 블록에서 움직임 벡터(motion vector, MV)를 이용하여 두 프레임 사이의 프레임 영상을 추정한다. 그러나 이와 같은 방법은, 큰다양한 방향으로 움직이는 물체들의 MV 나 큰 움직임을 추정하기 어렵다. 이러한 문제점을 해결하기 위해서 본 논문에서는 블록 크기와 정합 영역이 가변적으로 적용될 수 있는 피라미드 구조와 쿼드트리를 이용한 프레임 보간 기법(pyramid structure and quadtree motion compensated frame interpolation, PQ-MCFI)를 제안한다. 제안하는 기법은 물체들이 빠르게 움직이는 장면과 다양한 방향으로 움직이는 장면에서 이전의 기법에 비해서 높은 PSNR 을 보이며, 실제 인간의 시각적인 측면에서는 더욱 정밀한 결과를 보인다.

  • PDF

전문용어 및 정보추출에 기반한 문서분류시스템 (Text Categorization Based on Terminology and Information Extraction)

  • 이경순;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용 (Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval)

  • 최용석;최기선
    • 인지과학
    • /
    • 제14권1호
    • /
    • pp.29-40
    • /
    • 2003
  • 교차언어 정보검색은 다국어 정보검색의 일부분으로 질의어에서 사용하는 언어와 검색대상인 문서의 언어가 서로 다른 경우의 정보검색을 의미한다. 교차언어 정보검색의 성능 향상을 위해서는 양질의 언어자원이 대량으로 필요한 경우가 많기 때문에 이를 해결하기 쉽지 않다. 본 논문에서는 사전에 기반한 대역어 후보 선정 시, 가중치를 부여해 질의어를 변환하는 방식을 제안한다. 가중치 계산에 이용되는 의미거리는 영어 명사와 한국어 명사를 같은 벡터 공간에 표현하고, 두 벡터간의 관계를 이용해 거리를 계산한다. 서로 다른 두 언어의 명사를 한 공간에 표현하기 위해 "공통 기반축"의 개념을 제시하고, 구축 방법을 제안한다. 고급 자원인 온톨로지를 확보하지 않고, 제안하는 방법으로 우수한 정보검색 결과를 얻을 수 있다는 것을 실험을 통해 보여준다.을 통해 보여준다.

  • PDF