• 제목/요약/키워드: 공간 텍스트

검색결과 418건 처리시간 0.023초

강화학습 기반의 제로샷 텍스트 분류 (Zero-shot Text Classification based on Reinforced Learning)

  • 장송밍 ;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.439-441
    • /
    • 2023
  • 전통적인 텍스트 분류 방법은 상당량의 라벨링된 데이터와 미리 정의된 클래스가 필요해서 그 적용성과 확장성이 제한된다. 그래서 이런 한계를 극복하기 위해 제로샷 러닝(Zero-shot Learning)이 등장했다. 텍스트 분류 분야에서 제로샷 텍스트 분류는 모델이 대상 클래스의 샘플을 미리 접하지 않고도 인스턴스를 분류할 수 있도록 하는 중요한 주제이다. 이 문제를 해결하기 위해 정책 네트워크를 활용한 심층 강화 학습(DRL) 기반 접근법을 제안한다. 이러한 방법을 통해 모델이 새로운 의미 공간에 효과적으로 적응하면서, 다른 모델들과 비교하여 제로샷 텍스트 분류의 정확도를 향상시킬 수 있었다. XLM-R 과 비교하면 최대 15.9%의 정확도 향상이 나타났다.

Bidirectional LSTM-CRF 앙상블을 이용한 공간 개체 추출 (Spatial Entities Extraction using Bidirectional LSTM-CRF Ensemble)

  • 민태홍;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2017
  • 공간 정보 추출은 대량의 텍스트 문서에서 자연어로 표현된 공간 관련 개체 및 관계를 추출하는 것으로 질의응답 시스템, 챗봇 시스템, 네비게이션 시스템 등에서 활용될 수 있다. 본 연구는 한국어에 나타나 있는 공간 개체들을 효과적으로 추출하기 위한 앙상블 기법이 적용된 Bidirectional LSTM-CRF 모델을 소개한다. 한국어 공간 정보 말뭉치를 이용하여 실험한 결과, 기존 모델보다 매크로 평균이 향상되어 전반적인 공간 관계 추출에 유용할 것으로 기대한다.

  • PDF

Bidirectional LSTM-CRF 앙상블을 이용한 공간 개체 추출 (Spatial Entities Extraction using Bidirectional LSTM-CRF Ensemble)

  • 민태홍;이재성
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.133-136
    • /
    • 2017
  • 공간 정보 추출은 대량의 텍스트 문서에서 자연어로 표현된 공간 관련 개체 및 관계를 추출하는 것으로 질의응답 시스템, 챗봇 시스템, 네비게이션 시스템 등에서 활용될 수 있다. 본 연구는 한국어에 나타나 있는 공간 개체들을 효과적으로 추출하기 위한 앙상블 기법이 적용된 Bidirectional LSTM-CRF 모델을 소개한다. 한국어 공간 정보 말뭉치를 이용하여 실험한 결과, 기존 모델보다 매크로 평균이 향상되어 전반적인 공간 관계 추출에 유용할 것으로 기대한다.

  • PDF

색 변화 특징을 이용한 자연이미지에서의 장면 텍스트 추출 (Scene Text Extraction in Natural Images Using Color Variance Feature)

  • 송영자;최영우
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.1835-1838
    • /
    • 2003
  • 이미지에 포함되어 있는 텍스트들은 이미지의 내용을 함축적이며 구체적으로 표현하는 정보를 갖고 있다. 본 논문에서는 이러한 정보를 정확히 추출하기 위해서 색 변화 특징을 이용한 텍스트 영역 추출 방법을 제안한다. 관찰에 의하면 이미지 내의 텍스트들은 주변 배경과의 색 변화가 존재하며, 이러한 색 변화를 3차원 RGB공간에서 표현한다면, 명도이미지에서의 밝기 변화에서 표현하기 어려운 영역들을 강조시킬 수 있으며, 조명 변화에도 민감하지 않은 결과를 만들어 낼 수 있다. 색 변화 정도는 3차원 RBG 공간에서의 색 분산(Variance)으로 측정한다 처리 과정으로서 우선 수평 및 수직 방향의 분산 이미지를 구하는데, 텍스트 영역은 두 방향의 분산 값이 모두 높은 특징이 있다. 다음으로 두 결과의 논리적 AND 연산을 수행하여 불필요한 잡영들을 제거한 후 연결요소를 분석, 검증하여 영역을 최종 확정한다. 다양한 종류의 자연이미지로 제안한 방법을 검증한 결과 밝기 변화 또는 색 연속성 특징들을 이용한 방법에서 찾기 어려운 텍스트 영역들을 찾을 수 있는 것을 확인할 수 있었다.

  • PDF

에지 및 컬러 양자화를 이용한 모바일 폰 카메라 기반장면 텍스트 검출 (Mobile Phone Camera Based Scene Text Detection Using Edge and Color Quantization)

  • 박종천;이근왕
    • 한국산학기술학회논문지
    • /
    • 제11권3호
    • /
    • pp.847-852
    • /
    • 2010
  • 자연 영상 내에 포함된 텍스트는 영상의 다양하고 중요한 특징을 갖는다. 그러므로 텍스트를 검출하고 추출하여 인식하는 것이 중요한 연구대상으로 연구되고 있다. 최근 모바일 폰 카메라를 기반으로 다양한 분야에서 많은 응용 기술이 연구 개발되고 있다. 본 논문은 에지 및 연결요소를 이용한 장면 텍스트 검출 방법을 제안한다. 그레이스케일 영상으로부터 에지 성분 검출과 지역적 표준편차를 이용하여 텍스트 영역의 경계선을 검출하고, RGB 컬러공간의 유클리디안 거리를 기준으로 연결요소를 검출한다. 검출된 에지 및 연결요소를 레이블링하고 각각 영역의 외곽사각형을 구한다. 텍스트의 휴리스틱 이용하여 후보 텍스트를 추출한다. 후보 텍스트 영역을 병합하여 하나의 후보 텍스트 영역을 생성하고, 후보 텍스트의 지역적 인접성과 구조적 유사성으로 후보 텍스트를 검증함으로서 최종적인 텍스트 영역을 검출하였다. 실험결과 에지 및 컬러 연결요소 특징을 상호 보완함으로서 텍스트 영역의 검출률을 향상시켰다.

그림책 속 일러스트레이션의 공간 표현 특징 연구 (Research on the Spatial Expression Characteristics of Illustration in Picture Books)

  • 한영강;김기수
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.131-142
    • /
    • 2021
  • 본 연구는 그림책 속 그림 디자인에 기초한 것으로, 그림책 속 일러스트레이션의 공간 표현은 매우 중요한 객관성을 담고 있다. 그림속의 다양한 텍스트, 그림, 여백 등은 작업자의 다양한 편집기술과 합리적 요소를 가지고 있어야 공간배치가 원활히 이루어진다. 본 논문은 여러 그림 사례와 고전적인 그림책에 대한 연구를 분석하여 그림책 속 디자인의 공간 표현의 특징을 도출하였다. 첫째 그림과 텍스트의 융합, 즉 그림과 텍스트 모두 화면의 요소로서 함께 공간 정보를 전달한다는 점이다. 둘째 그림책 속 공간 디자인의 일관성 특징으로, 책을 열람할 때 이야기와 내용을 부드럽게 연결시켜야 한다. 셋째 공간 표현 시 창작자가 필요에 따라 추상적 공간 표현과 구상적 공간 표현 중에서 서로 장단점을 활용하여야 한다는 점이다. 넷째는 그림책 공간 표현의 상징적 특징으로, 기호학 원리에 따라 그림책의 공간 표현에 많은 상징적 표현 수법이 적용됨을 알 수 있으며 이는 그림책 열람의 인지적 효율을 크게 향상시킨다. 다섯째 특징은 우수한 그림책의 공간 표현은 재미있는 요소가 뛰어나며 디자인 수단이 풍부하고 화면 내용과 화면 형식을 독자들에게 재미나게 전달한다는 점이다. 본 연구는 그림책 디자인에 있어서 디자이너와 아티스트가 이 같은 주어진 공간프레임 안에서 창작을 이끌어내야 하며 이러한 공간프레임은 그림책창작의 효율성을 크게 향상시킬 수 있을 뿐 아니라, 시각적으로 독자중심적인 흥미로운 체험을 제공할 수 있을 것이라고 생각된다.

단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상 기법 (Improving minority prediction performance of support vector machine for imbalanced text data via feature selection and SMOTE)

  • 김종찬;장성준;손원
    • 응용통계연구
    • /
    • 제37권4호
    • /
    • pp.395-410
    • /
    • 2024
  • 텍스트 데이터는 일반적으로 많은 다양한 단어들로 구성되어 있다. 평범한 텍스트 데이터의 경우에도 수만 개의 서로 다른 단어들을 포함하고 있는 경우를 흔히 관찰할 수 있으며 방대한 양의 텍스트 데이터에서는 수십만 개에 이르는 고유한 단어들이 포함되어 있는 경우도 있다. 텍스트 데이터를 전처리하여 문서-단어 행렬을 만드는 경우 고유한 단어를 하나의 변수로 간주하게 되는데 이렇게 많은 단어들을 각각 하나의 변수로 간주한다면 텍스트 데이터는 매우 많은 변수를 가진 데이터로 볼 수 있다. 한편, 텍스트 데이터의 분류 문제에서는 분류의 목표변수가 되는 범주의 비중에 큰 차이가 나는 불균형 데이터 문제를 자주 접하게 된다. 이렇게 범주의 비중에 큰 차이가 있는 불균형 데이터의 경우에는 일반적인 분류모형의 성능이 크게 저하될 수 있다는 사실이 잘 알려져 있다. 따라서 불균형 데이터에서의 분류 성능을 개선하기 위해 소수집단의 관측값들을 합성하여 소수집단에 포함되는 새로운 관측값을 생성하는 합성과표집기법(synthetic over-sampling technique; SMOTE) 등의 알고리즘을 적용할 수 있다. SMOTE는 k-최근접이웃(k-nearset neighbor; kNN) 알고리즘을 이용하여 새로운 합성 데이터를 생성하는데 텍스트 데이터와 같이 많은 변수를 가진 데이터의 경우에는 오차가 누적되어 kNN의 성능에 문제가 생길 수 있다. 이 논문에서는 변수선택을 통해 변수가 많은 불균형 텍스트 데이터를 오차가 축소된 공간에 표현하고 이 공간에서 새로운 합성 관측값을 생성하여 불균형 텍스트 데이터에서 소수 범주에 대한 SVM 분류모형의 예측 성능을 향상시키는 방법을 제안한다.

식당을 매개로 한 한일 영상텍스트 연구 - <윤식당>과 <카모메 식당>을 중심으로 (Study on Restaurant Images through Korea-Japan Video Text - and )

  • 진은경;안상원
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.567-576
    • /
    • 2017
  • 음식은 그것을 둘러싼 조리법과 문화적 감수성, 베풀고-나누는 관계를 통해 내러티브를 확장하는 문화텍스트로 기능한다. 이 연구는 식당을 매개로 한 한일 영상텍스트인 <윤식당>과 <카모메식당>의 특징을 사이공간과 젠더를 중심으로 살펴보고, 한일 영상문화 텍스트의 보편성과 특수성을 살펴보는 데 목표가 있다. 사이공간의 입장에서 영화 <카모메 식당>이 현실의 세계를 허구적으로 재현했다면 예능 <윤식당>은 허구적 세계를 현실적으로 재현함으로써 차별성을 보이지만, 보편적으로는 하이퍼리얼리티를 창조한 것을 알 수 있다. 둘째, 젠더의 차원에서 두 영상은 성역할의 해체가 역설적으로 상품이 되는 보편성을 제시한다. 다만 윤식당의 경우 젠더평등의 양상을 좀 더 구체적으로 제시했다는 데서 차별성을 갖는다.

위치기반게임의 이동성 반영 구조에 관한 문채적 접근: <패러랠 킹덤(Parallel Kingdom)>을 중심으로 (Characteristics of the Mobility with Figurative Approach in Location based Games)

  • 권보연
    • 한국게임학회 논문지
    • /
    • 제15권2호
    • /
    • pp.33-42
    • /
    • 2015
  • 본고는 위치기반게임 <패러랠 킹덤>을 분석 대상으로 삼아 게임 텍스트에서 플레이어의 움직임, 즉 이동성을 반영하는 고유한 기표 배열 구조를 은유와 환유의 문채 특성으로 고찰한다. 이는 지금까지 공학적 기술을 중심으로 이해되어 온 모바일 게임의 이동성을 수사학적 기법으로 접근할 수 있는 새로운 경로를 제공하기 위한 시도이다. 시각 기호를 기반으로 계열적 장면 배열을 통해 통합적 의미를 생성하는 게임 텍스트의 구조를 고려하여, 게임과 유사한 속성을 지닌 영화 텍스트의 문채를 유형 분석한 크리스티앙 메츠의 이론을 적용했다. 분석 결과, <패러랠 킹덤>는 실제 현실과 가상, 심층적 가상 세계를 총 5개의 복층 공간 텍스트로 구조화하고 있으며, 이러한 공간 특성이 문채작용의 구조적 토대로 기능함을 확인하였다. 특히 플레이어의 게임 외적 이동을 게임 내부로 반영하는 문채작용은 위치 기표 간의 대조와 유사에 의한 은유를 통해 이루어진다. 반면, 캐릭터의 게임 내부적 이동에 의한 증여적 이동성은 공간 기표의 인접성을 기준으로 성립되는 환유적 문채작용을 통해 발생한다.

클러스터링을 이용한 텍스트 특성 인식 (Text Characteristic Recognition Using by Clustering)

  • 이근무
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.837-840
    • /
    • 2001
  • 텍스트 특성을 인식하는 방법적 접근은 텍스트의 기본적 특성을 이용하는 것에서부터 다변량 기법까지 다양한 방법이 제안되고 이용되고 있다. 이 논문에서는 이런 여러 기법들 중 클러스터링 기법을 이용하여 텍스트의 특성을 인식하고 그 인식능력의 효과성을 확인하고자 하였다. p 개의 변수로 구성된 N 개의 개체들은 p-차원 공간에 흩어진 N 개의 점으로 생각될 수 있으며 이들이 어떤 의미의 조밀성을 가지고 cluster를 이루고 있는지에 대한 정보는 자료의 구조를 이해하는데 매우 중요한 의미를 가지게 된다. 이런 결과들은 현재 우리학계의 도작사건논쟁, 인문학계 특히 고대사학과 민족 정체성에 대한 거대 담론들에 대한 여러 형태의 유용한 실증적 전거를 마련해주게 될 것이다.

  • PDF