• 제목/요약/키워드: 한글 텍스트

검색결과 377건 처리시간 0.036초

한글 텍스트 검색을 위한 요약 화일 기법에 관한 연구 (A Reasearch on Signature File Methods for Korean Text Retrieval)

  • 송병호;이석호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.231-237
    • /
    • 1991
  • 텍스트에 대한 내용 본위 검색 기법으로서 요약 화일(signature file) 기법은 역화일(inverted file)이 허용되지 않을 때 매우 유용하다. 그러나 한글은 영문과 달리 어절의 형성이 복잡하고 띄어쓰기 형태가 고정되지 않음에 따라 기존의 단어 위주 영문 본위 요약 화일 기법을 그대로 적용시킬 수 없다. 본 논문에서는 이를 위하여 띄어쓰기를 무시하고 중복된 2음절 패턴을 도출하여 요약 화일을 구성, 검색하는 기법을 제안한다. 이 기법은 일본어, 중국어 등 비슷한 문제를 가진 외국어에도 적용될 수 있다.

  • PDF

한국어(韓國語) 규칙(規則) 음성(音聲) 합성(合成) 시스템의 구현(具現) (The Design and Implementation of Korean Text-to-Speech Conversion System on a Rule-Based Framework)

  • 손영택;김용갑;송본달랑
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.141-148
    • /
    • 1993
  • 본고는, 한글 한자가 혼용된 입력 텍스트를 음성으로 변환 출력하는 포르만트 음성 합성 방식 즉, 한국어 규칙 음성 합성(이하에는 KTTS[Korean Text To Speech System]이라고 함)의 전반적인 처리 흐름에 대하여 소개한다. 특히, 입력 텍스트에 있어서, 한자 또는 각종 부호의 한글 변환 기능, 음성 출력용 문법 정보 추출에 필요한 입력문의 해석 및 구문경계 설정 기능, 또한 음소 기호 변환 및 파라메터 값 생성과 변경 처리기능을 중심으로 설명하고자 한다. 또한 본 시스템의 완성과 더불어 실시하였던 청취 실험 평가 결과에 대하여 덧붙이겠다.

  • PDF

문서영상의 낱자 단위 언어 구분 (Language Identification of Character-level in Document Image)

  • 권세광;오일석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.613-615
    • /
    • 2003
  • 본 논문은 문서 구조분석을 통해 얻어진 텍스트 영상에 대해 낱자 단위 분할 과정과 분할된 낱자에 대한 언어 구분 방법을 제안한다. 먼저 8방향 연결 요소를 이용한 레이블링을 수행하고 각 레이블의 거리관계와 한글 종모음의 특징을 이용하여 낱자 분리를 수행한다. 분리가 이루어진 낱자의 언어 구분은 각 낱자에 존재하는 concavity 특징을 이용하여 한글과 영어로 구분하게 된다. Concavity 특징을 찾기 위해 낱자를 이루는 흑화소 중 수직런을 이루는 흑화소 중 일부와 세리프 성분을 제거하며 그 방법을 기술한다. concavity 특징은 분리기를 통해 한글과 영어 두 가지로 분리되며, 분류기는 신경망을 이용한다. 제안된 방법은 20개의 텍스트 영상에 총 7923개의 낱자를 대상으로 실험하였으며, 낱자 분리는 97.20%의 정확도를 보였으며 분리된 낱자에 대한 언어 구분은 92.70%의 정확도를 얻을 수 있었다.

  • PDF

임베디드시스템을 위한 혼용텍스트 파일의 개선된 LZW 압축 알고리즘 구현 (Development on Improved of LZW Compression Algorithm by Mixed Text File for Embedded System)

  • 조미남;지유강
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.70-76
    • /
    • 2010
  • 최근의 스마트폰, 임베디드시스템 등의 정보통신 단말기는 데이터의 송 수신 및 분산처리 등의 업무를 수행하기 위하여 데이터의 크기를 축소시키는 압축률 향상이 매우 크게 대두되어졌다. 일반적으로 텍스트의 압축에는 LZW(Lempel Ziv Welch)알고리즘을 활용하고 있다. 그러나 LZW알고리즘은 1Byte 조합형 텍스트(알파벳 등)의 압축에는 효율적이나 2Byte 완성형 텍스트(한글 등)에 압축률이 현저하게 저하되는 단점을 가지고 있다. 이를 극복하기 위하여 본 논문에서는 2Byte 전위 필드(prefix)와 반복 계수를 위한 1Byte 후위 필드(suffix)를 사용하는 확장된 ELZW(EBCDIC Lempel Ziv Welch)알고리즘을 제안한다. 제안 알고리즘은 압축률 증가를 위해 압축사전을 구성하여, 알파벳, 한글, 포인터에 따라 각각 서로 다른 비트 스트링으로 적절하게 패킹된다. 제안하는 알고리즘의 성능분석을 위하여 각 140,355byte의 영문, 한글, 한영혼용 텍스트를 비교 실험하였고, 실험결과 제안한 ELZW알고리즘의 압축률은 기존의 1Byte 방식의 LZW 알고리즘보다 5.22% 더 우수하고, 2Byte LZW 알고리즘 보다 8.96% 더 우수함을 보였다.

모바일 영상에서 한글 문자의 기하학적 특징을 이용한 에지 기반 텍스트 검출 (Edge-based Text Localization Using Geometrical Features of Hangul Character in Mobile Images)

  • 박종천;오명관;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2012년도 춘계학술논문집 2부
    • /
    • pp.820-822
    • /
    • 2012
  • 최근 모바일 기기의 보급이 일반화됨으로서 모바일 영상을 다루는 많은 응용프로그램이 개발되고 있다. 모바일 영상을 분석하여 정보를 추출한 결과를 인터넷 검색의 키워드로 연계함으로서 직관적인 멀티미디어 검색을 가능하도록 한다. 본 연구는 모바일 영상에 포함된 한글 문자영역을 검출하는 방법을 제안하였다. 한글 문자의 기하학적인 특징을 추출하고 이를 분석함으로서 후보 한글문자 영역을 검출하고, 검출된 후보 문자영역을 한글 자소 병합 알고리즘을 이용하여 병합한다. 그리고 후보 문자 영역을 한글 6가지 한글 문자 유형 특징을 이용하여 한글 문자 영역을 판별함으로서 최종적인 한글 문자영역을 검출한다. 실험결과, 문자영역 검출률의 성능 평가 요소로서 재현률이 향상됨을 알 수 있었다.

  • PDF

프롬프트 기반 퓨샷 러닝을 통한 한국어 대화형 텍스트 기반 이미지 생성 (Image Generation from Korean Dialogue Text via Prompt-based Few-shot Learning)

  • 이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.447-451
    • /
    • 2022
  • 본 논문에서는 사용자가 대화 텍스트 방식의 입력을 주었을 때 이를 키워드 중심으로 변환하여 이미지를 생성해내는 방식을 제안한다. 대화 텍스트란 채팅 등에서 주로 사용하는 형식의 구어체를 말하며 이러한 텍스트 형식은 텍스트 기반 이미지 생성 모델이 적절한 아웃풋 이미지를 생성하기 어렵게 만든다. 이를 해결하기 위해 대화 텍스트를 키워드 중심 텍스트로 바꾸어 텍스트 기반 이미지 생성 모델의 입력으로 변환하는 과정이 이미지 생성의 질을 높이는 좋은 방안이 될 수 있는데 이러한 태스크에 적합한 학습 데이터는 충분하지 않다. 본 논문에서는 이러한 문제를 다루기 위한 하나의 방안으로 사전학습된 초대형 언어모델인 KoGPT 모델을 활용하며, 퓨샷 러닝을 통해 적은 양의 직접 제작한 데이터만을 학습시켜 대화 텍스트 기반의 이미지 생성을 구현하는 방법을 제안한다.

  • PDF

칼라정보에 기반한 텍스트 영역 추출에서의 지워진 획 복구 (Recovery of Erased Character Strokes in the Extraction of Text Using Color Information)

  • 김선형;김지수;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.657-660
    • /
    • 2006
  • 자연영상이나 스팸메일 영상으로부터 텍스트 영역을 추출하고 추출한 텍스트 영역에 이진화를 수행하고 나면 가로 방향이나 세로획 방향으로 놓여 있는 "1" 그리고 "ㅡ" 에 해당하는 한글의 종성부분이 이미지 내의 잡영을 지울 때 종종 지워지는 결과를 볼 수 있다. 이렇게 지워진 획 부분을 되살리기 위한 방법으로 텍스트 Hinting 알고리즘을 제안한다. 텍스트 Hinting 알고리즘은 이진화된 이미지의 텍스트 픽셀 위치와 동일한 좌표에 해당하는 원본 이미지의 RGB 값을 추출하여 추출된 텍스트 후보 영역의 색상을 알아낸다. 추출된 텍스트 색상 레이어 이미지와 이진화된 이미지에 OR연산을 수행하게 되면 지워진 획 부분을 복원할 수 있다. 제안한 방법을 스팸 이미지에 적용한 결과 텍스트 추출결과를 획기적으로 개선할 수 있음을 보였다.

  • PDF

수사구조를 이용한 텍스트 자동요약 (Text Summarisation with Rhetorical Structure)

  • 이유리;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF

한국 현대시 텍스트의 맥락 효과에 관한 인지.화용론적 연구 (A Cognitive Pragmatic Approach to Contextual Effects in Modern Korean Poetry)

  • 이현호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.227-240
    • /
    • 1993
  • 본 연구의 목적은 한국 현대시 텍스트가 독자에게 전달하는 시적 효과를 담화 텍스트 언어학 및 인지적 화용론의 관점에서 분석하는 것이다. 담화 텍스트 언어학은 텍스트의 언어 자료 자체보다는 이를 생산하고 수용하는 인지 과정에 주목하는 인지과학의 한 분야이며, 적합성 원리로 되는 인지적 화용론은 텍스트 언어학에서 규명하는 바 여러 인지적 조작 절차들의 심리학적 근거가 된다. 많은 인지적 책략 및 조작 절차들이 집약되어 있는 한국 현대시 텍스트를 인지 화용론적 관점에서 분석한 결과, 이제까지 모호하게 개진되어 오던 많은 시적 효과가 텍스트 언어학 및 인지적 화용론의 분석 장치들에 의해서 명쾌하게 설명될 수 있음이 밝혀졌다. 즉, 정보성의 격상 및 격하, 각별한 결속구조의 사용 및 그 수용 과정, 작가의 상황점검과 상황관리 과정에 의한 전국적 인지 패턴의 활성화 및 수정 등의 인지적 절차를 통해서 독자의 맥락이 수정, 확장되는 효과가 일어나고 바로 이것이 궁극적으로는 시적 효과를 낳는다는 점을 설명할 수 있다.

  • PDF

한국어 텍스트 결속성 측정 도구: KorCAT (KorCAT: Cohesion Analysis Tool for Korean Text)

  • 김동현;김현정;김철희;서영덕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.582-587
    • /
    • 2022
  • 결속성은 텍스트의 의미 관계 분석에서 주요하게 고려되는 요인 중 하나이다. 결속성이 높을 수록 텍스트 내 언어적 의미 관계가 긴밀한 것으로 볼 수 있기 때문이다. 사람에 의한 텍스트 결속성 분석은 주관이 개입되는 문제를 배제할 수 없는데, 영어에는 TAACO라고 불리는 결속성 자동 측정 도구가 있어 다양한 지표들로 텍스트의 결속성을 측정하고 있다. 그러나 한국어에는 이와 같은 텍스트 결속성 자동 측정 도구가 거의 없으며, 관련 연구도 상당히 부족한 실정이다. 따라서 본 논문에서는 한국어 텍스트의 의미 관계 분석을 위한 결속성 지표를 정의하고, 한국어의 특성에 맞는 결속성 측정 도구인 KorCAT을 제안한다.

  • PDF