• 제목/요약/키워드: 말은 기법

검색결과 760건 처리시간 0.022초

통계적 문맥의존 철자오류 교정 기법의 향상을 위한 지역적 문서 정보의 활용 (The Utilization of Local Document Information to Improve Statistical Context-Sensitive Spelling Error Correction)

  • 이정훈;김민호;권혁철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권7호
    • /
    • pp.446-451
    • /
    • 2017
  • 본 논문에서의 문맥의존 철자오류(Context-Sensitive Spelling Error) 교정 기법은 샤논(Shannon)의 노이지 채널 모형(noisy channel model)을 기반으로 한다. 논문에서 제안하는 교정 기법의 향상에는 보간(interpolation)을 사용하며, 일반적인 보간 방법은 확률의 중간 값을 채우는 방식으로 N-gram에 존재하지 않는 빈도를 (N-1)-gram과 (N-2)-gram 등에서 얻는다. 이와 같은 방식은 동일 통계 말뭉치를 기반으로 계산하는데 제안하는 방식에서는 통계 말뭉치와 교정 문서간의 빈도 정보를 이용하여 보간 한다. 교정 문서의 빈도를 이용하였을 때 이점은 다음과 같다. 첫째 통계 말뭉치에 존재하지 않고 교정 문서에서만 나타나는 신조어의 확률을 얻을 수 있다. 둘째 확률 값이 모호한 두 교정 후보가 있더라도 교정 문서를 참고로 교정하게 되어 모호성을 해소한다. 제안한 방법은 기존 교정 모형보다 정밀도와 재현율의 성능향상을 보였다.

정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발 (Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique)

  • 노대욱;이수용;나동열
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.160-168
    • /
    • 2007
  • 문서분류기의 개발에 있어 지도학습기법을 이용할 경우 많은 양의 사람에 의한 범주 부착 말뭉치가 필요하다. 그러나 이의 구축은 많은 시간과 노력을 필요로 한다. 최근 이러한 범주 부착 말뭉치 대신 원시말뭉치와 범주마다 약간의 씨앗 정보를 이용하여 학습을 수행하여 문서분류기를 개발하는 방법론이 제시되었다. 본 논문에서는 이 방법론 하에서 다른 연구에서의 결과보다 좋은 성능을 나타내는 비지도 학습 기법을 소개한다. 본 논문에서 제시하는 기법의 특징은 씨앗 단어에서 출발하여 평균상호정보를 이용하여 다른 대표단어 및 그들의 가중치를 학습한 다음, 정보검색에서 많이 사용하는 기술을 이용하여 그 가중치를 갱신하는 것이다. 그리고 이 과정을 반복 수행하여 최종적으로 높은 성능의 시스템을 개발 할 수 있음을 제시하였다.

문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역 (Clustering-based Statistical Machine Translation Using Syntactic Structure and Word Similarity)

  • 김한경;나휘동;이금희;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권4호
    • /
    • pp.297-304
    • /
    • 2010
  • 통계기계번역에서 번역성능의 향상을 위해서 문장의 유형이나 장르에 따라 클러스터링을 수행하여 도메인에 특화된 번역을 시도하는 방법이 있다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 각 문장의 문법적 구조 유사도에 따른 유형별분류 기법과, 단어 유사도 정보를 사용한 장르 구분법을 적용하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 도메인 특화 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조 유사도와 단어 유사도의 계산 방법으로는 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정에서는 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

개념분류기법을 적용한 한국에 명사분류 (Korean Noun Clustering Via Incremental Conceptual Clustering)

  • 정연수;조정미;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-55
    • /
    • 1995
  • 많은 언어관계들이 의미적으로 유사한 단어들의 집합에 적응된다. 그러므로 단어들을 의미가 비슷한 것들의 집합으로 분류하는 것은 아주 유용한 일이다. 본 논문에서는 말뭉치로부터의 동사와 명사의 분포정보를 이용하여 명사들을 분류하고자 한다. 한국어에서는 명사마다 문장에서 그 명사를 특정한 격으로 사용할 수 있는 동사들이 제한되어 있다. 그러므로 본 논문에서는 말뭉치에서 나타나는 명사와 그 명사를 특정한 격으로 사용하는 동사들의 분포정보로부터 명사들을 분류하는 방법을 제시한다. 형태소 해석된 50만 단어 말뭉치에서 가장 빈도수가 높은 명사 85단어를 대상으로 실험하였다. 명사와 동사의 구문정보를 사용하므로 의미적으로는 다르지만 쓰임이 비슷한 단어들도 같은 부류로 분류되었다. 의미적으로 애매성을 가지는 명사들의 경우도 실험결과를 나쁘게하는 요인이 되었다. 그리고, 좀더 좋은 결과를 얻기 위해서는 동사들도 의미가 유사한 것들로 분류한 후, 명사와 동사의 분포정보가 아닌 명사와 동사들의 집합의 분포정보를 이용하는 것도 종은 방법이 될 것이다.

  • PDF

학습을 통한 발음 변이 규칙 유도 및 적응을 이용한 영역 의존 발음 사전 자동 생성 (Automatic Generation of Domain-Dependent Pronunciation Lexicon with Data-Driven Rules and Rule Adaptation)

  • 전재훈;정민화
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2005년도 춘계학술대회
    • /
    • pp.233-238
    • /
    • 2005
  • 본 논문에서는 학습을 이용한 발음 변이 모델링을 통해 특정 영역에 최적화된 발음 사전 자동 생성의 방법을 제시하였다. 학습 방법을 이용한 발음 변이 모델링의 오류를 최소화 하기 위하여 본 논문에서는 발음 변이 규칙의 적응 기법을 도입하였다. 발음 변이 규칙의 적응은 대용량 음성 말뭉치에서 발음 변이 규칙을 유도한 후, 상대적으로 작은 용량의 음성 말뭉치에서 유도한 규칙과의 결합을 통해 이루어 진다. 본 논문에서 사용된 발음 사전은 해당 형태소의 앞 뒤 음소 문맥의 음운 현상을 반영한 발음 사전이며, 학습 방법으로 얻어진 발음 변이 규칙을 대용량 문자 말뭉치에 적용하여 해당 형태소의 발음을 자동 생성하였다. 발음 사전의 평균 발음의 수는 적용된 발음 변이 규칙의 확률 값들의 한계 값 조정에 의해 이루어졌다. 기존의 지식 기반의 발음 사전과 비교 할 때, 본 방법론으로 작성된 발음 사전을 이용한 대화체 음성 인식 실험에서 0.8%의 단어 오류율(WER)이 감소하였다. 또한 사전에 포함된 형태소의 평균 발음 변이 수에서도 기존의 방법론에서 보다 5.6% 적은 수에서 최상의 성능을 보였다.

  • PDF

단어링크와 공기 단어를 이용한 의미중의성 해소 (Word Sense Disambiguation Using Word Link and Word Cooccurrence)

  • 구영석;나동렬
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.21-27
    • /
    • 2002
  • 본 논문은 문장 안에서 의미 중의성을 갖는 단어가 출현했을 때 그 단어가 어떤 의미로 사용되고 있는지 판별해 주는 방법을 제시하고자 한다. 이를 위해서 먼저 중의적 의미를 가지는 단어의 각 의미 (sense) 마다에 대하여 이 의미를 나타내는 주요단어 즉 종자단어와 연관성이 있는 단어들로 벡터를 구성하여 이 의미를 나타내고자 한다. 종자단어와 말뭉치의 문장을 통하여 연결된 경로를 가진 단어는 이 종자단어에 해당하는 의미를 나타내는 데 기여하는 정보로 본 것이다. 경로는 동일 문장에서 나타나는 두 단어 사이는 링크가 있다고 보고 이러한 링크를 통하여 이루어 질 수 있는 연결 관계를 나타낸다. 이 기법의 장점은 데이터 부족으로 야기되는 문제를 경감시킬 수 있다는 점이다. 실험을 위해 Hantec 품사 부착된 말뭉치를 이용하여 의미정보벡터를 구축하였으며 ETRI 품사 부착된 말뭉치에서 중의적 단어가 포함된 문장을 추출하여 실시하였다. 실험 결과 기존의 방법보다 나은 성능을 보임이 밝혀졌다.

  • PDF

비형식적인 문서에 강건한 문장 경계 인식 (Robust Method for Sentence Boundary Identification in informal documents)

  • 김주희;서정연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.266-270
    • /
    • 2010
  • 본 논문에서는 구두점이나 띄어쓰기가 없는 비형식적인 문서에서도 문장의 경계를 잘 인식할 수 있는 문장 경계 인식기를 제안한다. 기존의 문장인식기는 문장경계의 후보를 구두점 출현 위치만으로 하였는데 이는 잡음이 많은 웹문서를 처리하는데 한계가 있다. 반면에 제안한 방법은 문장 경계의 후보를 구두점의 출연 위치로 제한하지 않고 문장 경계 인식을 위한 자질로 구두점에 비 의존적인 음절 n-gram을 사용함으로써, 구두점이 잘 표현된 문서뿐만 아니라 구두점의 생략이 빈번한 웹문서의 문장 경계 인식까지 효과적으로 수행할 수 있다. 통계기반의 기계학습 기법으로 CRFs를 이용하여 하였고, 학습과 실험에 세종계획 말뭉치를 사용하였다. 제안한 문장 경계 인식기는 세종계획 말뭉치에서 99.99%의 정확률과 100.00%의 재현율을 보였고, 세종계획 말뭉치에서 문장 경계의 구두점을 제거한 경우에도 96.20%의 정확률과 87.51%의 재현율을 보여 구두점이 없는 경우에도 문장 경계 인식이 잘이루어짐을 확인할 수 있었다.

  • PDF

영상공간에서의 계층구조를 사용한 스플래팅의 속도 향상기법 (A Speed Enhancement Technique for Splatting Using Hierarchical Data Structure)

  • 이래경;임인성
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제4권2호
    • /
    • pp.33-45
    • /
    • 1998
  • 볼륨 가시화(volume visualization)는 3차원 볼륨 데이터로부터 의미 있는 가시적 정보를 추출하도록 도와주는 연구분야이다. 볼륨 렌더링(volume rendering)은 볼륨 데이터로부터 영상(image)을 얻는 기술을 말하는데, 이러한 렌더링 기법 중 물체공간(object space)에 기반한 스플래팅(splatting) 기법은 볼륨 데이터에 존재하는 응집성(coherence)의 이점을 이용할 수 있는 팔진트리(octree)나 피라미드(pyramid)와 같은 계층구조를 적용하기 쉽다. 본 논문에서는 볼륨 데이터에 팔진트리를 적용한 기존의 스플래팅 기법에 영상공간(image space)에서의 응집성의 이점을 이용하기 위한 계층구조로 4진트리(quadtree)와 범위트리(range tree)를 적용하는 새로운 스플래팅 기법을 제안한다. 이 기법은 볼륨 데이터내의 불투명한 복셀(voxel)들에 의해 가려지는 복셀들에 대한 방문을 가능한 한 피함으로써 전체적인 스플래팅의 속도를 향상시킨다. 이 기법은 잘 알려진 팔진트리, 4진트리 그리고 범위트리를 사용함으로써 그 구현이 쉽고, 추가적으로 많은 메모리를 사용하지 않으면서도 렌더링의 속도를 효율적으로 향상시킬 수 있는 기법이다.

  • PDF

베르나르 라미의 『수사학 또는 말하는 기법(1675)』에 관한 연구 (A Study on Bernard Lamy's La Rhétorique ou L'Art de Parler)

  • 이종오
    • 국제지역연구
    • /
    • 제13권1호
    • /
    • pp.345-368
    • /
    • 2009
  • 자연과학이 새롭게 발달하던 시기인 16세기에 유럽에서는 수사법(전의나 문채)을 사용하는 장식적 문체가 객관적인 사고를 명료하고 체계적으로 전달하는데 방해가 된다고 하여 수사학 교육을 받은 이들의 권위가 비판, 부정되어왔다. 이에 반해 17세기 프랑스에서는 문체의 교육과 연구가 다시 활발히 등장하기 시작한다. 이러한 흐름이 르네상스에서 계몽주의 시대의 수사학, 낭만주의 시대의 수사학을 거쳐 최근에는 수사학의 신고전주의라는 이름으로 전통적 수사학을 대신할 새로운 수사학이 연구되기 시작하였다. 물론 17세기 프랑스에서는 위와 같은 시대적 변동기를 맞이하여 수사학의 죽음과 부활이라는 엄청난 교육적 이데올로기 투쟁의 파편이 역사적으로 남아있기도 하다. 본 연구는 프랑스의 대표적인 수사학자 베르나르 라미Bernard Lamy의 『수사학 또는 말하는 기법』을 해제, 분석함으로써 17세기 후반 프랑스의 고전 수사학을 조망해보고자 하는 시도이다. 생 오기스탱, 데카르트, 포르루와이알Port-Royal의 후계자임과 동시에, 루소의 스승인 라미는 언어는 이성과 재현의 요구 또는 우리 자신도 모르게 표현되는 정념들에 기인하는 것인가? 언어의 영역은 명제의 이성적인 영역과 일치되는가? 그리고 그것은 각 민족의 자연적인(타고난) 감성과 적합한가? 와 같은 테제를 중심으로 수사학에 관한 중요한 논거들을 조리 있게 제시하였다. 무엇보다도 우리는 본 라미의 저서를 통해 17세기의 수사학, 특히 다양한 문체의 문채들과 관련되어있는 정념情念의 형식과 이론을 비롯하여, 인간언어의 기원과 역할, 17세기의 수사학 원리, 문법과 논리, 문채와 전의, 정념의 수사학(문채의 심리학) 등과 같이 '말하는 기법'으로 이해된 라미의 수사학과 언어관을 중심으로 살펴보았다.

<수면의 과학>에 나타난 시뮬라시옹 표현기법 연구 (Simulacra Theory as a Conceptual Framework for Understanding Expression and Technology in )

  • 방윤경
    • 만화애니메이션 연구
    • /
    • 통권24호
    • /
    • pp.135-154
    • /
    • 2011
  • 실제로 존재하지 않는 대상을 존재하는 것처럼 만들어놓은 인공물을 지칭하는 말인 시뮬라크르(Simulacra)는 본질의 원 실체를 가정하지 않고, 스스로 이미지를 창출하고 본질의 역할을 자청하는 독자적인 또 하나의 세계를 지칭하는 말이다. 많은 영화들이 무의식의 세계와 꿈을 넘어 시뮬라크르를 표현하는데 있어서 3D 애니메이션(3D Animation)을 포함한 CG(Computer Graphics)를 적극 사용하고 있다. 본 연구의 목적은 CG를 최소화한 아날로그적 표현기법을 통해 신세계를 이미지화 하고, 영상화 하는데 초석 같은 역할을 하고 있는 영상의 마술사라 불리는 미셸 공드리(Michel Gondry)의 작품 <수면의 과학>의 표현 기법을 분석함으로서, 카메라 기법, 왜곡과 과장, 스톱 모션 등 다양한 아날로그적인 기법들이 뮤직비디오, 영화, 애니메이션 등에서 새로운 표현 영역을 넓히고, 창조의 효율을 극대화 시켜줌으로서 영상의 미학적 발전에 영향을 끼치고 있으며, 본질보다 기호가 더 중요시 되는 현실에서 시뮬라크르를 재현하거나 창조하고 있는 수많은 영화 및 다양한 영상 매체에서 그의 다양한 아날로그적 시도가 더욱더 새로운 기법을 탄생시킬 것 을 기대해본다.