• 제목/요약/키워드: 경계의 언어

검색결과 171건 처리시간 0.024초

기계학습 기법을 이용한 문장경계인식 (Sentence Boundary Detection Using Machine Learning Techniques)

  • 박수혁;임해창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.69-72
    • /
    • 2008
  • 본 논문은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용 된 구두점 등의 경우에도 적용 가능하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다.

도널드 트럼프와 글로리아 안살두아의 '언어' 게임 (Language Games between Donald Trump and Gloria Anzaldúa)

  • 박정원
    • 비교문화연구
    • /
    • 제46권
    • /
    • pp.85-112
    • /
    • 2017
  • 미국의 제45대 대통령으로 취임한 도널드 트럼프는 선거캠페인이 시작된 이래로 '영어유일주의'를 천명해 왔다. 이 단일언어 정책은 세계화가 본격화된 1990년대 이후 미국의 인구학적, 문화적 변화에 직면하여 이민자와 다문화주의를 거부하고 토착주의를 강조하는 흐름의 연장선상에 놓여있다. 특히, 미국의 히스패닉화와 스페인어의 성장에 대한 반작용으로 백인중심의 문화와 가치를 고수하려는 시도와 연결되어 있다. 본 논문은 이러한 트럼프의 단일언어주의를 대표적인 라티나 작가인 글로리아 안살두아가 제안하는 '경계의 언어'와 대비시키면서 코드스위칭의 효과와 이중언어 공동체의 가능성을 탐구한다. "경계지대/국경"(1987)에서 안살두아는 하위언어인 스페인어를 텍스트에 포함시키며 자신의 언어적 현실을 드러냄과 동시에, 영어와 스페인어의 교차사용을 통한 번역작업을 시도한다. 다른 한편으로는 번역의 불가능성을 드러내면서 이중언어 사용의 불가피함을 암시하는 한편, 단일언어 독자들에게 타자의 언어와 문화를 이해하고 소통해야할 필요성에 대해 역설한다. 안살두아가 구현하는 '경계의 언어'는 이질적인 민족, 계급, 세대의 언어가 충돌하고 교섭하는 게임의 과정을 통해 생성된다. 고정되기보다는 계속적으로 변화하는 언어적 형태를 통해 안살두아는 단일 언어주의를 넘어서는 새로운 시각과 더불어 다양한 언어들 사이에서 대안적 소통방식의 필요성을 제기한다.

문화콘텐츠로서 포스트드라마 연극의 탈경계적 성격 (Trans-boundary Characteristics of the Post-dramatic Play as a Cultural Content)

  • 송은아
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권4호
    • /
    • pp.157-164
    • /
    • 2019
  • 드라마 연극이 희곡 텍스트를 무대 위에 재현하는데 관심을 두고 있다면, 포스트드라마 연극은 희곡 텍스트로부터 해방된 연극을 지향한다. 이 과정에서 드라마 연극이 만들어놓은 여러 경계들이 해체된다. 배우와 관객, 허구와 현실, 연극과 비연극, 작품과 사건, 언어와 비언어 등이 대표적인 경계의 이름이다. 이러한 경계의 해체는 드라마 연극에 의해서 잊혀졌던 고대 그리스 연극의 축제적 성격을 복원하는 계기가 된다. 이것은 아리스토텔레스 이래로 연극을 지배하였던 언어중심주의, 희곡중심주의를 해체하고 새로운 연극을 지향하게 한다. 언어중심주의, 희곡중심주의가 연극의 위기를 자초했다면, 포스트드라마 연극은 그것들을 해체함으로써 새로운 문화콘텐츠로서 관객과 소통하는 방법을 찾게 한다. 그 방법은 무엇보다 연극성의 회복에서 발견된다. 드라마 연극이 연극성보다 문학성에 종속된 것에 비해서 포스트드라마 연극은 문학성으로부터 해방된 연극성을 지향하고 있기 때문이다. 연극성이 강화된 포스트드라마 연극의 탈경계적 성격은 대중성 획득의 발판이 될 것이며, 이는 포스트드라마 연극의 문화콘텐츠로서의 가능성을 보여준다.

CRF를 이용한 한국어 운율 경계 추정 (Using CRF (Conditional Random Fields) to Predict Phrase Breaks in Korean)

  • 김승원;김병창;정민우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.134-138
    • /
    • 2005
  • 본 논문은 한국어 TTS(Text-To-Speech)에서 운율 경계를 추정하는 문제를 클래스 분류문제로 보고 CRF(Conditional Random Fields)를 적용하여 운율 경계를 추정하였다. 우리는 품사와 운율 경계로 구성된 말뭉치를 사용하여 품사, 어휘, 단어의 길이, 문장에서의 단어 위치와 같은 다양한 속성의 언어적 자질을 추출하여 CRF를 훈련시켰으며, 자질들을 서로 조합하여 최고의 성능을 보이는 자질 집합을 골랐다 또한 가우스 평활 (Gaussian Smoothing)을 적용하여 데이터의 희소성 문제를 줄였다. 실험 결과에서 본 방법이 기존의 방법보다 성능이 좋을 뿐만 아니라 운율 경계를 추정하기 위한 자질을 독립시켰기 때문에 다른 시스템과의 호환성도 높다는 것을 알 수 있었다.

  • PDF

구문 관계와 운율 특성을 이용한 한국어 운율구 경계 예측 (Prediction of Prosodic Break Using Syntactic Relations and Prosodic Features)

  • 정영임;조선호;윤애선;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-14
    • /
    • 2007
  • 본 논문에서는 자연스러운 한국어 운율구 경계를 예측하기 위해 (1) 문장 성분을 하위범주화하고, (2) 세분화된 문장 성분 간 의존관계를 이용하여 통사구를 추출하며 (3) 추출한 통사구의 유형에 따른 운율구 경계 예측 규칙을 설정하였다. 또한, (4) 통사적 정보 외에도 통사구와 문장의 길이, 통사구의 문장 내 위치, 문맥의 의미 정보 등에 따라 가변적인 운율구 경계를 판단하여 보다 자연스러운 한국어 운율구 경계 예측 시스템을 개발하였다. 그 결과 통사구 경계와 상관 관계가 높은 강한 운율구 경계 예측과 운율구 내부 비경계 예측에 있어 90% 이상의 높은 재현율과 정확도를 보였으며, 전체 운율구 경계 예측에 있어서도 87% 이상의 성능을 보였다.

  • PDF

트위터 이용자의 언어권별 자기노출 및 경계 불투과성 (Self-Disclosure and Boundary Impermeability among Languages of Twitter Users)

  • 장필식
    • 한국콘텐츠학회논문지
    • /
    • 제16권4호
    • /
    • pp.434-441
    • /
    • 2016
  • 본 연구에서는 빅데이터 분석기법을 이용하여 트위터 이용자들을 대상으로 언어에 따른 자기노출과 경계불투과성에 대한 양상을 파악하였다. 6개월 동안 5천4백만 명의 트위터 이용자가 작성한 4억여 개의 트윗을 수집하였으며, 이들 중 트윗 수 상위 10개 언어권 이용자의 프로파일 및 관련 데이터를 조사하였다. 이를 통해 트위터 이용자의 언어가 이용자 프로파일, 프로파일 이미지, 지리정보, URL, 사용자 설명 등 자기정보 공개 항목의 공개비율과 경계불투과성에 미치는 영향을 분석하였다. 분석결과, 경계 불투과성과 자기노출 비율(프로파일, 프로파일 이미지, URL, 이용자 설명, 지리정보)은 언어권에 따라 각각 통계적으로 유의한(p<0.001) 차이가 있는 것으로 나타났다. 자기노출 비율과 평균 점수는 포르투갈어, 인도네시아어 및 스페인어 이용자가 아랍어, 일본어, 터키어, 한국어 이용자에 비해 높은 것으로 파악되었다. 또한 리트윗을 포함한 트윗 수가 많은 이용자일수록 경계 불투과성이 높아지는 것으로 나타났다.

동적 심볼릭 수행을 이용한 경계 테스팅 연구 (Boundary Testing research using Dynamic Symbolic Execution)

  • 구근회;최석원;최진영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.429-432
    • /
    • 2016
  • 전통적인 태스팅은 테스트케이스를 만드는데 많은 시간과 비용이 들기 때문에 시기적절한 출시를 해야 하는 휴대전화, TV와 같은 제품을 테스팅하는데 많은 어려움을 겪고 있다. 이러한 문제를 해결하려는 노력으로 관련 학계 및 산업체에서는 동적 심볼릭 수행을 이용한 커버리지가 높은 테스트케이스 자동생성 연구가 진행 중이다. 특히, Microsoft Research에서 만든 동적 심볼릭 수행도구인 PEX는 C#언어로 작성된 웹 또는 윈도우 프로그램의 테스트케이스를 자동 생성한다. 그러나 PEX의 사용자들로부터 테스트케이스가 부족하다는 피드백올 받았고, 그 결과로 경계 값 테스트케이스를 추가하는 연구를 진행하여 경계 값 테스트케이스를 추가하지 않았을 때 보다 더 많은 오류를 찾았다. 본 논문에서는 소프트웨어 오류가 있을 경우 엄청난 재산, 인명 피해가 발생하는 임베디드 소프트웨어 분야에서 자주 사용하는 언어인 C언어를 지원하는 동적 심볼릭 수행 도구 CREST를 수정하여 경계 값 테스트 케이스를 생생하는 연구를 진행한다.

하이브리드 방법을 이용한 개선된 문장경계인식 (Advanced detection of sentence boundaries based on hybrid method)

  • 이충희;장명길;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-66
    • /
    • 2009
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반 하여 개선된 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 음절을 대상으로 학습하여 문장경계 인식을 수행하였고, 문장경계인식 성능을 최대화 하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 다양한 기계학습 기반 분류 모델을 비교하여 최적의 분류모델을 선택하였으며, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 형태의 문서별 성능 측정을 위해서 문어체와 구어체가 복합적으로 사용된 신문기사와 블로그 문서(평가셋1), 문어체 위주로 구성된 세종말뭉치와 백과사전 본문(평가셋2), 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 사이트의 게시판 글(평가셋3)을 대상으로 성능 측정을 하였다. 성능척도로는 F-measure를 사용하였으며, 구두점만을 대상으로 문장경계 인식 성능을 평가한 결과, 평가셋1에서는 96.5%, 평가셋2에서는 99.4%를 보였는데, 구어체의 문장경계인식이 더 어려움을 알 수 있었다. 평가셋1의 경우에도 규칙으로 후처리한 경우 정확률이 92.1%에서 99.4%로 올라갔으며, 이를 통해 후처리 규칙의 필요성을 알 수 있었다. 최종 성능평가로는 구두점만을 대상으로 학습된 기본 엔진과 모든 문장경계후보를 인식하도록 개선된 엔진을 평가셋3을 사용하여 비교 평가하였고, 기본 엔진(61.1%)에 비해서 개선된 엔진이 32.0% 성능 향상이 있음을 확인함으로써 제안한 방법이 웹 문서에 효과적임을 입증하였다.

  • PDF

띄어쓰기 및 문장 경계 인식을 위한 다중 손실 선형 결합 기반의 다중 클래스 분류 시스템 (Multi-class Classification System Based on Multi-loss Linear Combination for Word Spacing and Sentence Boundary Detection)

  • 김기환;서지수;이경열;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-188
    • /
    • 2018
  • 띄어쓰기와 문장 경계 인식은 그 성능에 따라 자연어 분석 단계에서 오류를 크게 전파하기 때문에 굉장히 중요한 문제로 인식되고 있지만 각각 서로 다른 자질을 사용하는 문제 때문에 각각 다른 모델을 사용해 순차적으로 해결하였다. 그러나 띄어쓰기와 문장 경계 인식은 완전히 다른 문제라고는 볼 수 없으며 두 모델의 순차적 수행은 앞선 모델의 오류가 다음 모델에 전파될 뿐만 아니라 시간 복잡도가 높아진다는 문제점이 있다. 본 논문에서는 띄어쓰기와 문장 경계 인식을 하나의 문제로 보고 한 번에 처리하는 다중 클래스 분류 시스템을 통해 시간 복잡도 문제를 해결하고 다중 손실 선형 결합을 사용하여 띄어쓰기와 문장 경계 인식이 서로 다른 자질을 사용하는 문제를 해결했다. 최종 모델은 띄어쓰기와 문장 경계 인식 기본 모델보다 각각 3.98%p, 0.34%p 증가한 성능을 보였다. 시간 복잡도 면에서도 단일 모델의 순차적 수행 시간보다 38.7% 감소한 수행 시간을 보였다.

  • PDF

한국어 SNS 문서에 적합한 문장 경계 인식 (Robust Sentence Boundary Detection for Korean SNS Documents)

  • 염하람;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.532-535
    • /
    • 2021
  • 다양한 SNS 플랫폼이 등장하고, 이용자 수가 급증함에 따라 온라인에서 얻을 수 있는 정보의 활용 가치가 높아지고 있다. 문장은 자연어 처리 시스템의 기본적인 단위이므로 주어진 문서로부터 문장의 경계를 인식하는 작업이 필수적이다. 공개된 문장 경계 인식기는 SNS 문서에서 좋은 성능을 보이지 않는다. 본 논문에서는 문어체로 구성된 일반 문서뿐 아니라 SNS 문서에서 사용할 수 있는 문장 경계 인식기를 제안한다. 본 논문에서는 SNS 문서에 적용하기 위해 다음과 같은 두 가지를 개선한다. 1) 학습 말뭉치를 일반문서와 SNS 문서 두 영역으로 확장하고, 2) 이모티콘을 사용하는 SNS 문서의 특징을 반영하는 어절의 유형을 자질로 추가하여 성능을 개선한다. 실험을 통해서 추가된 자질의 기여도를 분석하고, 또한 기존의 한국어 문장 경계 인식기와 제안한 모델의 성능을 비교·분석하였다. 개선된 모델은 일반 문서에서 99.1%의 재현율을 보이며, SNS 문서에서 88.4%의 재현율을 보였다. 두 영역 모두에서 문장 경계 인식이 잘 이루어지는 것을 확인할 수 있었다.

  • PDF