• 제목/요약/키워드: 문장 구성

검색결과 641건 처리시간 0.027초

한국어 문장 임베딩의 언어적 속성 입증 평가 (A Probing Task on Linguistic Properties of Korean Sentence Embedding)

  • 안애림;고병일;이다니엘;한경은;신명철;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.161-166
    • /
    • 2021
  • 본 연구는 한국어 문장 임베딩(embedding)에 담겨진 언어적 속성을 평가하기 위한 프로빙 태스크(Probing Task)를 소개한다. 프로빙 태스크는 임베딩으로부터 문장의 표층적, 통사적, 의미적 속성을 구분하는 문제로 영어, 폴란드어, 러시아어 문장에 적용된 프로빙 테스크를 소개하고, 이를 기반으로하여 한국어 문장의 속성을 잘 보여주는 한국어 문장 임베딩 프로빙 태스크를 설계하였다. 언어 공통적으로 적용 가능한 6개의 프로빙 태스크와 한국어 문장의 주요 특징인 주어 생략(SubjOmission), 부정법(Negation), 경어법(Honorifics)을 추가로 고안하여 총 9개의 프로빙 태스크를 구성하였다. 각 태스크를 위한 데이터셋은 '세종 구문분석 말뭉치'를 의존구문문법(Universal Dependency Grammar) 구조로 변환한 후 자동으로 구축하였다. HuggingFace에 공개된 4개의 다국어(multilingual) 문장 인코더와 4개의 한국어 문장 인코더로부터 획득한 임베딩의 언어적 속성을 프로빙 태스크를 통해 비교 분석한 결과, 다국어 문장 인코더인 mBART가 9개의 프로빙 태스크에서 전반적으로 높은 성능을 보였다. 또한 한국어 문장 임베딩에는 표층적, 통사적 속성보다는 심층적인 의미적 속성을 더욱 잘 담고 있음을 확인할 수 있었다.

  • PDF

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법 (Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2021
  • 본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.

워드프로세서의 영어문장 어법오류 인식개선을 통한 영어구문작성 향상방안에 대한 연구 (A Study on the improvement of English writing by applying error indication function in word processor)

  • 이재일
    • 디지털융복합연구
    • /
    • 제18권2호
    • /
    • pp.285-290
    • /
    • 2020
  • 본 연구는 워드프로세서를 사용하여 영어텍스트구문을 작성하는 사용자들의 영어작문능력을 개선하는 방안을 제시하고자 한다. 컴퓨터와 IT기술의 발달로 영어작문능력 향상을 위한 컴퓨터보조언어학습이 보편적으로 사용되고 있다. 기존의 프로그램들은 일부 단어의 철자, 접속사의 필요성, 주어-동사의 수일치 등과 같은 몇몇 문법오류사항을 인식하여 표시해주는 기능이 있다. 그러나 사용자가 작성한 영어문장의 적절성에 대한 소수의 오류사항을 알려주고 있지만 영어문장에서 가장 흔하게 사용되고 있는 명사구성립의 적법성에 대한 오류인식은 하지 못하고 있다. 따라서 본 연구는 기존 워드프로세서의 문장오류인식 프로세스에 명사구성립인식 기능을 추가하여 더 나은 오류인식기능을 갖추도록 개선하여 사용자 편의성 및 문장적법성을 향상시키는 방안을 제시한다. 제안 방법은 문장 내에 사용된 명사를 추적하여 해당 명사가 문장요소로 사용되기 위한 최소단위인 명사구성립 여부를 확인하고 그에 따라 오류표기를 하여 사용자가 인식할 수 있도록 해준다. 사용자는 오류사항에 대한 인식을 통해 자신이 작성한 텍스트의 문장 적법성을 확인하고 수정하면서 문장작성 능력 및 적절한 어법의 사용에 대한 이해도가 증가할 것이라 판단된다.

개념그래프 기반 문서인식 후처리기법 (A Conceptual Graph based Postprocessing Technique for Text Recognition)

  • 양기철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.211-214
    • /
    • 1994
  • 지금까지의 후처리기법은 문장의 의미 정보를 사용하지 않고 대부분 단어만을 생각하기 때문에 잘못 쓰여지거나 인식된 단어라도 사전에 있으면 그대로 받아들이게 된다. 따라서 본 논문에서는 단어로서 구성이 되지 않는 문자열 뿐만 아니라 의미적으로 잘못 사용된 단어까지도 교정해 줄 수 있는 후처리기법을 제시한다. 제시되는 후처리기법은 문장의 의미론 개념그래프로 표현하여 문장에 쓰여진 각 단어가 문장 내에서 의미적으로 유용한지를 밝혀 낼 수 있도록 한다.

  • PDF

데이빗슨의 Slingshot 논변은 진리대응론을 논박하는가?

  • 이병덕
    • 논리연구
    • /
    • 제4권
    • /
    • pp.109-123
    • /
    • 2000
  • 데이빗슨은 "Slingshot 논변"이라는 그의 유명한 논변을 이용하여 진리 대응론을 비판한다. 그의 논변은 타당하지만, 다음 두 전제들에 의존한다. (1) 논리적으로 동치인 문장들은 같은 사실에 대응한다. (2) 참인 문장은 그 문장 내의 한 단칭어가 공지시적 단칭어에 의해 대체될 때 대응하는 사실이 변하지 않는다. 이 논문에서 필자는 두 번째 전제가 설득력이 없음을, 특히, Slingshot 논변의 구성을 위해 필수적인 통일성 문장들에 대해서 설득력이 없음을 주장한다.

  • PDF

심층신경망을 활용한 제어가능 말뭉치 시각화 기법 (Constrained Corpus visualization using neural network)

  • 정지수;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.389-393
    • /
    • 2020
  • 말뭉치를 구성하고 있는 문장들 사이의 관계가 반영된 시각화는 말뭉치 전체의 구조나 유사의미 문장군의 분포 등을 파악하는데 매우 유용하게 활용될 수 있다. 본 연구에서는, 유사한 의미를 가지는 문장들은 서로 가까이에 분포하도록 시각화되어야 한다는 제어조건을 사용자가 제공했을 때, 해당 조건이 만족되도록 2차원 공간에 말뭉치의 각 문장을 시각화하는 기법을 소개한다.

  • PDF

PC통신과 웹에서 지역알림정보의 작성을 돕는 전문가적인 서비스 모형에 관한 연구: 지역주민의 견문을 중심으로 (Expertise Service Model Aiding Local Information Writing on the Web)

  • 이태영
    • 정보관리학회지
    • /
    • 제16권1호
    • /
    • pp.89-117
    • /
    • 1999
  • 지역정보 쓰기에서 이용자들을 돕기 위해 (1) 글 구조, (2) 단락 구성, (3) 문장 작성, (4) 어휘 구사에 대한지식을 글 분석을 통해 연구하였다. 글 구상과 단락 구성을 각각 도와주는 글틀과 단락틀 지식베이스가 고안되었고 단어, 절, 문장의 구현에 필요한 단어와 절 및 문장의 예들을 모은 사전 데이터베이스도 만들었다. 서비스의 질을 높이기 위해 전문가 지향적인 시스템을 추구하였다. PC통신과 웹에서 실용적인 시스템이 되려면 앞으로 (1) 글틀과 단락틀의 주제 추출, (2) 문장의 대표어 작성, (3) 각종 규칙의 정제, (4) 정밀한 지식베이스 구축이 필수적이라고 사려된다.

  • PDF

반전역(Semi-Global) 문자 정열을 이용한 비속어 수집 기법 (A Collecting Method for Swear Words Using Semi-Global Text Alignment)

  • 김성환;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.414-417
    • /
    • 2011
  • 단어 필터링 기법의 개발에 있어서 가장 큰 난제는 정상단어를 금지어로 인식하여 이를 차단하는 오탐지 문제이다. 이를 방지하기 위하여 다양한 문장에 대한 면밀하고 광범위한 검사가 필수적이나 일반적으로 쉽게 접근할 수 있는 데이터는 주로 단어 위주로 구성된 검증 데이터로 문장 또는 구절로 구성된 데이터의 양은 실제 검증에 활용하기에는 충분하지 못하다. 본 논문에서는 웹에서 수집한 방대한 양의 말뭉치 데이터에 반전역정열(Semi-Global Alignment)을 적용하여 주어진 금지어가 사용되거나 금지어와 유사한 단어가 존재하는 구간을 탐색함으로써 단어 필터링 시스템에서 범용적으로 사용될 수 있는 문장형 평가 데이터를 수집하는 시스템을 제안하고 해당 기법을 통하여 수집한 문장 단위 데이터를 분석하고 단어 필터링 시스템이 오탐지 방지를 위해 가져야할 요소들에 대하여 검토해 본다.

하이퍼 수화문장을 사용한 수화 생성 시스템 (Sign Language Avatar System Based on Hyper Sign Sentence)

  • 오영준;박광현;장효영;김대진;정진우;변증남
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.621-624
    • /
    • 2006
  • 본 논문은 기존의 수화 발생 시스템이 갖는 처리 성능의 한계와 신체요소의 움직임에 대한 문제점을 지적하고, 이를 개선하기 위해 하이퍼 수화문장을 제안한다. 하이퍼 수화문장은 기존 수화문장의 구조를 확장하여 수화단어와 신체효소의 동작기호로 구성된 수화문장이다. 제안한 하이퍼 수화문장 생성 방법에 따라 하이퍼 수화어절을 연결하여 수화동작을 합성하고 수화문장에 대한 아바타의 움직임을 실제 수화자와 유사하게 생성하는 시스템을 보인다.

  • PDF

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기 (Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF