• 제목/요약/키워드: 어순

검색결과 179건 처리시간 0.025초

한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축 (Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis)

  • 이수선;박현재;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

접사 구조 분석과 기계 학습에 기반한 한국어 의미 역 결정 (Korean Semantic Role Labeling Based on Suffix Structure Analysis and Machine Learning)

  • 석미란;김유섭
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.555-562
    • /
    • 2016
  • 의미 역 결정은 한 문장에서 술어와 그것의 논항간의 의미 관계를 결정해주는 것을 말한다. 한편 한국어 의미 역 결정은 영어와는 다른 한국어 고유의 특이한 언어 구조 때문에 많은 어려움을 가지고 있는데, 이러한 어려움 때문에 지금까지 제안된 다양한 방법들을 곧바로 적용하기에 어려움이 있었다. 다시 말하자면, 지금까지 제안된 방법들은 영어나 중국어에 적용했을 때에 비해서 한국어에 적용하면 낮은 성능을 보여주었던 것이다. 이러한 어려움을 해결하기 위하여 본 연구에서는 조사나 어미와 같은 접사구조를 분석하는 것에 초점을 맞추었다. 한국어는 일본어와 같은 교착어의 하나인데, 이들 교착어에서는 매우 잘 정리되어 있는 접사구조가 어휘에 반영되어 있다. 교착어는 바로 이들 잘 정의된 접사 구조 때문에 매우 자유로운 어순이 가능하다. 또한 본 연구에서는 단일 형태소로 이루어진 논항은 기초 통계량을 기준으로 의미 역 결정을 하였다. 또한 지지 벡터 기계(Support Vector Machine: SVM)과 조건부 무작위장(Conditional Random Fields: CRFs)와 갗은 기계 학습 알고리즘을 사용하여 앞에서 결정되지 못한 논항들의 의미 역을 결정하였다. 본 논문에서 제시된 방법은 기계 학습 접근 방식이 처리해야 하는 논항의 범위를 줄여주는 역할을 하는데, 이는 기계 학습 접근은 상대적으로 불확실하고 부정확한 의미 역 결정을 하기 때문이다. 실험에서는 본 연구는 15,224 논항을 사용하였는데, 약 83.24%의 f1 점수를 얻을 수 있었는데, 이는 한국어 의미 역 결정 연구에 있어서 해외에서 발표된 연구 중 가장 높은 성능으로 알려진 것에 비해 약 4.85%의 향상을 보여준 것이다.

필름 스피커 적용을 위한 PZT/polymer 복합체의 후막 제조 및 압전 특성 평가

  • 손용호;어순철;김성진;권성열;권순용
    • 한국전기전자재료학회:학술대회논문집
    • /
    • 한국전기전자재료학회 2007년도 추계학술대회 논문집
    • /
    • pp.346-346
    • /
    • 2007
  • 압전세라믹 재료는 현재 압전 변압기, actuator, transducer, sensor, speaker 등에 광범위하게 이용이 되고 있다. 이 중에서 압전세라믹 소결체를 이용한 스피커의 제조는 가공이 까다롭고, 대형의 크기로 제작 시 소자가 깨지는 등의 많은 제약을 받고 있으며, 저음 특성이 떨어져 응용 범위가 한정되어 있다. 따라서 최근에는 이러한 단점을 극복하기 위하여 세라믹/고분자 복합체를 이용한 필름 스피커를 제작하고자 시도하고 있다. 이러한 세라믹/고분자 0-3형 압전 복합체를 이용할 경우, 제품의 경량화를 실현할 수 있고, 크기나 환경의 영향을 거의 받지 않으므로, 고기능성 스피커로의 응용에 적합할 것으로 보인다. 따라서 본 연구에서는 PZT계의 세라믹와 PVDF, PVDF-TrFE, Polyester, acrylic resin 등의 여러 고분자 물질과의 복합체를 제조하여 압전특성을 평가하였다. 본 실험은 먼저 $(Pb_{1-a-b}Ba_aCd_b)(Zr_xTi_{1-x})_{1-c-d}(Ni_{1/3}Nb_{2/3})_c(Zn_{1/3}Nb_{2/3})_dO_3$ (이하 PZT라 표기)의 최적화 조성을 선택하여, $1050^{\circ}C$에서 소결된 분말을 48시간 ball milling방법 로 약 $1{\mu}m$ 크기로 분쇄하였다. 고분자 물질들은 알맞은 용제들을 선택하여 녹였다. 그 다음 소결된 PZT분말과 고분자를 50:50, 60:40, 65:35, 70:30등의 무게 분율로 혼합하고, 분산제, 소포제 등을 첨가하여 3단 roll mill을 이용하여 충분히 분산시켜 페이스트 (Paste)를 제조하였다. 제조된 페이스트를 ITO가 코팅된 PET필름 위에 스크린 프린팅 법을 사용하여 인쇄하여 $120^{\circ}C$에서 5분간 건조하였다. 코팅된 복합체의 두께는 약 $80{\mu}m$ 정도로 측정되었다. Ag 페이스트를 이용한 상부 전극 형성에도 스크린 프린팅 법을 적용하였다. 이를 $120^{\circ}C$에서 4 kV/mm의 DC 전계로 분극 공정을 수행한 후 전기적 특성을 평가하였다. 유전특성을 조사하기 위해서 LCR meter (EDC-1620)를 사용하였고, 시편의 결정구조는 XRD (Rigaku; D/MAX-2500H)을 통해 분석하였으며, 전자현미경(SEM)을 이용하여 미세구조를 분석하였다. 압전 전하상수$(d_{33})$ 값은 APC 8000 모델을 이용하여 측정하였다. PZT의 혼합비가 증가할수록 비유전율 및 압전 전하 상수 등의 전기적 특성이 증가되었다. 또 여러 고분자 물질 중에서 PVDF-TrFE 수지가 가장 우수한 특성을 보였다. 이는 PVDF-TrFE 수지가 압전성을 나타내기 때문인 것으로 판단되었다.

  • PDF

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

한국어 목적격조사의 몽골어 격 어미 번역 (Translation of Korean Object Case Markers to Mongolian's Suffixes)

  • ;신준철;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권2호
    • /
    • pp.79-88
    • /
    • 2019
  • 최근 기계 번역에 관한 연구들이 활발하게 이루어지고 있고 한국어와 몽골어 간의 상호 기계 번역 시스템도 개발되고 있다. 한국어와 몽골어는 계통적으로 같은 어족에 속하며 '주어+목적어+서술어'라는 비교적 자유로운 어순을 가지는 언어이고 어미와 조사가 발달한 것이 그 특징이다. 따라서 기계 번역 시 양언어의 조사나 어미의 의미를 잘 번역하는 것이 중요하다. 그러나 한국어 목적격 조사를 몽골어로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한 가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 본 논문에서는 이러한 문제점을 개선하기 위하여 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 하여 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안하는 방법에서는 한국어 목적격 조사에 대응하는 몽골어 격 어미들을 살펴보고 데이터 테이블을 설계하여 적절한 격 어미를 결정한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 목적격 조사를 바로 대격 어미로 번역한 유태거의 정확률은 46.9%인데 반해 본 논문에서 제안한 방법은 88.38%로 제안한 방법이 41.48%p 더 우수한 결과를 보였다.

한자(漢字)의 언어적 특성과 『논어(論語)』 읽기 (The linguistic characteristics of Chinese character and Reading for the Analects of Confucius)

  • 김상래
    • 한국철학논집
    • /
    • 제30호
    • /
    • pp.191-225
    • /
    • 2010
  • 이 논문은 한자(漢字)의 다의성(多義性)과 품사(品詞)의 비결정성(非決定性)에 초점을 맞추어 "논어(論語)" 해독을 시도하였다. 먼저, 이 글은 한자가 인간과 세계에 대한 문제를 표현하는 사유의 언어(다른 말로 철학언어)로서 제 기능을 할 수 있는가? 는 물음에 대한 본격적인 논의를 전개하였다. 16세기 마테오 리치는 보편적인 '표의문자체(ideographic script)'의 가능성을 한자에서 발견하려고 노력함으로써 이 물음에 긍정적인 답변을 제시하였다. 반면, 헤겔과 하이데거 등은 한자는 첫째, 전치사와 관사가 없는 언어체계이며, 둘째, 이중의미, 반대의미를 표시하는 단어가 없으며, 셋째, 어형변화 없이 어순에 의해서만 의미를 표현, 전달하기 때문에 복잡한 인간의 사유와 엄밀한 논리를 표현하는 철학 언어로서 부적합하다고 주장한다. 그러나 카시러와 울만, 소쉬르, 그리고 데리다 등의 언어관을 경유하면서, 우리는 헤겔과는 다른 입장에서 한자의 사유언어로서의 기능을 발견할 가능성을 확인한다. 서양의 언어체계와 달리 한자는 언제나 개별적으로 존재하는 단어들의 의미 보다 문맥에서의 언어 기능이 보다 중요하다. 한자는 고유의 품사를 감추고, 다른 문자들과의 관계망 속에서 어떤 사건과 사물의 의미를 표현하면서 자신의 본색을 드러낸다. 한자는 이른바 '불가결정성(indecidability)'의 언어인 것이다. 이러한 한자의 다의성과 품사의 부재는 바로 '불가결정성'에 기인한다. 이렇게 본다면, 비록 전치사, 관사, 어형변화, 품사 등을 결여하는 있는 문자체계일지라도 '다의(多義)'의 특성을 지닌 한자는 인간의 복잡한 사유를 나름의 방식으로 표현하는 철학언어로서 충분한 기능을 할 수 있는 것이다. 이를 토대로 "논어(論語)"읽기의 다양성을 담보할 수 있을 것이다.

한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구 (A Study of Pre-trained Language Models for Korean Language Generation)

  • 송민채;신경식
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.309-328
    • /
    • 2022
  • 본 연구는 자연어처리의 분석목적과 추론데이터 성격에 적합한 한국어 사전훈련 언어모델의 특성을 실증분석했다. 이를 위해 자연어생성이 가능한 대표적 사전훈련 언어모델인 BART와 GPT 모델을 실험에 사용했다. 구체적으로 한국어 텍스트를 BART와 GPT 모델에 학습한 사전훈련 언어모델을 사용해 문서요약 생성 성능을 비교했다. 다음으로 추론데이터의 특성에 따라 언어모델의 성능이 어떻게 달라지는지 확인하기 위해 6가지 정보전달성과 4가지 창작물 유형의 한국어 텍스트 문서에 적용했다. 그 결과, 모든 문서유형에서 인코더와 디코더가 모두 있는 BART의 구조가 디코더만 있는 GPT 모델보다 더 높은 성능을 보였다. 추론데이터의 특성이 사전훈련 언어모델의 성능에 미치는 영향을 살펴본 결과, KoGPT는 데이터의 길이에 성능이 비례한 것으로 나타났다. 그러나 길이가 가장 긴 문서에 대해서도 KoGPT보다 KoBART의 성능이 높아 다운스트림 태스크 목적에 맞는 사전훈련 모델의 구조가 자연어생성 성능에 가장 크게 영향을 미치는 요소인 것으로 나타났다. 추가적으로 본 연구에서는 정보전달성과 창작물로 문서의 특징을 구분한 것 외에 품사의 비중으로 문서의 특징을 파악해 사전훈련 언어모델의 성능을 비교했다. 그 결과, KoBART는 어미와 형용사/부사, 동사의 비중이 높을수록 성능이 떨어진 반면 명사의 비중이 클수록 성능이 좋았다. 반면 KoGPT는 KoBART에 비해 품사의 비중과 상관도가 낮았다. 이는 동일한 사전훈련 언어모델이라도 추론데이터의 특성에 따라 자연어생성 성능이 달라지기 때문에 다운스트림 태스크에 사전훈련 언어모델 적용 시 미세조정 외에 추론데이터의 특성에 대한 고려가 중요함을 의미한다. 향후 어순 등 분석을 통해 추론데이터의 특성을 파악하고, 이것이 한국어 생성에 미치는 영향을 분석한다면 한국어 특성에 적합한 언어모델이나 자연어생성 성능 지표 개발이 가능할 것이다.

『청음록(晴陰錄)』으로 본 (사(社))유도회(儒道會) 약사(略史) (Outline History of Corporation Yudohoi(儒道會) via 『Cheongeumrok(晴陰錄)』 by Hong Chan-Yu: "Volume of Materials")

  • 정후수
    • 동양고전연구
    • /
    • 제55호
    • /
    • pp.265-291
    • /
    • 2014
  • "청음록(晴陰錄)"은 권우 홍찬유(1915-2005) 선생의 일기(1969년 1월 9일~1982년 1월 14일)이다. 선생은 사단법인 유도회의 창립부터 모든 운영에 직접관여하였으므로 유도회의 역사를 가장 잘 알고 있는 분이다. 따라서 이 "청음록"은 유도회 역사를 정리하는데 적합한 자료로서 충분한 가치가 있다고 본다. "청음록"은 모두 19권으로 구성되었으며, 총 분량은 200자 원고지 3,300매 정도이다. 일기 작성은 한문으로 되어있으며, 한문 문장으로 썼으되 한글 문장 어순을 따르기도 하였다. 그리고 원문의 많은 부분이 초서(草書)로 씌어있고, 또 중간 중간에 많은 한시(漢詩)가 삽입되어 있다. 이 원고는 일기 중에서 사단법인 유도회에 관련된 주요사항만을 발췌한 것이다. 1. 사단법인은 1968년 11월 창립 발기인대회를 열고 이듬해 1969년 1월에 문공부로부터 인가를 받아 설립되었다(문화부장관 허가번호 제다-2-3호(종무 1732.5). 2. 사무실은 처음 서울 종로구 원남도 133-1 원남빌딩 3층(현 서울대병원 앞 대학약국 자리)에서, 종로구 관수동 경보빌딩 2층, 다시 종로구 예지동 4번지 광장회사 388호실(흥산친목회(興産親睦會) 사무실)로 이전, 이후 경운동 건국빌딩 3층으로 이전하였다. 3. 운영비 조달은 성종호 이사장의 장남 성상영의 지원, 후에는 차기 이사장인 김원태, 권태훈이 담당하였으며, 1979년부터는 홍찬유 이사가 부담하였다. 3. 유림 활동으로는, 성균관 석전제(釋奠祭) 참가를 비롯하여, 파리장서비건립(巴里長書碑建立) 및 건립 기념시집 발간, 유림독립운동사 열전편찬(미완), 가정의례준칙 제정에 실천위원으로 참가하였다. 4. 성균관과의 분쟁이 있었으나, 1975년 7월 고법, 1976년 2월 대법에서 패소하였다. 5. 성균관 유도회와 통합에 관한 의논이 있기는 하였으나 거의 진척이 없었다. 6. 1979년부터 본격적인 유교 경서 및 한문 강좌를 홍찬유 이사가 주도하여 현재까지 지속되고 있다. 현재 일반 시민 강좌를 비롯하여, 장학생 강좌가 30년을 맞이하고 있으며, 수료생이 220명에 달하고 있다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.