• 제목/요약/키워드: 통사정보

검색결과 177건 처리시간 0.021초

The Ability of L2 LSTM Language Models to Learn the Filler-Gap Dependency

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.27-40
    • /
    • 2020
  • 본 논문은 장단기기억신경망(LSTM)이 영어를 배우면서 학습한 암묵적 통사 관계인 필러-갭 의존 관계를 조사하여 영어 문장 학습량과 한국인 영어 학습자(L2ers)의 문장 처리 패턴 간의 상관관계를 규명한다. 이를 위해, 먼저 장단기기억신경망 언어모델(LSTM LM)을 구축하였다. 이 모델은 L2ers가 영어 학습 과정에서 잠재적으로 배울 수 있는 L2 코퍼스의 영어 문장들로 심층학습을 하였다. 다음으로, 이 언어 모델을 이용하여 필러-갭 의존 관계 구조를 위반한 영어 문장을 대상으로 의문사 상호작용 효과(wh-licensing interaction effect) 즉, 정보 이론의 정보량인 놀라움(surprisal)의 정도를 계산하여 문장 처리 양상을 조사하였다. 또한 L2ers 언어모델과 상응하는 원어민 언어모델을 비교 분석함으로써, 두 언어모델이 문장 처리에서 필러-갭 의존 관계에 내재된 추상적 구문 구조를 추적할 수 있음을 보여주었을 뿐만 아니라, 또한 선형 혼합효과 회귀모델을 사용하여 본 논문의 중심 연구 주제인 의존 관계 처리에 있어서 원어민 언어모델과 L2ers 언어모델간 통계적으로 유의미한 차이가 존재함을 규명하였다.

한국어 특성을 고려한 감성 분류 (Sentiment Classification considering Korean Features)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권3호
    • /
    • pp.449-458
    • /
    • 2010
  • 다양한 분야에서 인터넷 상의 방대한 양의 문서 혹은 리뷰로부터 유용한 정보를 얻고자 하는 노력이 높아짐에 따라 문서 혹은 리뷰 상의 생각 및 의견에 대한 자동 분류 연구의 필요성이 대두되었다. 이러한 자동분류를 감성 분류라 하며, 감성 분류 연구는 크게 세 가지 단계를 가지는데, 첫 번째로 주관적인 생각이나 느낌을 표현하는 문장을 추출하기 위한 주관성 분류 연구, 두 번째로 문서 또는 문장을 긍정, 부정으로 나누는 극성 분류 연구, 그리고 세 번째로 문서 또는 문장이 어느 정도의 주관성 및 극성을 갖는지 그 강도를 구하는 강도 분류 연구이다. 최근 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용하는 것을 확인할 수 있다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 이용한 많은 연구가 이루어져 왔다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한편, 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하였다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

In Vitro 소화시 lgy항체 활성의 안정성에 대한 계란 성분의 효과 (Effect of Eff Component on Stability of IgY Antibody Acitivity to In Vitro Digestion)

  • 이승배;최석호
    • 한국축산식품학회지
    • /
    • 제20권4호
    • /
    • pp.303-310
    • /
    • 2000
  • In vitro 소화시 계란 성분이 anti-Y ruckeri IgY 항세 활성을 안정화시키는데 어떡해 관여하는지를 SDS-PAGE와 ELISA로 조사한 결과는 다음과 같다. Anti-Y ruckeris IgY 항체와 난황 및 난백으로 혼합 후 펩신으로소화시킨 후 경우 1시간 후 난황 및 난백이 혼합된 시료에서 모두 anti-Y ruckeri IgY 항체의 heavy chain과 light chain이 분해는 되었지만 어느 정도 밴드를 관찰할 수있었으며, anti-Y, ruckeri IgY 항체 활성 측정한 결과 난황시료는 35%, 난백시료는 61%의 항체 활성을 유지시켰다. Anti-Y ruckeri IgY 항체와 오보알부민, 오보뮤우신, 라이소자임 및 오보뮤코이드를 혼합 한 후 펩신으로 소화시킨 경우 1시간 우에는 anti-Y, ruckeri IgY항체의 heavy chain의 밴드르 fdjsm 정도 볼 수 있는 형태로 나타났으며, anti-Y, ruckeri IgY 항체의 light chain는 오보뮤우신 및 오보뮤코이드가 홉합되어 펩신으로 소화시킨 경우 1시간 후에는 밴드를 거의 볼수 없었으나 오보알부민 오보트란스훼린 및 라이소자임에 혼합된 시료에서 밴드를 관찰할수 있었다. 특히 라이소자임과 오보트란스훼린의 경우 펩신 호화 2시간 우에도 anti-Y, ruckeri IgY 항체의 light 밴드가 관찰되었다. 펩신소화 1시간 후에 난백성분이오보알부민, 오보뮤우신, 라이소자임, 오보트란스웨린 및 오부뮤코이드 중에서 단지 오보트란스훼린만이 38%의 anti-Y, ruckeri IgY 항체 활서을 보인후 2시간 후에도 15% 정동의 활성을 나타내었다. anti-Y, ruckeri IgY항체와 난백 및 전란을 혼합한 다음 무지개송어 위 추출액으로 소화시 2시간 후에 난백은 14%, 전란은 69%로 anti-Y, ruckeri IgY 항체 활성을 유지시킨 것으로 나타났다.X> $e_{I}$ WPi_BE_QE]]]]]로 상징하며 WLWQ에 적용되는 몇 가지 제약을 관찰하고 이를 일반적인 언어원리로 설명한다. 첫째, XP는 주어로만 해석되는데 그 이유는 XP가 목적어 혹은 부가어 등 다른 기능을 할 경우 생략 부위가 생략의 복원 가능선 원리 (the deletion-up-to recoverability principle)를 위배하기 때문이다. 둘째, WLWQ가 내용 의문문으로만 해석되는데 그 이유는 양의 공리(the maxim of quantity: Grice 1975) 때문이다. 평서문으로 해석될 경우 WP에 들어갈 부분이 XP의 자질의 부분집합에 불과하므로 명제가 아무런 정보제공을 하지 못한다. 반면 의문문 자체는 정보제공을 추구하지 않으므로 앞에서 언급한 양의 공리로부터 자유롭다. 셋째, WLWQ의 XP는 주제어 표지 ‘는/-은’을 취하나 주어표지 ‘가/-이’는 취하지 못한다(XP-는/-은 vs. XP-가/-이). 이는 IP내부 에 비공범주의 존재 여부에 따라 C의 음운형태(PF)가 시성이 정해진다는 가설로 설명하고자 했다. WLWQ에 대한 우리의 논의가 옳다면, 본 논문은 다음과 같은 이론적 함의를 기닌다. 첫째, WLWQ의 존재는 생략에 대한 두 이론 즉 LF 복사 이론과 PF 삭제 이론 중 전자의 입장을 지지한다. 둘째, WP를 XP로부터 복원할 때 부분 자질만 복사된다. 이는 어휘가 통사층위로 들어온 이후에도 어휘 자질들이 완전히 동결되는 것이 아니라 계속 지시될 수 있다는 가설을 지지한다.

  • PDF

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

한국 설화문에서의 화제표현의 연속성 (Topic Continuity in Korea Narrative)

  • 정희자
    • 인지과학
    • /
    • 제2권2호
    • /
    • pp.405-428
    • /
    • 1990
  • 언어는 정보교환이라는 사회적 기능을 가지고 있다. 60년대 이래로 언어학자들의 관심이 언어의 정보전달 기능, 즉 어떠한 의미가 어떤 형식을 통하여 어떻게 전달되는가 하는, 의미, 형식, 기능의 관계에 점차 집중되게 되었다. 이러한 관계는 문장분석보다는 담화분석을 통하여 더욱 명백하게 파악된다. 본 연구는 한국 설화문에서 사용되는 화제표현의 방법과 표현된 화제의 연속성을 측정함으로 효율적인 정보교환의 방법을 살펴보았다. 분석된 문법구조들은 영대용, 인칭대명사, 지시대명사, 고유대명사, 지시사 뒤에 오는 명사, 소유격을 따르는 명사, 한정적 명사 그리고 비한정적 명사, 모두 8가지이다. 본 연구의 결과를 다음과 같이 요약할수 있다. 첫째, 한국 설화문에서 '인간임'(humanness)이 가장 강한 화제의 연속성을 나타낸다. 인간지시 논항들은 주로 행위자 또는 경엄자를 나타내기 때문에 절이난 담화의 화제역학을 한다. 둘째, 이들 문법구조들은 각기 다른 화제표현의 연속성 정도를 나타낸다. 연속성 정도가 높은 구조일수록 표현이 간단하며, 연속성의 정도가 낮을수록 표현이 복잡하다. 셋째, 화제표현의 연속성은 구조들의 통사적 특성 이외에 사회적문화적 요인들과 작가의 화용상의 목적 등에 좌우되기도 한다. 마지막으로, 실질적인 정보교환의 방법을 파악하기 위하여, 구어체와 문어체 담화문을 비교분석하여 화제표현의 효율적 방법을 고찰할 것을 제의한다.

고내후성 활엽수종의 추출성분을 이용한 신기능성 물질의 분리 및 생리활성 (Bioactivities and Isolation of Functional Compounds from Decay-Resistant Hardwood Species)

  • 배영수;이상용;오덕환;최돈하;김영균
    • 임산에너지
    • /
    • 제19권2호
    • /
    • pp.93-101
    • /
    • 2000
  • 아까시나무의 목질부와 현사시나무, 물푸레나무 및 느릅나무의 수피를 채취하여 아세톤-물 혼합용액(7:3, v/v) 으로 추출한 후 hexane, chloroform, ethylacetate 및 수용성으로 분획하고 동결건조하여 분말로 조제한 후 메탄올-물 등의 용리용매로 Sephadex LH-20 칼럼에서 크로마토그래피를 수행하였다. 물푸레나무에서는 aesculitin 및 그 파생물인 fraxetin 등 다량의 쿠마린 화합물과 에스테르화합물을 단리하였으며, 느릅나무로부터 C-7에 xylopyranose와 apiofuranose와 같은 5탄당이 결합된(+)-catechin 배당체 화합물과 procyanidn B-3를 단리하였다. 아까시나무에서는 leucorobinetinidin의 C-4에 ethoxyl 기가 결합된 flavan 유도체 화합물과 robinetin 등의 flavanonol 화합물을 단리하였다. 현사시나무에서는 taxifolin 등의 후라보노이드 화합물과 배당체인 sakuranetin-5-O-glucopyranoside를 단리하였으며 살리신 유도체인 salireposide 등을 단리하였다. 내후성 시험에서는 목재블록에 부후균을 접종하여 배양한 후 중량감소를 측정하는 방법과 목분-agar 배지에 부후균을 접종한 후 균사의 생장 직경을 측정하는 방법을 적용하였다. 아까시나무가 다른 시룓르보다 우수한 활성을 나타내었으며 특히 메탄올 추출머리를 하지 않은 시료가 처리한 시료보다 좋은 균사생장 저해효과를 나타냈다. 항산화 활성 시험에서는 물푸레나무의 에틸아세테이트 분획이 가장 높은 활성을 보였으며, 아까시나무의 에틸아세테이트 분획도 비교적 높은 효과를 나타내었고, 이 두 분획으로부터 단리된 주요 단리화합물에 대해서는 물푸레나무의 aesculetin이 가장 높았으며 아까시나무의 robinetinidin도 비교적 좋은 효과를 나타냈다.)나 틈새시장(niche market) 마케팅 등에 적용 가능하리라 여겨진다.된다.다.산물로 판단되었다.징하며 WLWQ에 적용되는 몇 가지 제약을 관찰하고 이를 일반적인 언어원리로 설명한다. 첫째, XP는 주어로만 해석되는데 그 이유는 XP가 목적어 혹은 부가어 등 다른 기능을 할 경우 생략 부위가 생략의 복원 가능선 원리 (the deletion-up-to recoverability principle)를 위배하기 때문이다. 둘째, WLWQ가 내용 의문문으로만 해석되는데 그 이유는 양의 공리(the maxim of quantity: Grice 1975) 때문이다. 평서문으로 해석될 경우 WP에 들어갈 부분이 XP의 자질의 부분집합에 불과하므로 명제가 아무런 정보제공을 하지 못한다. 반면 의문문 자체는 정보제공을 추구하지 않으므로 앞에서 언급한 양의 공리로부터 자유롭다. 셋째, WLWQ의 XP는 주제어 표지 ‘는/-은’을 취하나 주어표지 ‘가/-이’는 취하지 못한다(XP-는/-은 vs. XP-가/-이). 이는 IP내부 에 비공범주의 존재 여부에 따라 C의 음운형태(PF)가 시성이 정해진다는 가설로 설명하고자 했다. WLWQ에 대한 우리의 논의가 옳다면, 본 논문은 다음과 같은 이론적 함의를 기닌다. 첫째, WLWQ의 존재는 생략에 대한 두 이론 즉 LF 복사 이론과 PF 삭제 이론 중 전자의 입장을 지지한다. 둘째, WP를 XP로부터 복원할 때 부분 자질만 복사된다. 이는 어휘가 통사층위로 들어온 이후에도 어휘 자질들이 완전히 동결되는 것이 아니라 계속 지시될 수 있다는 가설을 지지한다.ance and stress, and high threshold voltage. Besides, sheet resistance and stress value, rms(root mean square) by AFM were observed. On the electrical

  • PDF

인간언어공학에의 활용을 위한 이종 개념체계 간 사상 - 세종의미부류와 KorLexNoun 1.5 - (Mapping Heterogenous Ontologies for the HLP Applications - Sejong Semantic Classes and KorLexNoun 1.5 -)

  • 배선미;임경업;윤애선
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.95-126
    • /
    • 2010
  • 본 연구에서는 인간언어공학에서의 활용을 위해 매우 이질적인 세종전자사전의 의미부류(SJSC)와 KorLexNoun 1.5(KLN)의 상위노드 간의 사상을 목표로, '의미 입자(sense grain)가 작은 개념체계(fine-grained ontology)' 간 귀납적이며 상향적인 수동 사상 방법론을 제안하였다. 동시에 이종 자원 간의 사상에 있어 각 의미체계의 이질성 때문에 발생하는 여러 가지 문제점을 살펴보고, 그 해결방안도 제안하였다. 두 이종 개념체계 간의 사상 방법은 SJSC의 단말 노드와 KLN의 Least Upper Bound(LUB)를 기본단위로 하여, 첫째, 어휘 분포를 이용하여 사상 후보군을 결정하고, 둘째, 계층 관계와 정의문과 용례를 이용하여 후보군들 간의 정확한 의미구분을 하며, 셋째, 상 하위-자매노드에 SJSC의 적정술어 및 정의문을 적용하여 LUB의 단계를 결정하고, 넷째, 양 의미체계의 계층관계를 비교함으로써 SJSC의 단말 노드와의 사상 여부를 판단하며, 마지막으로 KLN의 오류 및 전문용어 후보군은 사상에서 제외하였다. 이와같이 본 연구에서는 단계별 사상 준거의 설정에 있어 각 의미체계에 기술되어 있는 다양한 언어정보를 적극 이용하였는데, 이는 세밀한 수동 사상의 장점이라 할 수 있다. 본 연구에서 제안한 방법으로 사상한 결과, SJSC의 474개의 단말 및 비단말 노드와 KLN의 신셋(synset) 간에는 중복을 제외하고 6,487개의 LUB가 사상되었으며, 각 LUB의 하위노드를 포함해서는 모두 88,255개의 KLN 신셋이 사상되어 전체적으로는 97.91%가 사상되었다. 본 연구의 결과는 정교한 한국어 통사 및 의미 분석에 활용될 수 있을 것이다.

  • PDF