• 제목/요약/키워드: Korean adverbs

검색결과 51건 처리시간 0.027초

일한기계번역에서 진행형 "ている"의 번역처리 (A Processing of Progressive Aspect "te-iru" in Japanese-Korean Machine Translation)

  • 김정인;문경희;이종혁
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.685-692
    • /
    • 2001
  • 본 논문은 일한기계번역에서 일본어 진행표현 "ている" 형태로부터 한국어 대역어의 선정과정에서 발생하는 애매성을 해소하기 위하여 연구한 것이다. 대부분의 일한 기계번역 시스템은 양궁어의 문법적인 유사엉에 기초하여 어휘적인 단계의 처리만으로 고품질의 번역이 가능한 직접 번역방식을 채용하고 있다. 그러나, 직접 번역방식에 기초한 일한 기계번역에서는 술부에 존재하는 "ている"형태의 상적인 의미를 구별할 수 있는 방법론이 아직 제안되지 않았다. 일본어에서 "ている"형태는 동작진행과 상태진행을 모두 나타내지만 한국어에서는 "고 있다."와 "어 있다."로 나누어 표기한다. 양 언어간의 상적인 의미 대응은 간단하지 않지만, 술부의 의미 정보, 부사와 부사어의 의미정보 등을 이용하여 "ている"형태의 상적인 의미를 결정하는 것이 가능하다. "ている"형태의 적절한 대역어 선정을 위하여, 사전 속의 모든 일본어 술어에 다섯 종류의 의미코드를 입력한다. 즉 "1:동작진행만으로 사용되는 술어", "2: 일반적으로는 동작진행으로 사용되지만, 수동인 경우에는 상태진행의 형태로도 사용되는 술어", "3: 상태진행으로만 사용되는 술어", "4: 동작진행, 상태진행의 구별이 애매한 술어", "5: 기타" 당의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2","4"형태의 술어로부터 진행형은 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다. 실험에는 아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.

  • PDF

도시하천의 시각적 특성 및 선호요인 분석 -대전광역시 갑천을 중심으로- (An Analysis of the Visual Characteristics and Preference Factors of an Urban River - With a case of Gapcheon in Daejeon Metropolitan City -)

  • 정대영;허성수;신언동
    • 한국환경복원기술학회지
    • /
    • 제10권3호
    • /
    • pp.14-24
    • /
    • 2007
  • The purpose of this study was to investigate how the landscape characteristics and the physical factors of landscape would affect the preference for the Gapcheon in Daejeon Metropolitan City. The Gapcheon was divided in three sections of the outskirts, Expopark areas, and residential complexes. After selecting seven landscape points where the sections could be expressed best, photographs were taken both in the upstream and downstream direction. The questionnaire used to evaluate the river's landscape included 20 items of adverbs that described the form of the river and one item to rate the overall preference. By analyzing the 14 pictures taken, the occupancy rates of the landscape elements in terms of the sky, river, vegetation of the river, mountain, and artificial structures. Image factor analysis was conducted for each of the sections in order to analyze the landscape characteristics of the Gapcheon, and then regression analysis was conducted in order to analyze the relationships among the physical factors influencing the preference of the landscapes. The results were as follows : Factors that compose the visual characters of urban river were classified be the aesthetic factor, the emotional factor and the situation factor. These 3 factors showed a 65.8% total variance. The river landscape with the biggest preference was the one from the Daedeok Grand Bridge as the occupancy area of the mountain, sky, and river was large and distributed evenly and the vegetation of the river was in a good harmony with the surroundings. After carrying out regression analysis to examine the relationships between the visual preference of Gapcheon and the physical factors of landscape(the sky, river, vegetation of the river, mountain, and artificial structure), the following regressions model was made : PRE=5.906+0.017(river)-0.053(artificial structure)-0.060(vegetation of the river) (R-square=0.48).

비지니스 이메일 영작문에 나타난 오류분석: 사례연구 (An Error Analysis on Business E-mails in English : A Case-Study)

  • 황선유
    • 융합정보논문지
    • /
    • 제8권6호
    • /
    • pp.273-279
    • /
    • 2018
  • 본 연구는 번역기를 활용한 영작문 수업에서 대학생들이 작성한 비즈니스 이메일 영작문에 나타난 오류를 분석하고 설명하려는 연구이다. 연구는 취업실무영어 수업을 수강한 대학생들이 3가지 과제에 대해 작성한 21개 이메일을 분석하여 이에 나타난 문법오류를 분석 정리하였다. 이메일에 나타난 문법오류를 살펴보면, 동사의 용법을 제대로 알지 못해서 발생한 언어 내 오류가 가장 빈번했으며, 완료 시제를 사용해야 하는 문장에서 과거동사를 사용하는 시제에 관한 오류와 명사 앞에 정관사를 사용하지 않은 정관사 오류와 전치사 잘못 사용한 오류와 같은 언어 간 오류도 있었다. 문맥과 관련된 오류를 보면 지칭하는 명사에 맞게 단 복수대명사를 제대로 사용하지 못한 오류라던가, 문장을 연결하다가 생략할 수 없는 주어를 생략한 오류는 의미전달에 문제가 될 수 있는 심각한 오류이다. 이러한 오류분석을 통하여 영어를 학습하고 있는 학습자가 특정한 문법사항을 학습하는 데에 어려움을 겪고 있다는 것과 학생들의 영어능력 발달단계를 가늠해 주는 정보를 제공함으로 연구의 의미가 있다고 볼 수 있다.

어말 위치 /ㅗ/의 /ㅜ/ 대체 현상에 대한 문법 항목별 출현빈도 연구 (Frequency of grammar items for Korean substitution of /u/ for /o/ in the word-final position)

  • 윤은경
    • 말소리와 음성과학
    • /
    • 제12권1호
    • /
    • pp.33-42
    • /
    • 2020
  • 본 논문은 구어 말뭉치를 기반으로 한국어 /ㅗ/가 /ㅜ/로 고모음화되는 현상(예, '별로' [별루])에 대해 문법 항목별로 차이를 살펴보는 데 연구 목적이 있다. 한국어의 /ㅗ/와 /ㅜ/는 [+원순성] 자질을 공유하지만, 혀 높이 차이로 변별된다. 그러나 최근 /ㅗ/와 /ㅜ/의 두 모음의 음성적 구분이 모호해지는 병합 현상이 진행 중이라고 여러 논문에서 보고되었다. 본 연구에서는 어말 위치의 /ㅗ/가 한국어 자연언어 구어 말뭉치(The Korean Corpus of Spontaneous Speech)에서 음성적으로 [o] 또는 [u]로 실현되는 현상을 연결어미, 조사, 부사, 체언의 문법 항목별로 출현빈도 및 출현비율에 대해 살펴보았다. 실험 결과 연결어미, 조사, 부사에서 /ㅗ/는 약 50%의 비율로 /ㅜ/로 대체되는 것을 확인했고, 체언에서만 상당히 낮은 비율인 5% 미만으로 대체가 되는 것을 알 수 있었다. 고빈도 형태소 중에서 가장 높은 /ㅜ/ 대체율을 보인 형태소는 '-도 [두]' (59.6%)였고, 연결어미에서는 '-고 [구]' (43.5%)로 나타났다. 구어 말뭉치를 통하여 실제 발음형과 표준발음의 차이를 살펴보았다는 데 연구 의의가 있다.

주 키워드와 부 키워드를 이용한 자연언어 정보 검색 모델 (A Model of Natural Language Information Retrieval Using Main Keywords and Sub-keywords)

  • 강현규;박세영
    • 한국정보처리학회논문지
    • /
    • 제4권12호
    • /
    • pp.3052-3062
    • /
    • 1997
  • 정보 검색이란 사용자의 정보 요구를 만족하는 관련 정보를 검색하는 것이다. 그러나 정보 검색 시스템의 하나의 역활은 관련 정보의 집합들을 단순히 제시하는 것이 아니라 주어진 요구 사항에 가장 가까운 문서를 결정하는데 도움을 주는 것이다. 최근에 여러 가지 텍스트 분석 시스템들에서 내용을 인식하기 위해 구문 분석 방법 사용이 시도되고 있다. 불행히도 단독의 구문 이해 방법으로는 임의의 텍스트 예들을 완벽하게 분석하기 위해 불충분한 것으로 알려지고 있다. 이 논문에서는 2단계 문서 순위에 기반한 문서 순위 결정 방법에 대하여 논한다. 1단계는 문서를 검색하기 위해 사용하고 2단계는 검색된 문서를 재순서화하는데 사용한다. 1단계에서 이용된 주키워드는 문서를 구별할 수 있는 좋은 능력을 가지는 명사나 복합명사로서 정의될 수 있다. 2단계에서 이용된 부 키워드는 주키워드나 기능어가 아닌 형용사나 부사 또는 동사로 정의 될 수 있다. 실험은 23,113 항목을 가지는 한국어 백과사전과 일반 사용자들로부터 수집된 161개의 한국어 자연언어 질의로부터 이루어졌다. 자연언어 질의의 85%가 부 키워드를 가지고 있었다. 2단계 문서 순위 방법은 일반 문서 순위 방법보다 현격한 검색 효율의 향상을 제공한다.

  • PDF

한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구 (A Study of Pre-trained Language Models for Korean Language Generation)

  • 송민채;신경식
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.309-328
    • /
    • 2022
  • 본 연구는 자연어처리의 분석목적과 추론데이터 성격에 적합한 한국어 사전훈련 언어모델의 특성을 실증분석했다. 이를 위해 자연어생성이 가능한 대표적 사전훈련 언어모델인 BART와 GPT 모델을 실험에 사용했다. 구체적으로 한국어 텍스트를 BART와 GPT 모델에 학습한 사전훈련 언어모델을 사용해 문서요약 생성 성능을 비교했다. 다음으로 추론데이터의 특성에 따라 언어모델의 성능이 어떻게 달라지는지 확인하기 위해 6가지 정보전달성과 4가지 창작물 유형의 한국어 텍스트 문서에 적용했다. 그 결과, 모든 문서유형에서 인코더와 디코더가 모두 있는 BART의 구조가 디코더만 있는 GPT 모델보다 더 높은 성능을 보였다. 추론데이터의 특성이 사전훈련 언어모델의 성능에 미치는 영향을 살펴본 결과, KoGPT는 데이터의 길이에 성능이 비례한 것으로 나타났다. 그러나 길이가 가장 긴 문서에 대해서도 KoGPT보다 KoBART의 성능이 높아 다운스트림 태스크 목적에 맞는 사전훈련 모델의 구조가 자연어생성 성능에 가장 크게 영향을 미치는 요소인 것으로 나타났다. 추가적으로 본 연구에서는 정보전달성과 창작물로 문서의 특징을 구분한 것 외에 품사의 비중으로 문서의 특징을 파악해 사전훈련 언어모델의 성능을 비교했다. 그 결과, KoBART는 어미와 형용사/부사, 동사의 비중이 높을수록 성능이 떨어진 반면 명사의 비중이 클수록 성능이 좋았다. 반면 KoGPT는 KoBART에 비해 품사의 비중과 상관도가 낮았다. 이는 동일한 사전훈련 언어모델이라도 추론데이터의 특성에 따라 자연어생성 성능이 달라지기 때문에 다운스트림 태스크에 사전훈련 언어모델 적용 시 미세조정 외에 추론데이터의 특성에 대한 고려가 중요함을 의미한다. 향후 어순 등 분석을 통해 추론데이터의 특성을 파악하고, 이것이 한국어 생성에 미치는 영향을 분석한다면 한국어 특성에 적합한 언어모델이나 자연어생성 성능 지표 개발이 가능할 것이다.

정신적 건강 서비스를 위한 감성구를 활용한 주관적 웰빙 지수 측정 방법론 (A Methodology of Measuring Degree of Contextual Subjective Well-Being Using Affective Predicates for Mental Health Aware Service)

  • 권오병;최석재
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.1-23
    • /
    • 2011
  • 상황인식 컴퓨팅 사용자의 상황적이고 주관적 웰빙(SWB) 측정은 그에 맞는 정신건강 추천, 특히 대사증후군이나 우울증을 위한 추천에 매우 도움이 될 것이다. 현존하는 자가 진단식 측정법이나 자가 센싱 방법이 주관적 웰빙정보를 모니터링 하는데 제안되고 있음에도 불구하고 시의 적절한 서비스를 제공하지 못하여 상황인식 서비스로 쓰이기에는 부적합하다. 따라서 본 논문의 목적은 상황적이고 주관적 웰빙을 추정하는 방법을 제안하는 것이다. 이 방법은 사용자가 남기는 응답 글로부터 상황 자료를 획득하기 때문에 매우 적시적이며 따라서 그때마다의 감정 상태를 파악할 수 있다. 특히 본 연구에서는 온라인 대화나 기타 텍스트 기반의 의사소통에서 노출되는 분노심 등 부정적 감정에 관련된 감정동사와 정도 부사에 초점을 두어 측정한다. 제안된 상황적이고 주관적 웰빙 추정 방법을 기반으로 하여 웰빙 생활을 위한 추천 시스템을 개발하고자 한다. 이러한 아이디어의 실현가능성을 보이기 위하여 실제 운전자들을 대상으로 제안 방법이 얼마나 실제 감정을 잘 추론하는지에 대해 실험을 수행하였다.

나치언어의 구조 (Zur Sruktur der Nazisprache)

  • 김종영
    • 한국독어학회지:독어학
    • /
    • 제8집
    • /
    • pp.223-245
    • /
    • 2003
  • In dieser Arbeit wird der Versuch unternommen, die Struktur der Nazisprache zu analysieren. Nazisprache hat die Aufgabe, die Ideologie des Nationalsozialisrnus zu rechtfertigen und zu starken. Um diese Aufgabe zu realisieren, haben sich die Nationalsozialisten viel bemuht Im zweiten Abschnitt wird die Charakteristk dieser Sprache $erw\"{a}hnt$ Hier handelt es sich urn den Hintergrund der Nazisprache und Sprachlenkung im Nationalsozialismus. Im Abschnitt drei wird die syntaktische Struktur der Nazisprache beschrieben. Syntaktisch betrachtet, kann man in der Nazisprache $a\"{u}ffallende$ Struktur feststellen, und zwar eine hohe Frequenz von Adjektiv- Attributen, Adverbiale und Superlative. Bei den Adjektivattributen $la{\ss}t$ sich eine Reihe interessanter Entwicklungen beobachten. In vielen $F\"{a}llen$ tendieren die Attributionen zur idiomatischen Verfestigung. Im Bereich des Adverbs finden $auff\"{a}llige$ Verschiebung statt Adverbien $geh\"{o}ren$ zu den wichtigsten Mitteln, um die Haltung des Sprechers $gegen\"{u}ber$ einem $ge\"{a}u{\ss}erten$ Sachverhalt auf die situativen Bedingungen, insbesondere auf die Haltung und Erwartungen der Adressanten, abzustimmen. Und $auff\"{a}lig$ ist die $H\"{a}ufungwie$ beispie!sweise am von Superlativen auf engern Raum. Durch den inflationaren Gebrauch der superlativischen $Ausdr\"{u}cke$ verlieren im $Bewu{\ss}tsein$ des nationalsozialistischen Redners $allm\"{a}hlich$ ihre $F\"{a}higkeit$, den qualitativen Extremwert eines Sachverhalts zu bezeichnen. Deshalb grief vor allem Hitler schon fruh zu starkeren Mitteln, indem er die Gradative des genannten Typs in den Superlativ setzt. Im Abschnitt vier wird die lexikaIische Struktur der Nazisprache beschrieben. Wahrend des Dritten Reiches war die Entwickiung auf den Wortschatz in lexikalischen Bereichen erheblich, wie beispielsweise am Gebrauch der $Modew\"{o}rter$, die sich auf ideologische, dynamische und $milit\"{a}rische$ Terminologie bezogen sind, am Gebrauch $altert\"{u}mlicher$ $W\"{o}rter$ und am Gebrauch von $Fremdw\"{o}rter$. In der Zeit des Natioalsozialismus bedienten sich die NationaIsoziaIisten neben vieIen $Modew\"{o}Iter$ veralteter $W\"{o}Iter$ zur Kennzeichnung von $\"{A}mtern$ und Einheiten, um dem Regime eine historische $Legitimit\"{a}t$ zu verschaffen. Und sie gebrauchten auch $Fremdw\"{o}rter$ sehr haufig, um ihren Reden einen pseudowissenschaftlichen Anstrich zu geben.

  • PDF

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.

시간부사 '증경(曾經)', '이경(已經)' 시상(時相) 자질 중한 대조분석 (Time Adverb 'Cengjing (曾經)' and 'Yijing (已經) Tense and Aspect of the Comparative Analysis of the Characteristics of China and South Korea)

  • 한경숙
    • 비교문화연구
    • /
    • 제42권
    • /
    • pp.451-474
    • /
    • 2016
  • 본고는 현대중국어 시간부사 '증경(曾經)'과 '이경(已經)'의 관련 통사구조와 이에 상응하는 한국어 통사구조에 대한 고찰을 통하여 관련 구조 의미소 '시상(時相)(tense and aspect)' 특징을 분석하였고 두 부사의 차이점을 찾아보았다. 아울러 중한 두 언어에서 이들이 나타내는 자질의 같은 점과 다른 점을 찾아냈고 이를 통하여 분석의 타당성(Descriptive adequacy)을 확보하고 나아가 설명적 타당성(Explanatory adequacy)으로 이끌어 내고자 하였다. '증경(曾經)'은 상 범주의 하위 범주인 '과거경험상', '성사상', '과거지속상' 등 자질을 갖고 있고 시제 범주의 하위 범주인 '과저시제' '과거경험상' 등 자질을 겸하고 있기도 하다. 한국어의 '_었(았)_', '_었었_', '_적이 있_'과 대응관계를 이루고 있다. '증경(曾經)'은 하나의 통사구조에서 상과 시제 두 가지 자질을 갖고 있다. '이경(已經)'은 '완료상'과 완료상의 하위 범주인 '과거경험상', 그리고 미완료상의 하위범주인 '과거지속상' 등 자질을 갖고 있고 시제 범주의 하위 범주인 '과거시제', '현재시제', '미래시제' 등 시제 자질도 갖고 있으며 '상태의 변화' 자질도 갖고 있다. 한국어의 '_었(았)_', '_고_', '_었었_', '곧' 등과 대응관계를 이루고 있다. '증경(曾經)'과 동태조사 '과(過)'를 비교하자면 '증경(曾經)'은 상 범주와 시제 범주를 겸하고 있다지만 '과(過)'는 그 수식 범위가 술어밖에 없기에 상적 특징만 갖고 있다. 그리고 심층구조에서 '증경(曾經)'은 술어의 앞에서 술어를 포함한 술어 뒤에 출현한 조사, 목적어, 보어 모두와 통어 관계를 갖고 있지만, '과(過)'는 그 앞의 술어만 수식한다. '이경(已經)'이 '진행상' 자질을 가진 부사 '재(在)'를 수식할 수 있지만, '증경(曾經)'은 불가능하다. 중국어와 한국어 두 언어는 이렇게 시간 표현에서 많은 차이를 보이고 있다. 중국어의 '과거경험상', '성사상', '과거지속상' 등 상 자질과 '과거시제' 자질을 갖고 있는 시간부사 '증경(曾經)', 그리고 '과거경험상', '과거지속상' 등 상 자질 그리고 '과거시제', '현재시제', '미래시제' 등 시제 자질을 갖고 있는 시간부사 '이경(已經)' 등이 한국어에서는 '완료상', '지속상' 자질과 '과거시제' 자질로 대응된다는 것을 알 수 있다. 그만큼 중국어와 한국어 두 언어의 시간 체계는 서로 많은 차이를 보이고 있다. 이는 한중 두 나라 사람들의 사유 방식의 차이와 문화적인 차이에서 비롯됐을 것으로 사료된다.