• 제목/요약/키워드: 문장형태 정보

검색결과 270건 처리시간 0.022초

Stack-Pointer Network for Korean Dependency Parsing (Stack-Pointer Network를 이용한 한국어 의존 구문 분석)

  • Cha, Da-Eun;Lee, Dong-Yub;Lim, Heui-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.685-688
    • /
    • 2018
  • 의존 구문 분석은 자연어 문장에 포함된 단어들 간의 의존 관계를 분석하는 과제로 다양한 자연어 이해 과제에 요구되는 핵심 기술 중 하나이다. 본 연구에서는 단어와 문자 자질을 적용한 기존 Stack-Pointer Network의 인코더의 입력 단어 표상을 확장하여, 한국어를 비롯한 형태적으로 복잡한 언어(morphologically rich language)에 적합하도록 음절-태그 단위, 형태소 단위, 형태소 품사 정보 자질을 보강한 의존 구문 분석 모델을 제안한다. 실험 결과 제안하는 모델은 의존 구조로 변환된 세종 구문 분석 말뭉치에서 UAS 90.58%, LAS 88.35%의 성능을, 2018 국어 정보 처리 시스템 경진 대회 평가 데이터에서 UAS 84.69%, LAS 82.02%의 성능을 보였다. 더불어 제안하는 모델은 포함된 문장의 전체 길이가 긴 의존 관계, 의존소와 지배소의 거리가 먼 의존 관계, 의존소를 구성하는 형태소의 개수가 많은 의존 관계에서 기존 Stack-Pointer Network보다 향상된 성능을 보였다.

  • PDF

A Study on Text Pattern Analysis Applying Discrete Fourier Transform - Focusing on Sentence Plagiarism Detection - (이산 푸리에 변환을 적용한 텍스트 패턴 분석에 관한 연구 - 표절 문장 탐색 중심으로 -)

  • Lee, Jung-Song;Park, Soon-Cheol
    • Journal of Korea Society of Industrial Information Systems
    • /
    • 제22권2호
    • /
    • pp.43-52
    • /
    • 2017
  • Pattern Analysis is One of the Most Important Techniques in the Signal and Image Processing and Text Mining Fields. Discrete Fourier Transform (DFT) is Generally Used to Analyzing the Pattern of Signals and Images. We thought DFT could also be used on the Analysis of Text Patterns. In this Paper, DFT is Firstly Adapted in the World to the Sentence Plagiarism Detection Which Detects if Text Patterns of a Document Exist in Other Documents. We Signalize the Texts Converting Texts to ASCII Codes and Apply the Cross-Correlation Method to Detect the Simple Text Plagiarisms such as Cut-and-paste, term Relocations and etc. WordNet is using to find Similarities to Detect the Plagiarism that uses Synonyms, Translations, Summarizations and etc. The Data set, 2013 Corpus, Provided by PAN Which is the One of Well-known Workshops for Text Plagiarism is used in our Experiments. Our Method are Fourth Ranked Among the Eleven most Outstanding Plagiarism Detection Methods.

한국어 피동형의 전산적 구현

  • 홍정하
    • Language and Information
    • /
    • 제4권1호
    • /
    • pp.130-140
    • /
    • 2000
  • 이 논문에서는 피동접사 '이, 히, 리, 기'와 결합하는 피동형과 관련된 형태·통사적 문제를 전산적 관점에서 다룬다. 전산처리에서 이러한 피동형의 형태적 문제는 다음과 같다. 첫째, 피동접사 '이, 히, 리, 기'와 결합할 수 있는 타동사 어간의 분포가 제한되어 있다. 둘째, 타동사 어간이 결합할 수 있는 피동접사는 고정접사는 고정되어 있다. 셋째, 피동형 중에 타동사 어간과 피동접사가 결합할 대 형태적으로 변화하는 것들이 있다. '나누다/나뉘다, 모으다/모이다, 잠그다/잠기다, 자르다/잘리다'등이 여기에 해당된다. 이러한 형태적 문제 외에도 전산처리에서 피동형과 관련된 통사적 문제는 다음과 같다. 첫째, 능동형의 타동사가 피동형이 되면서 논항구조도 함께 변화한다. 둘째, 피동문의 행동주가 문장에서 생략되는 경우가 종종 있다. '문제가 쉽게 풀리었다','소리가 잘 들린다'등이 이에 해당된다. 이 논문은 한국어 피동접사 '이, 히, 라, 기'와 결합하는 피동형의 형태·통사적 특징을 전산적으로 처리하는 것이 목적이다. 이를 위해 표상모형으로는 자질구조를, 구현도구로는 Malage를 사용한다.

  • PDF

The effects of Korean logical ending connective affix on text comprehension and recall (연결어미가 글 이해와 기억에 미치는 효과)

  • Nam, Ki-Chun;Kim, Hyun-Jeong;Park, Chang-Su;Whang, Yu-Mi;Kim, Young-Tae;Sim, Hyun-Sup
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.251-258
    • /
    • 2004
  • 본 연구는 연결어미가 글 이해와 기억에 미치는 영향을 조사하고, 연결어미의 효과와 글읽기 능력과는 어떤 관련성이 있는지를 조사하기 위해 실시되었다. 연결어미로는 인과 관계와 부가 관계를 나타내는 연결어미가 사용되었다. 앞뒤에 제시되는 두 문장의 국소적 응집성(Local coherence)을 형성하는데 연결어미가 도움을 준다면, 연결어미가 있는 경우에 문장을 이해하는 속도가 빨라지고 글 내용을 기억하는 데에도 도움을 줄 것으로 예측하였다. 만일에 글읽기 능력이 연결어미를 적절히 사용할 수 있는 능력에 의해서도 영향을 받는다면, 연결어미의 출현 여부와 읽기 능력간에 상호작용이 있을 것으로 예측하였다. 실험 1에서는 인과 관계 연결어미를 사용하여 문장 읽기 시간에 연결어미의 출현이 미치는 효과와 문장 회상에 미치는 효과를 조사하였다. 실험 결과, 인과 관계 연결어미는 뒤의 문장을 읽는데 촉진적인 효과를 주었으며, 이런 연결어미의 효과는 읽기 능력에 관계없이 일관된 촉진 효과를 나타냈다. 또한, 연결어미의 출현은 문장의 회상에 도움을 주었으며, 연결어미가 문장 회상에 미치는 효과는 읽기 능력의 상하에 관계없이 일관되게 나타났다. 실험 2에서는 부가 관계 연결어미가 문장 읽기 시간과 회상에 미치는 효과를 조사하였다. 실험 결과. 부가 관계 연결어미 역시 인과 관계 연결어미와 유사한 형태의 효과를 보였다. 실험 1과 실험 2의 결과는 인과 관계와 부가 관계 연결어미가 앞뒤 문장의 응집성 형성에 긍정적인 영향을 주고, 이런 연결어미의 글읽기에 대한 효과는 글읽기 능력에 관계없이 일정하다는 것을 시사한다.건이 복합 명사의 중심어 선택과 의미 결정에 재활용 될 수 있으며, 병렬말뭉치에 의해 반자동으로 구축되는 의미 대역 패턴을 사용하여 데이터 구축의 어려움을 개선하고자 한다. 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져

  • PDF

A Method for Extracting Equipment Specifications from Plant Documents and Cross-Validation Approach with Similar Equipment Specifications (플랜트 설비 문서로부터 설비사양 추출 및 유사설비 사양 교차 검증 접근법)

  • Jae Hyun Lee;Seungeon Choi;Hyo Won Suh
    • Journal of Korea Society of Industrial Information Systems
    • /
    • 제29권2호
    • /
    • pp.55-68
    • /
    • 2024
  • Plant engineering companies create or refer to requirements documents for each related field, such as plant process/equipment/piping/instrumentation, in different engineering departments. The process-related requirements document includes not only a description of the process but also the requirements of the equipment or related facilities that will operate it. Since the authors and reviewers of the requirements documents are different, there is a possibility that inconsistencies may occur between equipment or parts design specifications described in different requirement documents. Ensuring consistency in these matters can increase the reliability of the overall plant design information. However, the amount of documents and the scattered nature of requirements for a same equipment and parts across different documents make it challenging for engineers to trace and manage requirements. This paper proposes a method to analyze requirement sentences and calculate the similarity of requirement sentences in order to identify semantically identical sentences. To calculate the similarity of requirement sentences, we propose a named entity recognition method to identify compound words for the parts and properties that are semantically central to the requirements. A method to calculate the similarity of the identified compound words for parts and properties is also proposed. The proposed method is explained using sentences in practical documents, and experimental results are described.

Syntax Analysis of Korean Based on Clausal Segmentation using Sentence Patterns Information as a Constraint (문형을 제약 조건으로 하는 단문 분할 기반 한국어 구문분석)

  • Lee, Hyeon-Yeong;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.140-147
    • /
    • 2006
  • 한국어 문장은 하나 이상의 용언으로 인해 구문 분석 과정에서 다양한 구문 모호성이 발생한다. 이들 중 대부분은 내포문의 수식 범위로부터 발생되는 구 부착의 문제 때문이다. 이런 구운 모호성은 내포문의 범위를 정해서 하나의 구문 범주의 기능을 가지도록 하면 해결할 수가 있다. 본 논문에서는 내포문의 범위를 정하기 위해서 문형과 한국어의 구문 특성을 이용한다. 먼저, 내포문에 있는 용언의 문형 정보가 가질 수 있는 필수격을 최대로 부착하여 내포문의 범위를 정해서 단문으로 분할한다. 그리고 한국어의 구문 특성을 이용해서 분할된 내포문의 기능을 하나의 구문 범주인 체언구나 부사구로 변환한다. 이렇게 함으로써 복합문의 구성 형태가 단문 구조로 변환되기 때문에 내포문의 범위에 의한 구 부착의 문제가 쉽게 해결된다. 이것을 본 논문에서는 내포문의 단문 분할이라고 한다. 본 논문에서 제안한 방법으로 432 문장을 실험한 결과 문형과 단문 분할을 이용하지 않은 방범보다 구문모호성이 87.73% 감소되었다.

  • PDF

Korean Sentiment Analysis by using Noisy Text Embedding (Noisy 텍스트 임베딩을 이용한 한국어 감정 분석)

  • Lee, Hyun-Young;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.506-509
    • /
    • 2019
  • 신문기사나 위키피디아와 같이 정보를 전달하는 텍스트와는 달리 사람의 감정 및 의도를 표현하는 텍스트는 다양한 형태의 노이즈를 포함한다. 본 논문에서는 data-driven 방법을 이용하여 노이즈와 단어들 사이의 관계를 LSTM을 이용하여 하나의 벡터로 요약하는 모델을 제안한다. 노이즈 문장 벡터를 표현하는 방식으로는 단방향 LSTM 인코더과 양방향 LSTM 인코더의 두 가지 모델을 이용하여 노이즈를 포함하는 영화 리뷰 데이터를 가지고 감정 분석 실험을 하였고, 실험 결과 단방향 LSTM 인코더보다 양방향 LSTM인 코더가 우수한 성능을 보여주었다.

  • PDF

Korean prosodic properties between read and spontaneous speech (한국어 낭독과 자유 발화의 운율적 특성)

  • Yu, Seungmi;Rhee, Seok-Chae
    • Phonetics and Speech Sciences
    • /
    • 제14권2호
    • /
    • pp.39-54
    • /
    • 2022
  • This study aims to clarify the prosodic differences in speech types by examining the Korean read speech and spontaneous speech in the Korean part of the L2 Korean Speech Corpus (speech corpus for Korean as a foreign language). To this end, the articulation length, articulation speed, pause length and frequency, and the average fundamental frequency values of sentences were set as variables and analyzed via statistical methodologies (t-test, correlation analysis, and regression analysis). The results found that read speech and spontaneous speech were structurally different in the form of prosodic phrases constituting each sentence and that the prosodic elements differentiating each speech type were articulation length, pause length, and pause frequency. The statistical results show that the correlation between articulation speed and articulation length was highest in read speech, explaining that the longer a given sentence is, the faster the speaker speaks. In spontaneous speech, however, the relationship between the articulation length and the pause frequency in a sentence was high. Overall, spontaneous speech produces more pauses because short intonation phrases are continuously built to make a sentence, and as a result, the sentence gets lengthened.

A Study on Korean Language Processing of Degree Adverb modifying Stative Noun (한국어에서 상태성 명사 수식 정도부사의 처리에 관한 연구)

  • Park, Sung-Won;Min, Chang-Woo;Kim, Seong-Mook
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.373-380
    • /
    • 2001
  • 한국어에서 부사는 관형사와 구별하여 통사적으로 명사 등의 체언을 수식할 수 없다고 분석하는 것이 일반적이다. 의미적으로 상태성 명사와 수식관계를 가질 수 있는 정도부사의 경우에도 명사를 직접 수식하는 것이 아니라 그 명사를 보어로 취하는 지정사를 포함한 지정사구 전체를 수식한다는 것이 현재의 이론언어학에서의 입장이다. 본 논문에서는 말뭉치에 나타난 실제 문장을 기계적으로 처리하는 관점에서 정도부사의 수식을 받는 것은 지정사구가 아니라 상태성 명사 자체로 설정하고자 한다. 이러한 근거로서 말뭉치에서 추출한 실제 문장을 중심으로 정도부사의 수식을 받는 지정사구에 지정사가 생략되는 경우와 지정사구 형태가 아닌 다양한 명사구 형태 역시 정도부사의 수식을 받는 경우가 존재함을 보인다. 또한 정도 부사와 결합하는 명사들이 갖는 의미적 특성을 통해 정도부사와 명사와 결합시켜야 수식 관계의 처리에 용이함을 보이고 정도부사에 대한 이론적 설명에도 타당함을 보인다. 마지막으로 말뭉치에 나타난 정도부사의 수식을 받는 명사의 용례를 분석하여 빈도 및 하위 분류 특성을 살펴본다.

  • PDF

Automated Answer Recommendation System Using Convolutional Neural Networks For Efficient Customer Service Based on Text (텍스트 기반 상담시스템의 효율성 제고를 위한 합성곱신경망을 이용한 자동답변추천 시스템)

  • Na, Hunyeob;Seo, Sanghyun;Yun, Jisang;Jung, Changhoon;Jeon, Yongjin;Kim, Juntae
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.272-275
    • /
    • 2017
  • 대면 서비스보다 비대면 서비스를 선호하는 소비자들의 증가로 인해 기업의 고객 응대의 형태도 변해가고 있다. 기존의 전화 상담보다는 인터넷에 글을 쓰는 형식으로 문의를 하는 고객이 증가하고 있으며, 관련 기업에서는 이와 같은 변화에 효율적으로 대처하기 위해, 텍스트 기반의 상담시스템에 대한 다양한 연구 및 투자를 하고 있다. 특히, 입력된 질의에 대해서 자동 답변하는 챗봇(ChatBot)이 주목받고 있으나, 낮은 답변 정확도로 인해 실제 응용에는 어려움을 겪고 있다. 이에 본 논문에서는 상담원이 중심이 되는 텍스트 기반의 상담시스템에서 상담원이 보다 쉽게 답변을 수행할 수 있도록 자동으로 답변을 추천해주는 자동답변추천 시스템을 제안한다. 실험에서는 기존 질의응답 시스템 구축에 주로 사용되는 문장유사도 알고리즘과 더불어 합성곱신경망을 이용한 자동답변추천 기법의 답변추천 성능을 비교한다. 실험 결과, 문장유사도 기반의 답변추천 기법보다 본 논문에서 제안한 합성곱신경망(Convolutional Neural Networks) 기반의 답변추천시스템이 더 뛰어난 답변추천 성능을 나타냄을 보였다.

  • PDF