• Title/Summary/Keyword: 문맥론

Search Result 80, Processing Time 0.028 seconds

Syllable-based POS Tagging without Korean Morphological Analysis (형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅)

  • Shim, Kwang-Seob
    • Korean Journal of Cognitive Science
    • /
    • v.22 no.3
    • /
    • pp.327-345
    • /
    • 2011
  • In this paper, a new approach to Korean POS (Part-of-Speech) tagging is proposed. In previous works, a Korean POS tagger was regarded as a post-processor of a morphological analyzer, and as such a tagger was used to determine the most likely morpheme/POS sequence from morphological analysis. In the proposed approach, however, the POS tagger is supposed to generate the most likely morpheme and POS pair sequence directly from the given sentences. 398,632 eojeol POS-tagged corpus and 33,467 eojeol test data are used for training and evaluation, respectively. The proposed approach shows 96.31% of POS tagging accuracy.

  • PDF

Real-Time Early Risk Detection in Textual Data Streams for Enhanced Online Safety (온라인 범죄 예방을 위한 실시간 조기 위험 감지 시스템)

  • Jinmyeong An;Geun-Bae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.525-530
    • /
    • 2023
  • 최근 소셜 네트워크 서비스(SNS) 및 모바일 서비스가 증가함에 따라 사용자들은 다양한 종류의 위험에 직면하고 있다. 특히 온라인 그루밍과 온라인 루머 같은 위험은 한 개인의 삶을 완전히 망가뜨릴 수 있을 정도로 심각한 문제로 자리 잡았다. 그러나 많은 경우 이러한 위험들을 판단하는 시점은 사건이 일어난 이후이고, 주로 법적인 증거채택을 위한 위험성 판별이 대다수이다. 따라서 본 논문은 이러한 문제를 사전에 예방하는 것에 초점을 맞추었고, 계속적으로 발생하는 대화와 같은 event를 실시간으로 감지하고, 위험을 사전에 탐지할 수 있는 Real-Time Early Risk Detection(RERD) 문제를 정의하고자 한다. 온라인 그루밍과 루머를 실시간 조기 위험 감지(RERD) 문제로 정의하고 해당 데이터셋과 평가지표를 소개한다. 또한 RERD 문제를 정확하고 신속하게 해결할 수 있는 강화학습 기반 새로운 방법론인 RT-ERD 모델을 소개한다. 해당 방법론은 RERD 문제를 이루고 있는 온라인 그루밍, 루머 도메인에 대한 실험에서 각각 기존의 모델들을 뛰어넘는 state-of-the-art의 성능을 달성하였다.

  • PDF

Generation Methodology Using Super In-Context Learning (Super In-Context Learning을 활용한 생성 방법론)

  • Seongtae Hong;Seungjun Lee;Gyeongmin Kim;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.382-387
    • /
    • 2023
  • 현재 GPT-4와 같은 거대한 언어 모델이 기계 번역, 요약 및 대화와 같은 다양한 작업에서 압도적인 성능을 보이고 있다. 그러나 이러한 거대 언어 모델은 학습 및 적용에 상당한 계산 리소스와 도메인 특화 미세 조정이 어려운 등 몇 가지 문제를 가지고 있다. In-Context learning은 데이터셋에서 추출한 컨택스트의 정보만으로 효과적으로 작동할 수 있는 효율성을 제공하여 앞선 문제를 일부 해결했지만, 컨텍스트의 샷 개수와 순서에 민감한 문제가 존재한다. 이러한 도전 과제를 해결하기 위해, 우리는 Super In-Context Learning (SuperICL)을 활용한 새로운 방법론을 제안한다. 기존의 SuperICL은 적용한 플러그인 모델의 출력 정보를 이용하여 문맥을 새로 구성하고 이를 활용하여 거대 언어 모델이 더욱 잘 분류할 수 있도록 한다. Super In-Context Learning for Generation은 다양한 자연어 생성 작업에 효과적으로 최적화하는 방법을 제공한다. 실험을 통해 플러그인 모델을 교체하여 다양한 작업에 적응하는 가능성을 확인하고, 자연어 생성 작업에서 우수한 성능을 보여준다. BLEU 및 ROUGE 메트릭을 포함한 평가 결과에서도 성능 향상을 보여주며, 선호도 평가를 통해 모델의 효과성을 확인했다.

  • PDF

Is Knowledge Ascription Sensitive at all?: A Critique of Contextualist or Subject-sensitivist Semantic Approaches to 'know' (지식귀속은 민감하게 이뤄지는가? :'안다'에 대한 맥락주의 및 주체-민감주의 의미론 비판)

  • Han, Seong-Il
    • Korean Journal of Logic
    • /
    • v.8 no.2
    • /
    • pp.109-141
    • /
    • 2005
  • In this paper, I raise an objection to "sensitivism" about "know", according to which knowledge ascription is sensitive to contexts of utterance or subjects. While Peter Unger once proposed insensitivism about "know" in terms of insensitivism with respect to absolute terms, David Lewis provided sensitivism about "know" in terms of sensitivism with respect to absolute terms, on the common ground that "know" belongs to a class of absolute terms. On the one hand, I object to Unger-style insensitivism about 'know,' for, I claim, we have reason to opt for sensitivism rather than insensitivism with respect to absolute terms in virtue of the maxim that I call "semantic razor." On the other hand, I also object to sensitivist approaches to "know," for, on reflection, there is such a deep difference between "know" and absolute terms (or, sensitive terms altogether) that "know" cannot be taken to sensitive to contexts as opposed to absolute terms (or, sensitive terms altogether). These claims jointly indicate that "know" should be thought of as an insensitive term even though sensitivism has enjoyed wide acceptance in many other cases.

  • PDF

A Proofreader Matching Method Based on Topic Modeling Using the Importance of Documents (문서 중요도를 고려한 토픽 기반의 논문 교정자 매칭 방법론)

  • Son, Yeonbin;An, Hyeontae;Choi, Yerim
    • Journal of Internet Computing and Services
    • /
    • v.19 no.4
    • /
    • pp.27-33
    • /
    • 2018
  • In the process of submitting a manuscript to a journal in order to present the results of the research at the research institution, researchers often proofread the manuscript because it can manuscripts to communicate the results more effectively. Currently, most of the manuscript proofreading companies use the manual proofreader assignment method according to the subjective judgment of the matching manager. Therefore, in this paper, we propose a topic-based proofreader matching method for effective proofreading results. The proposed method is categorized into two steps. First, a topic modeling is performed by using Latent Dirichlet Allocation. In this process, the frequency of each document constituting the representative document of a user is determined according to the importance of the document. Second, the user similarity is calculated based on the cosine similarity method. In addition, we confirmed through experiments by using real-world dataset. The performance of the proposed method is superior to the comparative method, and the validity of the matching results was verified using qualitative evaluation.

Methodology of Automatic Editing for Academic Writing Using Bidirectional RNN and Academic Dictionary (양방향 RNN과 학술용어사전을 이용한 영문학술문서 교정 방법론)

  • Roh, Younghoon;Chang, Tai-Woo;Won, Jongwun
    • The Journal of Society for e-Business Studies
    • /
    • v.27 no.2
    • /
    • pp.175-192
    • /
    • 2022
  • Artificial intelligence-based natural language processing technology is playing an important role in helping users write English-language documents. For academic documents in particular, the English proofreading services should reflect the academic characteristics using formal style and technical terms. But the services usually does not because they are based on general English sentences. In addition, since existing studies are mainly for improving the grammatical completeness, there is a limit of fluency improvement. This study proposes an automatic academic English editing methodology to deliver the clear meaning of sentences based on the use of technical terms. The proposed methodology consists of two phases: misspell correction and fluency improvement. In the first phase, appropriate corrective words are provided according to the input typo and contexts. In the second phase, the fluency of the sentence is improved based on the automatic post-editing model of the bidirectional recurrent neural network that can learn from the pair of the original sentence and the edited sentence. Experiments were performed with actual English editing data, and the superiority of the proposed methodology was verified.

Named Entity Linking Based on Deep Learning Model (딥러닝 모형 기반 한국어 개체명 연결)

  • Sohn, Dae-Neung;Lee, Dongju;Lee, Yong-Hun;Chung, Youjin;Kang, Inho
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.90-95
    • /
    • 2016
  • 개체명 연결이란 문장 내 어떤 단어를 특정 사물이나 사람, 장소, 개념 등으로 연결하는 작업이다. 과거에는 주로 연결 대상 단어 주변 문맥에서 자질 공학을 거쳐 입력을 만들고, 이를 이용해 SVM이나 Logistic Regression 혹은 유사도 계산, 그래프 기반 방법론 등으로 지도/비지도 학습하여 문제를 풀어왔다. 보통 개체명 연결 문제의 출력 부류(class)가 사물이나 사람 수만큼이나 매우 커서, 자질 희소성 문제를 겪을 수 있다. 본 논문에서는 이 문제에 구조적으로 더 적합하며 모형화 능력이 더 뛰어나다 여겨지는 딥러닝 기법을 적용하고자 한다. 다양한 딥러닝 모형을 이용한 실험 결과 LSTM과 Attention기법을 같이 사용했을 때 가장 좋은 품질을 보였다.

  • PDF

Analysis of an Inaugural Address of Korean Presidents Based on Network (네트워크 기반 대한민국 대통령 취임사 분석)

  • Kim, Hak Yong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2013.05a
    • /
    • pp.67-68
    • /
    • 2013
  • 초대 이승만 대통령으로부터 제18대 박근혜 대통령 취임사를 네트워크 기반으로 분석하였다. 연합뉴스에서 제공하는 데이터베이스는 역대 대통령 취임사 단어구름으로 보여줌으로써 키워드를 파악할 수 있도록 하였다. 이 경우 특정 단어의 등장 횟수에 비례하여 중심 단어를 찾아주기 때문에 취임사 전체에 흐르는 문맥이나 대통령의 의중을 반영하지 못한다. 이러한 문제를 해결하기 위하여 본 연구에서 18개 대통령 취임사에 등장하는 키워드 네트워크를 구축하였다. 네트워크상에서 허브(hub)에 해당하는 단어를 연결하면 대통령의 의도나 통치 방향을 파악할 수 있다. 대한민국의 18개 대통령 취임사는 네트워크의 동적 변화를 분석할 수 있는 좋은 자료다. 초대 취임사 네트워크에 두 번째 취임사 네트워크를 추가하여 점진적으로 확장되는 네트워크를 구축하여 동적변화를 분석하였다. 네트워크 동적 분석 결과는 시대의 흐름에 따른 대통령 통치 방향과 변화가 담겨져 있기에 대한민국 현대사 흐름을 파악하는데 기여하는 것으로 나타났다. 이제 복잡계를 이해하는 방법의 하나인 네트워크에 관한 연구는 사회현상, 자연현상, 생명현상을 넘어서 대통령 취임사에 이르기까지 다양한 영역에 함축된 복잡한 현상을 이해하려는 시도에 방법론적 실마리를 제공하고 있다.

  • PDF

Named Entity Linking Based on Deep Learning Model (딥러닝 모형 기반 한국어 개체명 연결)

  • Sohn, Dae-Neung;Lee, Dongju;Lee, Yong-Hun;Chung, Youjin;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.90-95
    • /
    • 2016
  • 개체명 연결이란 문장 내 어떤 단어를 특정 사물이나 사람, 장소, 개념 등으로 연결하는 작업이다. 과거에는 주로 연결 대상 단어 주변 문맥에서 자질 공학을 거쳐 입력을 만들고, 이를 이용해 SVM이나 Logistic Regression 혹은 유사도 계산, 그래프 기반 방법론 등으로 지도/비지도 학습하여 문제를 풀어왔다. 보통 개체명 연결 문제의 출력 부류(class)가 사물이나 사람 수만큼이나 매우 커서, 자질 희소성 문제를 겪을 수 있다. 본 논문에서는 이 문제에 구조적으로 더 적합하며 모형화 능력이 더 뛰어나다 여겨지는 딥러닝 기법을 적용하고자 한다. 다양한 딥러닝 모형을 이용한 실험 결과 LSTM과 Attention기법을 같이 사용했을 때 가장 좋은 품질을 보였다.

  • PDF

Construction of LGG for Extracting Meeting Location (개최장소 추출을 위한 LGG의 구축)

  • Kim, Kyoung-Ryol;Choi, Dong-Hyun;Kim, Eun-Kyung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.49-54
    • /
    • 2011
  • 본 논문에서는 회의공지 이메일을 대상으로 하는 개최장소 추출시스템에 대하여 소개한다. 개최장소 추출 시스템은 두 단계로 구성되는데, 첫 번째 단계는 본문에 포함된 개최장소의 추출이고, 두 번째 단계는 추출된 개최장소의 Geocoding이다. 개최장소의 추출을 위하여 문맥 패턴을 분석하여 개최장소가 포함된 문장 주변의 패턴을 반영하는 Local-Grammar Graph를 구축하며, 개최장소의 Geocoding을 위하여는 Addr2Geocode API를 사용한다. 본 논문은 일정공지메일의 개최장소를 추출하기 위한 LGG 방법론 기반의 어휘-통사적 언어 정보를 기술하는 것을 목적으로 한다.

  • PDF