• Title/Summary/Keyword: 자연어 분석

Search Result 562, Processing Time 0.028 seconds

Boolean Query Formulation From Korean Natural Language Queries using Syntactic Analysis (구문분석에 기반한 한글 자연어 질의로부터의 불리언 질의 생성)

  • Park, Mi-Hwa;Won, Hyeong-Seok;Lee, Geun-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.10
    • /
    • pp.1219-1229
    • /
    • 1999
  • 일반적으로 AND, OR, NOT과 같은 연산자를 사용하는 불리언 질의는 사용자의 검색의도를 정확하게 표현할 수 있기 때문에 검색 전문가들은 불리언 질의를 사용하여 높은 검색성능을 얻는다고 알려져 있지만, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 본 논문에서는 검색성능의 향상과 사용자 편의성을 동시에 만족하기 위하여 사용자의 자연어 질의를 확장 불리언 질의로 자동 변환하는 방법론을 제안한다. 먼저 자연어 질의를 범주문법에 기반한 구문분석을 수행하여 구문트리를 생성하고 연산자 및 키워드 정보를 추출하여 구문트리를 간략화한다. 다음으로 간략화된 구문트리로부터 명사구를 합성하고 키워드들에 대한 가중치를 부여한 후 불리언 질의를 생성하여 검색을 수행한다. 또한 구문분석의 오류로 인한 검색성능 저하를 최소화하기 위하여 상위 N개 구문트리에 대해 각각 불리언 질의를 생성하여 검색하는 N-BEST average 방법을 제안하였다. 정보검색 실험용 데이타 모음인 KTSET2.0으로 실험한 결과 제안된 방법은 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존의 벡터공간 모델에 기반한 자연어질의 시스템에 비해 23% 성능향상을 보였다. Abstract There have been a considerable evidence that trained users can achieve a good search effectiveness through a boolean query because a structural boolean query containing operators such as AND, OR, and NOT can make a more accurate representation of user's information need. However, it is not easy for ordinary users to construct a boolean query using appropriate boolean operators. In this paper, we propose a boolean query formulation method that automatically transforms a user's natural language query into a extended boolean query for both effectiveness and user convenience. First, a user's natural language query is syntactically analyzed using KCCG(Korean Combinatory Categorial Grammar) parser and resulting syntactic trees are structurally simplified using a tree-simplifying mechanism in order to catch the logical relationships between keywords. Next, in a simplified tree, plausible noun phrases are identified and added into the same tree as new additional keywords. Finally, a simplified syntactic tree is automatically converted into a boolean query using some mapping rules and linguistic heuristics. We also propose an N-BEST average method that uses top N syntactic trees to compensate for bad effects of single incorrect top syntactic tree. In experiments using KTSET2.0, we showed that a proposed method outperformed a traditional vector space model by 23%, and surprisingly manually constructed boolean queries by 8%.

Text Watermarking Based on Syntactic Constituent Movement (구문요소의 전치에 기반한 문서 워터마킹)

  • Kim, Mi-Young
    • The KIPS Transactions:PartB
    • /
    • v.16B no.1
    • /
    • pp.79-84
    • /
    • 2009
  • This paper explores a method of text watermarking for agglutinative languages and develops a syntactic tree-based syntactic constituent movement scheme. Agglutinative languages provide a good ground for the syntactic tree-based natural language watermarking because syntactic constituent order is relatively free. Our proposed natural language watermarking method consists of seven procedures. First, we construct a syntactic dependency tree of unmarked text. Next, we perform clausal segmentation from the syntactic tree. Third, we choose target syntactic constituents, which will move within its clause. Fourth, we determine the movement direction of the target constituents. Then, we embed a watermark bit for each target constituent. Sixth, if the watermark bit does not coincide with the direction of the target constituent movement, we displace the target constituent in the syntactic tree. Finally, from the modified syntactic tree, we obtain a marked text. From the experimental results, we show that the coverage of our method is 91.53%, and the rate of unnatural sentences of marked text is 23.16%, which is better than that of previous systems. Experimental results also show that the marked text keeps the same style, and it has the same information without semantic distortion.

Analysis of Pressure Ulcer Nursing Records with Artificial Intelligence-based Natural Language Processing (인공지능 기반 자연어처리를 적용한 욕창간호기록 분석)

  • Kim, Myoung Soo;Ryu, Jung-Mi
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.10
    • /
    • pp.365-372
    • /
    • 2021
  • The purpose of this study was to examine the statements characteristics of the pressure ulcer nursing record by natural langage processing and assess the prediction accuracy for each pressure ulcer stage. Nursing records related to pressure ulcer were analyzed using descriptive statistics, and word cloud generators (http://wordcloud.kr) were used to examine the characteristics of words in the pressure ulcer prevention nursing records. The accuracy ratio for the pressure ulcer stage was calculated using deep learning. As a result of the study, the second stage and the deep tissue injury suspected were 23.1% and 23.0%, respectively, and the most frequent key words were erythema, blisters, bark, area, and size. The stages with high prediction accuracy were in the order of stage 0, deep tissue injury suspected, and stage 2. These results suggest that it can be developed as a clinical decision support system available to practice for nurses at the pressure ulcer prevention care.

Study on Sentence Analyzers and Electric Dictionary (문장 분석기 및 전자사전 구성에 대한 연구)

  • Yoon, Jun-Tae;Song, Man-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.151-158
    • /
    • 1992
  • 자연어를 분석하는데 있어 가장 중요한 것은 지식 베이스(Knowledge Base)가 얼마나 정확하고 많이 구축되어 있는가 하는 것이다. 일반적으로 이 지식 베이스는 사전으로 구성될 수 있는데 이를 전자 사전이라 한다. 또 지식 베이스의 정보들은 계속적으로 유지, 수정되는데 이는 말뭉치의 분석을 통해 얻어질 수 있다. 본 논문은 전자사전의 구성및 말뭉치의 분석과 관리를 구문 분석기를 통해서 알아본다.

  • PDF

A study on the aspect-based sentiment analysis of multilingual customer reviews (다국어 사용자 후기에 대한 속성기반 감성분석 연구)

  • Sungyoung Ji;Siyoon Lee;Daewoo Choi;Kee-Hoon Kang
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.6
    • /
    • pp.515-528
    • /
    • 2023
  • With the growth of the e-commerce market, consumers increasingly rely on user reviews to make purchasing decisions. Consequently, researchers are actively conducting studies to effectively analyze these reviews. Among the various methods of sentiment analysis, the aspect-based sentiment analysis approach, which examines user reviews from multiple angles rather than solely relying on simple positive or negative sentiments, is gaining widespread attention. Among the various methodologies for aspect-based sentiment analysis, there is an analysis method using a transformer-based model, which is the latest natural language processing technology. In this paper, we conduct an aspect-based sentiment analysis on multilingual user reviews using two real datasets from the latest natural language processing technology model. Specifically, we use restaurant data from the SemEval 2016 public dataset and multilingual user review data from the cosmetic domain. We compare the performance of transformer-based models for aspect-based sentiment analysis and apply various methodologies to improve their performance. Models using multilingual data are expected to be highly useful in that they can analyze multiple languages in one model without building separate models for each language.

LSTM based Language Model for Topic-focused Sentence Generation (문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델)

  • Kim, Dahae;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

IBM Watson 작동방식에 대한 이해 및 사례 소개

  • Kim, Cheon-Sun
    • Broadcasting and Media Magazine
    • /
    • v.22 no.1
    • /
    • pp.1-9
    • /
    • 2017
  • IBM Watson은 새로운 컴퓨팅 시대인 코그니티브 시스템으로의 첫 걸음으로 상징된다. Watson은 현 프로그램 컴퓨팅의 시대 기반 위에 구축되었으나, 매우 중요한 방식에서 차이가 있다. ${\bullet}$ 오늘날 전세계 데이터의 80%를 차지하고 있는 복잡한 비정형 데이터에 대한 이해를 돕는 자연어 처리(Natural Language Processing) ${\bullet}$ 관련된 증거만을 기반으로 응답에 가중치를 부여하고 평가하기 위한 고도의 분석 기법을 적용한 가설 생성 및 평가 방식 ${\bullet}$ 반복을 통해 좀더 똑똑해 질 수 있도록 결과를 기반으로 학습을 개선할 수 있도록 돕는 동적 학습 방식이 각각이 Watson에만 특별한 것은 아니지만, Watson은 각 역량의 조합을 통해 강력한 솔루션을 제공하고 있다. IBM Watson과 같은 코그니티브 시스템은 조직이 생각하고, 행동하고, 운영되는 방식을 혁신시킬 수 있다. 이 글에서는 어떻게 IBM Watson이 시작되었으며, 직접적이고 신뢰할 수 있는 답변을 제공하기 위해 자연어 처리와 동적 학습 및 가설 생성/평가를 어떻게 조합하는지, 나아가 어떤 분야에서 적용되고 있는지 그 사례를 소개하고자 한다.

Home Appliance Control based on Natural Language Processing (자연어 처리 기반의 가전 제어)

  • Lee, Seong-Joon;Ahn, Kwang-Seon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.1527-1530
    • /
    • 2005
  • 스마트 홈은 홈 내의 여러 장치와 서비스가 서로 협력함으로써 최적의 가정환경을 만들고, 거주자가 원격지에서 홈 내의 특정 가전을 제어할 수 있도록 발전하였다. 현재 가장 많이 사용되어지고 있는 웹 서버를 이용하는 방법은 고정 IP(Internet Protocol)를 가지고 있지 않고, 푸쉬(Push) 기능의 부재로 인해 거주자가 지시한 내용이 잘 진행되어지고 있는지 알기 위해 새로운 플랫폼을 구축하거나, 다시 접속을 하여야만 진행상황을 알 수 있다. 또한, 제어를 원하는 정보가전의 상태를 먼저 받아야만 제어가 가능하기 때문에 실내에서는 그 상태를 사용자가 알고 있지만, 패킷의 오류 발생은 제어의 지연 원인이 된다. 유비쿼터스는 인간친화적인 형태의 제어 장비를 제안하여 오고 있다. 본 논문에서는 메신저와 자연어 처리의 구문 분석을 활용하여 정보 가전을 제어할 수 있는 방법을 제안한다.

  • PDF

Quest ion and Answer ing System of Educational Administration Using Natural Language Processing (자연어처리를 이용한 교육행정의 질의응답시스템)

  • Lee Mi-Na;Youn Sung-Dae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.805-807
    • /
    • 2005
  • 정보통신 기술의 발달로 일반기업체 뿐만 아니라 공공기관 등 행정업무가 필요한 곳에서는 대부분 웹사이트를 통해 사용자에게 원하는 정보를 제공해 주고 있다. 그러므로 대부분의 상업용 사이트들은 사용자에게 보다 편리하게 정보를 제공해 주기 위하여 다양한 정보검색의 접근 방법을 사용하고 있다. 그러나 현재 교육행정의 업무처리 분야에서 정보제공은 웹사이트의 단순 키워드검색을 통하여 사용자가 직접 정보를 찾는 방식으로 이루어지고 있다. 본 논문에서는 자연어처리를 사용한 교육행정의 질의응답시스템을 제안한다. 사용자 질의의 의도를 분석하여 기본사전과 매칭한 후에 추출된 사용자 질의정보를 통해 자동으로 정답 데이터뷰를 생성하여 사용자 의도에 알맞는 정확한 정답을 제공하도록 하였다. 또한 동적인 FAQ 관리기능인 히스토리를 통해서 한번 질의한 정답을 신속히 제공하도록 하였다. 제안한 시스템의 효용성을 검증하기 위해 교육행정정보를 제공하는 간단한 질의응답시스템을 구현하여 적용해본 결과 일반 키워드 검색에서보다 정확하게 정답을 제공해 주는 것을 확인할 수 있었다.

  • PDF

Informal ion Retrieval using Word Sense Disambiguation based on Statintical Method (통계기만 의미중의성 해소를 이용한 정보검색)

  • Hur, Jeong;Kim, Hyun-Jin;Jang, Myung-Gil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.508-510
    • /
    • 2002
  • 인터넷의 발전과 더불어 기하급수적으로 늘어난 디지털 정보를 대상으로 사용자의 요구를 만족시키는 정보검색을 하기 위해 자연어처리 기술이 많이 응용되고 있다. 본 논문에서는 정보검색에 자연어 처리 기술 중, 의미중의성 해소(WSD) 기술을 적용하였다. HANTEC 12만 문서를 대상으로 9개의 중의성 단어를 실험한 결과 67.8%의 정확률을 보였다. 본 실험을 통해 WSD의 오분석이 정보검색의 정확률에 상당히 민감한 결과를 초래함을 알 수 있었다. 그리고, WSD 기술이 정보검색에 적용된 떼 발생할 수 있는 여러 문제점들에 대하여 논의하였고, 이 문제점의 근원적인 해결방안은 WSD기술의 발전에 있다는 것을 알 수 있었다.

  • PDF