• 제목/요약/키워드: Sentence analysis

검색결과 493건 처리시간 0.025초

자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축 (E-commerce data based Sentiment Analysis Model Implementation using Natural Language Processing Model)

  • 최준영;임희석
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.33-39
    • /
    • 2020
  • 자연어 처리 분야에서 번역, 형태소 태깅, 질의응답, 감성 분석등 다양한 영역의 연구가 활발히 진행되고 있다. 감성 분석 분야는 Pretrained Model을 전이 학습하여 단일 도메인 영어 데이터셋에 대해 높은 분류 정확도를 보여주고 있다. 본 연구에서는 다양한 도메인 속성을 가지고 있는 이커머스 한글 상품평 데이터를 이용하고 단어 빈도 기반의 BOW(Bag Of Word), LSTM[1], Attention, CNN[2], ELMo[3], KoBERT[4] 모델을 구현하여 분류 성능을 비교하였다. 같은 단어를 동일하게 임베딩하는 모델에 비해 문맥에 따라 다르게 임베딩하는 전이학습 모델이 높은 정확도를 낸다는 것을 확인하였고, 17개 카테고리 별, 모델 성능 결과를 분석하여 실제 이커머스 산업에서 적용할 수 있는 감성 분석 모델 구성을 제안한다. 그리고 모델별 용량에 따른 추론 속도를 비교하여 실시간 서비스가 가능할 수 있는 모델 연구 방향을 제시한다.

한국어 텍스트 문장정렬을 위한 개체격자 접근법과 LSA 기반 접근법의 활용연구 (A comparative study of Entity-Grid and LSA models on Korean sentence ordering)

  • 김영삼;김홍기;신효필
    • 인지과학
    • /
    • 제24권4호
    • /
    • pp.301-321
    • /
    • 2013
  • 본 논문은 텍스트의 응집도 측정과 텍스트 자동생성 시스템을 위한 기초기술 중 하나인 문장정렬 과제에 대한 연구로, 개체기반적(entity-based) 접근의 한 유형인 개체격자 모형(Entity-Grid model)과 벡터공간 모형에 기반한 LSA(Latent Semantic Analysis)를 모두 시도하고 결과를 서로 비교하였다. 개체격자 모형에 대한 기존 연구들에서 논의된 명사들의 통사역(syntactic role) 정보가 한국어 텍스트 정렬과제에 미치는 영향을 실험하고자 하였으며, 기존 독일어권 응용연구 결과와는 달리 긍정적인 결과를 얻었다. 이 과정에서 한국어의 격조사를 활용하는 전략을 취했으며, 이는 한국어의 격표지 정보가 한국어 텍스트의 응집성을 측정하는 데에 유용할 수 있다는 점을 보인 것이다. 그리고 개체격자 모형을 통한 결과를 LSA 기반 모형결과와 비교하여 양 모형의 장단점과 향후 개선점을 아울러 논의하였다.

  • PDF

영한 기계번역에서 구문 분석 정확성 향상을 위한 구문 범주 예측 (Syntactic Category Prediction for Improving Parsing Accuracy in English-Korean Machine Translation)

  • 김성동
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.345-352
    • /
    • 2006
  • 실용적인 영한 기계번역 시스템은 긴 문장을 빠르고 정확하게 번역할 수 있어야 한다. 보다 빠른 번역을 위해 문장 분할을 이용한 부분 파싱 방법이 제안되어 속도 향상에 기여하였다. 본 논문에서는 보다 정확한 분석을 위해 결정 트리를 이용한 구문 범주 예측 방법을 제안한다. 문장 분할을 적용한 영어 분석에서 각각의 분할된 부분은 개별적으로 분석되며 각 분석 결과들이 결합되어 문장의 구조가 생성된다. 여기서 각 분할의 구문 범주를 미리 예측하여 부분 파싱 후에 보다 정확한 분석 결과를 선정하고 예측된 구문 범주에 근거하여 올바르게 다른 문장의 분할결과와 결합함으로써 문장 분석의 정확도를 향상시키는 것이 본 논문에서 제안한 방법의 목적이다. 본 논문에서는 Wall Street Journal의 파싱된 말뭉치에서 구문 범주 예측에 필요한 특성을 추출하고 결정 트리를 이용하여 구문 범주 예측을 위한 결정 트리를 생성하였다. 실험에서는 사람이 구축한 규칙을 이용한 방법, trigram 확률을 이용한 방법, 신경망을 이용한 방법 등에 의한 구문 범주 예측 성능을 측정, 비교하였으며 제안된 구문 범주 예측이 번역의 품질 향상에 기여한 정도를 제시하였다.

실생활 문장제의 해결과정에 나타나는 오류유형 분석 (The analysis of mathematics error type that appears from the process of solving problem related to real life)

  • 박장희;유시규;이중권
    • 한국학교수학회논문집
    • /
    • 제15권4호
    • /
    • pp.699-718
    • /
    • 2012
  • 학생들이 문장으로 이루어진 문제를 해결과정에서 발생하는 오류의 유형을 분류하고, 각각의 오류 유형을 보인 학생들의 면담(인터뷰)을 통하여 오류를 범하게 된 요인을 분석하였다. 연구결과에 따라 나타난 대표적인 오류 유형은 '문항 이해의 부족', '풀이과정의 오류', '정리나 정의에 대한 왜곡된 이해', '이기과정의 오류', '기술적 오류', '풀이과정 생략' 등으로 나타났다. 또한 일부 학생들은 문장제에 대한 부담감으로 문제를 해결하기보다는 포기하는 현상이 나타났으며, 학생들은 문장으로 이루어진 문제를 해결을 하기 위해서 무엇보다 문제에 대한 이해가 필요한데, 이 부분이 절대적으로 부족하여 문제에서 주어진 자료를 자의적으로 판단하고 활용하는 경향이 짙게 보였다. 교사는 학생들이 문장제 문제 해결과정에서 발생하는 오류를 미리 파악하고 이를 보안할 수 있는 교수-학습방법으로 학생들을 지도한다면 오류를 사전에 예방하여 발생빈도를 줄일 수 있고, 학생들로 하여금 효과적인 학습이 이루어 질 수 있을 것이다.

  • PDF

고전의서(古典醫書) 중 도인기공법(導引氣功法)에 관한 문헌(文獻) 연구(硏究) (A Documentational Study of Doinqigong in The Oriental Medicine Classics)

  • 김현태;한창현;이상남;권영규;안상우;박지하
    • 대한한의학원전학회지
    • /
    • 제22권3호
    • /
    • pp.7-29
    • /
    • 2009
  • Objectives : Because of emphasizing a side of preventive medicine in the oriental medicine, an interest in Doinqigong(導引氣功: Physical and breathing exercise) has been elated recently. But, it has a limited sphere of application in the present south korea. Therefore we would like to bring out its sphere of application and detailed method in the oriental medicine classics. Method : We have researched theory and method of Doinqigong in the Junghwauijeon(中華醫典: Oriental medicine classic collections) DB according to below the procedure. (1) Making a related words list: We have used existing study of Doinqigong to make a list. It has been connected with Doinqigong. It includes not only technical terms, but also general terms. (2) Searching sentence: We have searched sentence that contain terms related with Doinqigong in the Junghwaeujeon DB. (3) Analysis of related sentence: We have searched and classified sentence by theory and method. Conclusions : (1) The total number of oriental medicine classics connected with Doinqigong is twelve. (2) The number of oriental medicine classics connected with Doinqigong's theory is four. and the contents are the working principle of Doinqigong, the Doinqigong following to time, the control of life's cultivation, the importance of consciousness, the consciousness of the running qigong and so on.

  • PDF

"외대비요(外臺秘要)"의 약욕요법(藥浴療法) 활용에 관한 연구 (A Study of bathing therapy on the ${\ulcorner}$Wai-Tai-Mi-Yao(外臺秘要)${\lrcorner}$)

  • 허경자;이병욱;김은하
    • 한국한의학연구원논문집
    • /
    • 제11권1호
    • /
    • pp.43-60
    • /
    • 2005
  • Objective : ${\ulcorner}$Wai-Tai-Mi-Yao${\lrcorner}$ had been made by Wang-Dao(王燾) in Tang Dynasty(唐朝). It included not only in those days medical knowledge, but also before medical knowledge. So it is regarded as important classic in the oriental medicine. And there are various bathing therapy methods. Therefore we would like to bring out use sphere and detailed method of bathing therapy in Tang Dynasty and before period. Methodologies :We have researched bathing therapy of ${\ulcorner}$Wai-Tai-Mi-Yao${\lrcorner}$ according to below the procedure. (1) Making a related words list: We have used existing external treatments technical books to make a list. The list is consist of 23 words and includes not only technical terms, but also general terms. (2) Searching sentence: We have searched sentence that contain terms that related with bathing therapies. (3) Analysis of related sentence: We have searched and classified sentence by disease. Conclusions :(1) ${\ulcorner}$Wai-Tai-Mi-Yao${\lrcorner}$ has described 15,180 records. Bathing therapies of ${\ulcorner}$Wai-Tai-Mi-Yao${\lrcorner}$ had been used to cure 726 records from the whole volume. The contents account for 4.8% of the whole volume. (2) ${\ulcorner}$Wai-Tai-Mi-Yao${\lrcorner}$ has described 1,104 diseases. Bathing therapies of ${\ulcorner}$Wai-Tai-Mi-Yao${\lrcorner}$ had been used to cure 293 diseases from the whole diseases. The contents account for 26.5% of the whole volume. (3) These diseases belong to dermatologic, internal, ophthalmic, otolaryngologic, obstetrics, gynecologic, pediatric, surgical and veterinary diseases.

  • PDF

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

주성분 보유수에 따른 중요 용어 추출의 비교 (Comparison of Significant Term Extraction Based on the Number of Selected Principal Components)

  • 이창범;옥철영;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.329-336
    • /
    • 2006
  • 문서를 구성하는 단어들은 서로 연관이 있다는 정보를 충분히 이용할 수 있는 다변량 분석 방법 중, 주성분분석(Principal Component Analysis)을 이용하여 중요 용어를 추출하고자 한다. 본 논문에서는 주성분분석의 분석 대상을 용어 사이의 공분산행렬이 아닌 상관행렬을 이용한다. 그리고, 중요 용어를 추출하기 위해서, 보유해야 할 주성분 개수와 주성분과 용어 사이의 상관계수에 대한 최적의 임계치를 찾고자 한다. 283건의 신문기사를 대상으로, 추출된 용어에 기반한 문장 추출 실험 결과, 첫 6개까지의 주성분과 상관계수 |0.4|라는 조건에서 가장 좋은 성능을 보였다.

BERT-Fused Transformer 모델에 기반한 한국어 형태소 분석 기법 (Korean Morphological Analysis Method Based on BERT-Fused Transformer Model)

  • 이창재;나동열
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.169-178
    • /
    • 2022
  • 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소 분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는 것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에 직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를 다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로 변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한 BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을 이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.

한국어 대화체 문장 분석을 이용한 메타 정보검색 (Meta Information Retrieval using Sentence Analysis of Korean Dialogue Style)

  • 박인철
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권10호
    • /
    • pp.703-712
    • /
    • 2003
  • 오늘날 통신의 발전에 따라 인터넷상에 존재하는 정보의 양이 많아지고, 필요한 정보를 효율적으로 찾아내는 정보 검색 시스템의 중요성이 크게 대두되고 있다. 대부분의 정보 검색 시스템에서는 단순한 키워드나 키워드를 이용한 불리언 질의어를 바탕으로 필요한 문서를 검색해 내고 있다. 그러나, 키워드를 이용한 정보 검색은 사용자의 편의성 및 주어진 질의어에 대한 이해의 정확성 측면에서 우리가 일상생활에서 사용하는 대화체 문장을 이용한 질의어에 비해 많은 어려움을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 한국어 대화체 문장의 정보 검색을 위한 메타질의어처리시스템을 설계하고 구현한다. 본 논문에서 제안한 한국어 대화체 문장 분석을 이용한 정보 검색은 주어진 질의어에 대해 형태소 분석과 구문 분석 및 시소러스를 이용한 질의어의 확장을 통해 사용자가 원하는 질의어를 포함하는 새로운 질의어를 형성해 내며, 질의어에 포함된 중의성도 부분적으로 해결할 수 있었다.

  • PDF