• Title/Summary/Keyword: 텍스트 연구

Search Result 3,494, Processing Time 0.035 seconds

Improving Recognition of Patent's Claims with Deep Neural Networks (딥러닝 기반 특허의 종속 청구항 인식 개선)

  • Park, Ju-yeon;Shin, Yeji;Kim, Minsu;Kim, Dongho;Kim, Jihie
    • Annual Conference of KIPS
    • /
    • 2020.05a
    • /
    • pp.500-503
    • /
    • 2020
  • 특허를 통해 기술의 권리를 정의하고 보호하는 일이 매우 중요해짐에 따라 특허 문서를 분석하는 연구 또한 중요해지고 있다. 특히 특허의 청구항을 종속항과 독립항을 구분하고, 관련된 인용을 찾아내는 일은 관련 특허들을 분석하는데 매우 중요하다. 본 연구는 최근 텍스트 분석 분야에 획기적 성능 개선을 이끈 BERT(Bidirectional Encoder Representations From Transformers) 언어 모델을 사용하고 Neural Network 의 파인 튜닝 과정을 통해 청구항의 독립과 종속을 구분하였고, 인용하는 항의 번호와 인용 문구로 이루어진 인용 패턴을 통해 종속항의 인용 항을 찾아내었다. 이 방법을 2003 년 이후의 xml 형식의 미국 특허 데이터에 사용한 결과, 정확도 99% 의 성능을 확보하였다.

Optimizing ELECTRA-based model for Zero Anaphora Resolution (생략복원을 위한 ELECTRA 기반 모델 최적화 연구)

  • Park, Jinsol;Choi, Maengsik;Matteson, Andrew;Lee, Chunghee
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.329-334
    • /
    • 2021
  • 한국어에서는 문장 내의 주어나 목적어가 자주 생략된다. 자연어 처리에서 이러한 문장을 그대로 사용하는 것은 정보 부족으로 인한 문제 난이도 상승으로 귀결된다. 생략복원은 텍스트에서 생략된 부분을 이전 문구에서 찾아서 복원해 주는 기술이며, 본 논문은 생략된 주어를 복원하는 방법에 대한 연구이다. 본 논문에서는 기존에 생략복원에 사용되지 않았던 다양한 입력 형태를 시도한다. 또한, 출력 레이어로는 finetuning layer(Linear, Bi-LSTM, MultiHeadAttention)와 생략복원 태스크 형태(BIO tagging, span prediction)의 다양한 조합을 실험한다. 국립국어원 무형 대용어 복원 말뭉치를 기반으로 생략복원이 불필요한 네거티브 샘플을 추가하여 ELECTRA 기반의 딥러닝 생략복원 모델을 학습시키고, 생략복원에 최적화된 조합을 검토한다.

  • PDF

A Study on Segmentation Unit for the Real-time Simultaneous Interpretation System (실시간 동시통역 시스템 개발을 위한 통역 분절단위 연구)

  • Koo, Youngeun;Kim, Jiyoun;Hong, Jungpyo;Hong, Munpyo;Choi, Sung-Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.229-235
    • /
    • 2019
  • 동시통역에서는 번역이 즉각적으로 빠르게 이루어지면서 원천텍스트의 의미가 정확히 전달되는 것이 핵심이다. 따라서 실시간 동시통역 시스템의 개발을 위해서는 번역정확도와 번역속도가 균형적으로 최적을 이루는 지점에서 분절하는 방법론이 필요하다. 이를 위해 본 연구에서는 운율 정보, 문법·통사 규칙, 의미 단위, 담화구조 표지, 분절단위의 길이 등 다양한 언어학적 자질을 제시하였다. 또한 본 논문에서 제안한 방법론을 검증하는 실험을 진행하였으며 그 결과 영한 데이터는 82%, 한영 데이터는 90%의 정확도를 보였다.

  • PDF

Korean Spatial Elements Extraction using BERT (BERT 모델을 이용한 한국어 공간 개체 추출)

  • Shin, Hyeong Jin;Yuk, Dae Bum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.478-480
    • /
    • 2019
  • 텍스트에서 공간 정보를 추출하기 위해 그동안 통계 및 확률 기반 방법, 심층학습 방법 등이 연구되어 왔다. 본 연구에서는 최근 자연언어처리에서 우수한 성능을 보이고 있는 BERT 모델을 적용하여 공간 개체 정보를 추출한다. 공간 개체 추출은 공간 관계에 관련된 속성 추출을 함께 고려한 결합(joint) 모델로 구성하였으며, 한국어를 대상으로 BERT 기학습된 언어모델인 korBERT를 이용하였다. 실험결과, 기존의 방법들에 비해 1.9% 포인트 이상 증가한 성능을 보였다.

  • PDF

A Study on the Perception of Disaster and Crisis Using SNS(Twitter) (SNS(트위터)를 활용한 재난 및 위기상황 인식에 관한 연구)

  • Choi, YeonHo;Hyun, SangYeop;Shin, Younsoon
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.483-486
    • /
    • 2021
  • 재난 및 위기상황이 발생하면 해당 상황을 신속하고 정확하게 파악해야 많은 사람들을 구조할 수 있다. 본 논문은 SNS에서 재난 및 위기 상황을 정확하게 인식하는 연구를 진행한다. 텍스트 정규화, 워드 토큰화, 단어 임베딩 과정을 통해 전처리를 진행하고 키워드와 여러 특징들을 뽑아 SVM classifier를 사용하여 분류 작업을 실시한다. 실험결과 재난과 연관이 있는 경우에 해시태그의 빈도수, URL 빈도수, 두 키워드간의 거리가 다른 특징들의 조합보다 더 좋은 결과를 나타내었다.

A study on the categories and characteristics of depressive moods in chatbot data (챗봇 데이터에 나타난 우울의 범주와 특성에 관한 연구)

  • Chin, HyoJin;Baek, Gum-hee;Cha, Chiyoung;Choi, Jeonghoi;Im, Hyunseung;Cha, Meeyoung
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.993-996
    • /
    • 2021
  • 챗봇의 사용 용도는 일상 대화와 소비자 응대를 넘어서 심리 상담 용도로 확장하고 있다. 이 연구에서는 챗봇-사람 채팅에서 무작위로 추출한 '우울'과 관련된 대화 데이터를 텍스트마이닝 기법으로 분석하여 채팅에서의 우울 관련 담론 주제를 파악하였다. 더불어 정성 분석을 통해 사용자들이 챗봇에 털어놓고 있는 '우울' 의 종류를 범주화하고 분류하여, 트위터의 '우울' 데이터와의 차이점을 비교하였다. 이를 통해 챗봇 데이터의 '우울' 대화만의 특징을 파악하고, 우울 증상 탐지와 그에 따른 적절한 심리지원 정보를 제공하는 서비스 디자인의 착안점을 제시한다.

Correlation Analysis Between Online Public Opinion and Stock Price (SNS 여론과 주가지수의 상관관계 분석)

  • Hyun-Ji Kim;Sung-Ju Oh
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.394-395
    • /
    • 2023
  • "이성적이며 이상적인 합리적 인간"을 가정하는 기존 경제학의 이론이 항상 실제 상황과 일치하지는 않는 것으로 알려져 있다. 이의 대안으로 나온 행동경제학은, 인간의 경제적 의사결정에 심리, 인지, 감정, 사회문화적 배경 등이 영향을 미친다고 본다. 본 연구에서는 행동경제학에 의거하여, 개인의 감정과 경험이 경제적 의사결정에 영향을 미치는지 여부를 빅데이터 모델을 활용하여 분석하였다. SNS 여론으로는 Reddit, 주가지수로는 S&P 500 을 선정하였다. 수집한 텍스트 데이터를 전처리와 감정분석을 통해 독립변수 값으로 사용했고, 주가지수 등락의 방향성을 종속변수로 사용하여 로지스틱 모형을 구성했다. 모델을 활용하여 분석한 결과 Public sentiment 와 Market sentiment 간 양의 상관관계를 확인할 수 있었다. 또한, lag 를 설정하는 모델이 정확도가 더욱 높음을 확인해, 기존 경제학의 EMH 와 대립되는 바를 확인할 수 있었다. 하지만 최적의 lag 산정을 위해, 더 광범위한 데이터를 바탕으로 한 후속연구가 필요하다.

Domain Specific Language Models to Measure Sentence Difficulty (문장 난이도 측정을 위한 도메인 특화 언어 모델 연구)

  • Gue-Hyun Wang;Dong-Gyu Oh;Soo-Jin Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.600-602
    • /
    • 2023
  • 사전 학습된 언어 모델은 최근 다양한 도메인 및 응용태스크에 활용되고 있다. 하지만 언어 모델을 활용한 문장 난이도 측정 태스크에 대해서는 연구가 수행된 바 없다. 이에 본 논문에서는 교과서 데이터를 활용해 문장 난이도 데이터 셋을 구축하고, 일반 말뭉치로 훈련된 BERT 모델과 교과서 텍스트를 활용해 적응 학습한 BERT 모델을 문장 난이도 측정 태스크에 대해 미세 조정하여 성능을 비교했다.

  • PDF

Normalization of Clinical Medical Records by Disambiguating Abbreviations and Acronyms (약어와 두문자어의 모호성 해결을 통한 임상 의무기록의 정규화)

  • Inho Bae;Jin-Sang Kim;Yoon-Nyun Kim
    • Annual Conference of KIPS
    • /
    • 2008.11a
    • /
    • pp.676-678
    • /
    • 2008
  • 임상 의무기록에 나타나는 많은 두문자어들은 기계적인 처리과정에서 의무기록의 모호성을 크게 증가시키기 때문에, 정보추출이나 텍스트 마이닝을 하기 전에 전처리 과정으로 의무기록이 정규화 되어야 한다. 본 연구에서는 임상 의무기록 중 하나인 퇴원요약지에 사용된 약어와 두문자어들의 모호성을 제거하기 위한 정규화 시스템을 설계하고 구현했다. 정규화를 위해 문맥정보를 이용하여 의무기록의 종류와 기록내 위치정보를 파악하였고 이를 이용하여 약어와 두문자어의 의미를 학습하고 분류하였다. 본 연구에서 구현한 정규화 시스템은 실험에서 6가지 두문자어들이 가지는 16가지 의미들에 대해 94.7%의 정확률을 얻었다.

Product Sales Strategy Improvement Model Based on Review and Psychological factor analysis (상품 리뷰 데이터 및 심리학적 요소를 반영한 상품 판매 전략 개선 모델)

  • He-sse Park;Dong-Gun Lee;Yeong-Seok Seo
    • Annual Conference of KIPS
    • /
    • 2024.10a
    • /
    • pp.475-476
    • /
    • 2024
  • 온라인 쇼핑의 증가로 인해 상품평(리뷰)의 중요성이 높아지고 있다. 본 연구에서는 리뷰 데이터를 수집하고 이를 분석하여 상품의 판매 전략 개선 모델을 개발하였다. 이를 위해 웹 크롤링과 OCR 기술을 활용하여 댓글을 텍스트로 변환하고, Chat GPT 4o model를 사용해 댓글을 분석하였다. 모델을 통해 얻은 결과 데이터는 상품의 품질, 가격, 배송 등의 측면에서 주요한 피드백 요소들을 도출하는데 사용되었다. 본 연구는 IT 기술과 심리학적 요소를 결합하여 소비자 행동을 분석하는 새로운 접근 방식을 제시하며, 이를 통해 보다 효과적인 마케팅 전략을 수립할 수 있음을 보여준다.