• Title/Summary/Keyword: 법률 텍스트 처리

Search Result 8, Processing Time 0.021 seconds

A Study on Language Modeling for Korean Legal Text Processing (한국어 법률 텍스트 처리를 위한 언어 모델링 연구)

  • Ye-Jee Kang;Fei Li;Yeon-Ji Jang;Hye-Rin Kang;Seo-Yoon Park;Han-Saem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.300-304
    • /
    • 2022
  • 본 논문은 한국어 법률 텍스트 처리를 위해 세 가지 서로 다른 사전 학습 모델을 미세 조정하여 그 성능을 평가하였다. 성능을 평가하기 위해 타겟 판결 요지에 대한 판결 요지 후보를 추출하여 판결 요지 간의 유사도를 계산하였다. 또한 유사도를 바탕으로 추출된 판결 요지가 실제 법률 전문가와 일반 언어학자의 직관에 부합하는지 판단하기 위해 정성적 평가를 진행하였다. 그 결과 법률 전문가가 법률 전문 지식이 없는 일반 언어학자에 비해 판결 요지 간 유사도를 낮게 평가하였는데 법률 전문가가 법률 텍스트의 유사성을 판단하는 기준이 기계와 일반 언어학자와는 달라 전문가 자문에 기반한 한국어 법률 AI 모델 개발의 필요성을 확인하였다. 최종 연구 결과로 한국어 법률 AI 프레임워크를 제안하였다.

  • PDF

Domain-Adaptive Pre-training for Korean Document Summarization (도메인 적응 사전 훈련 (Domain-Adaptive Pre-training, DAPT) 한국어 문서 요약)

  • Hyungkuk Jang;Hyuncheol, Jang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.843-845
    • /
    • 2024
  • 도메인 적응 사전 훈련(Domain-Adaptive Pre-training, DAPT)을 활용한 한국어 문서 요약 연구에서는 특정 도메인의 문서에 대한 이해도와 요약 성능을 향상시키기 위해 DAPT 기법을 적용했다. 이 연구는 사전 훈련된 언어 모델이 일반적인 언어 이해 능력을 넘어 특정 도메인에 최적화된 성능을 발휘할 수 있도록 도메인 특화 데이터셋을 사용하여 추가적인 사전 훈련을 진행한다. 구체적으로, 의료, 법률, 기술 등 다양한 도메인에서 수집한 한국어 텍스트 데이터를 이용하여 모델을 미세 조정하며, 이를 통해 얻은 모델은 도메인에 특화된 용어와 문맥을 효과적으로 처리할 수 있음을 보여준다. 성능 평가에서는 기존 사전 훈련 모델과 DAPT를 적용한 모델을 비교하여 DAPT의 효과를 검증했다. 연구 결과, DAPT를 적용한 모델은 도메인 특화 문서 요약 작업에서 성능 향상을 보였으며, 이는 실제 도메인별 활용에서도 유용할 것으로 기대된다.

A Study on Automated HoMokDan Structure Determination in Table (테이블 내의 호목단 구조 판별 자동화에 대한 연구)

  • Cho, Sung-Soo;Kim, Myung Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.295-297
    • /
    • 2012
  • 현재 법률과 관련된 문서들은 변경 사항 에 대한 공표와 기록의 중요성을 가지고 있다. 따라서 변경사항을 자동으로 인지하고 공표할 수 있는 자동화 시스템에 대한 관심과 연구가 진행되고 있다. 그러나 대부분의 문서들은 복잡한 구조이기 때문에 자동화에 어려움이 많다. 이로 인해 복잡한 구조의 문서를 자동으로 판별할 수 있는 방법에 관한 관심이 증대되고 있다. 현재 국내외에서는 전자 문서 파일의 텍스트 및 테이블을 판별해서 분류 하는 자동화에 대한 연구가 진행되고 있다. 하지만 이전 연구에서는 호목단 구조를 갖는 계층적인 테이블을 판별하지 않는다. 그래서 본 논문에서는 호목단을 정의하고, 테이블의 호목단 구조를 패턴 별로 분류 하며, 테이블의 호목단 구조 판별 방법을 제시한다.

Development of Artificial Intelligence-based Legal Counseling Chatbot System

  • Park, Koo-Rack
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.3
    • /
    • pp.29-34
    • /
    • 2021
  • With the advent of the 4th industrial revolution era, IT technology is creating new services that have not existed by converging with various existing industries and fields. In particular, in the field of artificial intelligence, chatbots and the latest technologies have developed dramatically with the development of natural language processing technology, and various business processes are processed through chatbots. This study is a study on a system that provides a close answer to the question the user wants to find by creating a structural form for legal inquiries through Slot Filling-based chatbot technology, and inputting a predetermined type of question. Using the proposal system, it is possible to construct question-and-answer data in a more structured form of legal information, which is unstructured data in text form. In addition, by managing the accumulated Q&A data through a big data storage system such as Apache Hive and recycling the data for learning, the reliability of the response can be expected to continuously improve.

Analysis of Judicial Precedent Information related to Debt Recovery based on Deep-Learning (심층 학습 기반의 채권 회수 판례 분석)

  • Kim, Seon-wu;Ji, Sun-young;Choi, Sung-pil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.373-377
    • /
    • 2018
  • 판례는 재판에 대한 선례로, 법적 결정에 대한 근거가 되는 핵심 단서 중 하나이다. 본 연구에서는 채권회수를 예측하는 서비스 구축을 위한 단서를 추출하기 위해 채권 회수 판례를 수집하여 이를 분석한다. 먼저 채권 회수 판례에 대한 기초 분석을 위하여, 채권 회수 사례와 비회수 사례를 각 20건씩 수집하여 분석하였으며, 이후 대법원 및 법률 지식베이스의 채권 관련 판례 12,457건을 수집하고 채권 회수 여부에 따라 가공하였다. 채권 회수 사례와 비회수 사례를 분류하기 위한 판례 내의 패턴을 분석하여 레이블링하고, 이를 자동 분류할 수 있는 Bidirectional LSTM 기반 심층학습 모델을 구성하여 학습하였다. 채권 관련 판례 가공 기준에 따라 네 가지의 데이터 셋을 구성하였으며, 각 데이터셋을 8:2의 비율로 나누어 실험한 결과, 검증 데이터에 대하여 F1 점수 89.82%의 우수한 성능을 보였다.

  • PDF

The Design and Implementation of The Amendment Statement Automatic Generated System for Attached Tables in Legislation (법령 내 별표 서식에 대한 개정지시문 자동 생성 시스템의 설계 및 구현)

  • Cho, Sung Soo;Jo, Dae Woong;Kim, Myung Ho
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.4
    • /
    • pp.111-122
    • /
    • 2014
  • Legislation are social norms that give directly or indirectly, huge impact on the social or corporate, personal problems, unlike a normal document. Also, over time it has a feature constantly changing by the laws enactment and amendment, repealed. The amendment statement automatic generated system is used for purpose of proclamation to those. However, existing system is able to generate amendment statement just text body of law how compare and analyze the current legislation and amendment legislation. However, actual legislation to be created attached table of the table form in complex structure besides simple text form as body text. In this paper, we additional implement attached table processing to existing the amendment statement automatic generated system that containing the table does not handle attached table. We were analyse to the amendment statement generated grammar and table structure in attached table of the legislation for processing to attached table. Also proposed a method to compare attached table in the table. So, it is enable the automatic generation with amendment statement which various forms of legislation the documents.

Social Roles of Child Sexual Crime Faction Films: Text Mining Analysis of Audiences' Emotional Reactions (아동·청소년 대상 성범죄 팩션영화의 사회적 역할 탐색: 텍스트 마이닝 기법을 활용한 수용자 감정반응 분석)

  • Kim, Ho-Kyung;Kwon, Ki-Seok
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.6
    • /
    • pp.662-672
    • /
    • 2017
  • Child sexual crimes have increased, but there has been no effective plan to combat this. Films reporting problems, amplify the attentions and propose countermeasures, which leads to changes. The current study examined the audiences' reactions to child sexual crime faction films using text-mining. The analysis of Naver's 2,727 blogs showed realistic words while 3,000 review comments' analysis demonstrated emotional responses. The positive and negative emotional category and degree were also different. In , the higher degree of negative emotions, such as 'angry' and 'unpleasant' appeared frequently. In , only negative emotional worlds were used. On the other hand, 'sad' was the highest ranked word, and the negative level was weak. In , 'good' a positive emotional word solely emerged. The audiences perceived the accidents objectively before release while they expressed their emotions and feelings after watching the movies. caused explosive anger and organized the participating citizens for changes. This movie provided an opportunity to enforce a legislative bill intensifying heavy punishments. The present study is significant in scrutinizing the audiences' diverse emotional reactions and discusses the future direction of society prosecution movies. Based on the text analysis of the audiences' linguistic expressions, a future study will be needed to hierarchically classify the diverse emotional expressions.

A Study on the Construction of Financial-Specific Language Model Applicable to the Financial Institutions (금융권에 적용 가능한 금융특화언어모델 구축방안에 관한 연구)

  • Jae Kwon Bae
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.29 no.3
    • /
    • pp.79-87
    • /
    • 2024
  • Recently, the importance of pre-trained language models (PLM) has been emphasized for natural language processing (NLP) such as text classification, sentiment analysis, and question answering. Korean PLM shows high performance in NLP in general-purpose domains, but is weak in domains such as finance, medicine, and law. The main goal of this study is to propose a language model learning process and method to build a financial-specific language model that shows good performance not only in the financial domain but also in general-purpose domains. The five steps of the financial-specific language model are (1) financial data collection and preprocessing, (2) selection of model architecture such as PLM or foundation model, (3) domain data learning and instruction tuning, (4) model verification and evaluation, and (5) model deployment and utilization. Through this, a method for constructing pre-learning data that takes advantage of the characteristics of the financial domain and an efficient LLM training method, adaptive learning and instruction tuning techniques, were presented.