• 제목/요약/키워드: 법률 텍스트 처리

검색결과 8건 처리시간 0.022초

한국어 법률 텍스트 처리를 위한 언어 모델링 연구 (A Study on Language Modeling for Korean Legal Text Processing)

  • 강예지;비립;장연지;강혜린;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.300-304
    • /
    • 2022
  • 본 논문은 한국어 법률 텍스트 처리를 위해 세 가지 서로 다른 사전 학습 모델을 미세 조정하여 그 성능을 평가하였다. 성능을 평가하기 위해 타겟 판결 요지에 대한 판결 요지 후보를 추출하여 판결 요지 간의 유사도를 계산하였다. 또한 유사도를 바탕으로 추출된 판결 요지가 실제 법률 전문가와 일반 언어학자의 직관에 부합하는지 판단하기 위해 정성적 평가를 진행하였다. 그 결과 법률 전문가가 법률 전문 지식이 없는 일반 언어학자에 비해 판결 요지 간 유사도를 낮게 평가하였는데 법률 전문가가 법률 텍스트의 유사성을 판단하는 기준이 기계와 일반 언어학자와는 달라 전문가 자문에 기반한 한국어 법률 AI 모델 개발의 필요성을 확인하였다. 최종 연구 결과로 한국어 법률 AI 프레임워크를 제안하였다.

  • PDF

도메인 적응 사전 훈련 (Domain-Adaptive Pre-training, DAPT) 한국어 문서 요약 (Domain-Adaptive Pre-training for Korean Document Summarization)

  • 장형국;장현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.843-845
    • /
    • 2024
  • 도메인 적응 사전 훈련(Domain-Adaptive Pre-training, DAPT)을 활용한 한국어 문서 요약 연구에서는 특정 도메인의 문서에 대한 이해도와 요약 성능을 향상시키기 위해 DAPT 기법을 적용했다. 이 연구는 사전 훈련된 언어 모델이 일반적인 언어 이해 능력을 넘어 특정 도메인에 최적화된 성능을 발휘할 수 있도록 도메인 특화 데이터셋을 사용하여 추가적인 사전 훈련을 진행한다. 구체적으로, 의료, 법률, 기술 등 다양한 도메인에서 수집한 한국어 텍스트 데이터를 이용하여 모델을 미세 조정하며, 이를 통해 얻은 모델은 도메인에 특화된 용어와 문맥을 효과적으로 처리할 수 있음을 보여준다. 성능 평가에서는 기존 사전 훈련 모델과 DAPT를 적용한 모델을 비교하여 DAPT의 효과를 검증했다. 연구 결과, DAPT를 적용한 모델은 도메인 특화 문서 요약 작업에서 성능 향상을 보였으며, 이는 실제 도메인별 활용에서도 유용할 것으로 기대된다.

테이블 내의 호목단 구조 판별 자동화에 대한 연구 (A Study on Automated HoMokDan Structure Determination in Table)

  • 조성수;김명호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.295-297
    • /
    • 2012
  • 현재 법률과 관련된 문서들은 변경 사항 에 대한 공표와 기록의 중요성을 가지고 있다. 따라서 변경사항을 자동으로 인지하고 공표할 수 있는 자동화 시스템에 대한 관심과 연구가 진행되고 있다. 그러나 대부분의 문서들은 복잡한 구조이기 때문에 자동화에 어려움이 많다. 이로 인해 복잡한 구조의 문서를 자동으로 판별할 수 있는 방법에 관한 관심이 증대되고 있다. 현재 국내외에서는 전자 문서 파일의 텍스트 및 테이블을 판별해서 분류 하는 자동화에 대한 연구가 진행되고 있다. 하지만 이전 연구에서는 호목단 구조를 갖는 계층적인 테이블을 판별하지 않는다. 그래서 본 논문에서는 호목단을 정의하고, 테이블의 호목단 구조를 패턴 별로 분류 하며, 테이블의 호목단 구조 판별 방법을 제시한다.

Development of Artificial Intelligence-based Legal Counseling Chatbot System

  • Park, Koo-Rack
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.29-34
    • /
    • 2021
  • 4차 산업혁명 시대의 도래와 함께 IT기술은 기존의 다양한 산업과 분야에 융합되어 기존에 없던 새로운 서비스들을 만들어내고 있다. 특히 인공지능 분야의 챗봇과 최신 기술은 자연어처리 기술의 발전과 함께 그 성능이 비약적으로 발전하여 다양한 업무처리를 챗봇을 통해 처리하고 있다. 본 연구는 슬롯필링(Slot Filling) 기반의 챗봇 기술을 통해서 법률 질의에 대한 구조적인 폼(Structual Form)을 만들고 정해진 형태의 질문을 입력하여 사용자가 찾고자 하는 질문에 근접한 답변을 제공하는 시스템에 대한 연구이다. 제안 시스템을 이용하여 텍스트 형태의 비정형 데이터인 법률 정보를 보다 구조화된 형태로 질의응답 데이터를 구축할 수 있다. 또 축적된 질의응답 데이터를 하이브(Apache Hive)와 같은 빅데이터 저장 시스템을 통해 관리하여 학습에 데이터를 재활용하는 것으로 응답의 신뢰성을 지속적 향상을 기대할 수 있다.

심층 학습 기반의 채권 회수 판례 분석 (Analysis of Judicial Precedent Information related to Debt Recovery based on Deep-Learning)

  • 김선우;지선영;최성필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.373-377
    • /
    • 2018
  • 판례는 재판에 대한 선례로, 법적 결정에 대한 근거가 되는 핵심 단서 중 하나이다. 본 연구에서는 채권회수를 예측하는 서비스 구축을 위한 단서를 추출하기 위해 채권 회수 판례를 수집하여 이를 분석한다. 먼저 채권 회수 판례에 대한 기초 분석을 위하여, 채권 회수 사례와 비회수 사례를 각 20건씩 수집하여 분석하였으며, 이후 대법원 및 법률 지식베이스의 채권 관련 판례 12,457건을 수집하고 채권 회수 여부에 따라 가공하였다. 채권 회수 사례와 비회수 사례를 분류하기 위한 판례 내의 패턴을 분석하여 레이블링하고, 이를 자동 분류할 수 있는 Bidirectional LSTM 기반 심층학습 모델을 구성하여 학습하였다. 채권 관련 판례 가공 기준에 따라 네 가지의 데이터 셋을 구성하였으며, 각 데이터셋을 8:2의 비율로 나누어 실험한 결과, 검증 데이터에 대하여 F1 점수 89.82%의 우수한 성능을 보였다.

  • PDF

법령 내 별표 서식에 대한 개정지시문 자동 생성 시스템의 설계 및 구현 (The Design and Implementation of The Amendment Statement Automatic Generated System for Attached Tables in Legislation)

  • 조성수;조대웅;김명호
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.111-122
    • /
    • 2014
  • 법령은 일반 문서들과는 달리 사회 또는 기업, 개인에게 직 간접적으로 영향을 주는 사회적 규범이다. 또한 시간이 지남에 따라서 제정 및 개정, 폐지되어 끊임없이 변화되고 있다는 특징도 가지고 있다. 이러한 변화된 부분을 사람들에게 공포하기 위한 목적으로 개정지시문 자동 생성 시스템을 이용하고 있다. 하지만 기존에 개발된 개정지시문 자동 생성 시스템은 현행 법령과 개정 법령을 비교, 분석하여 단순 텍스트 형태로 구성된 본칙 부분만을 개정지시문으로 생성하고 있다. 하지만 실제 법령은 단순 텍스트 형태의 본칙 외에 복잡한 구조를 가진 테이블 형태의 별표도 함께 생성하고 있다. 본 논문에서는 기존의 개정지시문 자동 생성 시스템이 처리하지 못했던 별표 처리에 대한 부분을 추가적으로 구현한다. 별표처리를 위해 법령의 별표 내 테이블 구조 및 개정지시문 생성 문법을 분석하였으며, 별표 내 테이블을 비교할 수 있는 방법을 제시함으로서 법령이 가지는 다양한 형태의 문서들도 개정지시문으로 자동 생성이 가능하도록 한다.

아동·청소년 대상 성범죄 팩션영화의 사회적 역할 탐색: 텍스트 마이닝 기법을 활용한 수용자 감정반응 분석 (Social Roles of Child Sexual Crime Faction Films: Text Mining Analysis of Audiences' Emotional Reactions)

  • 김호경;권기석
    • 한국산학기술학회논문지
    • /
    • 제18권6호
    • /
    • pp.662-672
    • /
    • 2017
  • 아동 청소년 대상 성범죄는 꾸준히 증가 추세에 있지만 실효적인 예방 전략을 수립하기는 역부족이다. 사회문제를 고발하는 영화는 관심을 증폭시키고 조속한 대응방안을 촉구하여 사회변화를 이끌어낸다. 본 연구는 텍스트 마이닝 기법을 활용하여 <도가니>, <소원>, 그리고 <한공주>를 중심으로 아동 청소년 대상 성범죄 팩션영화에 대한 수용자의 반응을 살펴보았다. 영화 개봉 이전 네이버 블로그 총 2,727개를 분석한 결과 사건을 설명하는 사실적인 단어가 빈번하게 등장하였고, 영화 개봉 이후 리뷰 코멘트 총 3,000개를 분석한 결과 감정적인 단어가 주로 언급되었다. 각 영화별로 긍정 부정형의 감정 범주와 정도에 있어서도 차이가 나타났다. <도가니>의 경우 '화나다'와 함께 '억울하다'와 같은 부정적 감정표현이 강한 단어들의 빈도가 높았다. <한공주>도 부정형의 감정단어만이 등장하였지만 '슬프다'는 감정이 가장 많이 등장하고 부정형 강도가 다소 약한 단어들이 뒤를 이었다. <소원>에는 긍정형의 감정표현인 '좋다' 범주가 유일하게 등장하였다. 즉 영화가 개봉되기 이전 수용자는 사건에 대해 객관적인 정보위주로 인식한 반면, 영화를 관람한 이후에는 주관적인 감정과 느낌을 표현하였다. 동일주제를 다루고 있지만, <도가니>는 폭발적인 분노를 일으켰고 사회변화를 이끄는 시민 참여적 움직임을 결성시켰다. 그 결과 성폭력 범죄에 대한 처벌을 강화하는 법률안이 처리되어 시행되는 계기를 마련하였다. 사회 고발적 팩션영화에 대한 수용자의 상이한 감정반응을 파악하고, 향후 사회변화를 이끄는 팩션영화의 방향성에 대해 논의하였다는 점에서 연구의 의의가 있다. 또한 텍스트마이닝을 활용하여 감정포현을 분석한 결과를 바탕으로, 향후 영화에 대한 다양한 감정표현을 위계적으로 분류하는 작업의 필요성이 제기된다.

금융권에 적용 가능한 금융특화언어모델 구축방안에 관한 연구 (A Study on the Construction of Financial-Specific Language Model Applicable to the Financial Institutions)

  • 배재권
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.79-87
    • /
    • 2024
  • 최근 텍스트분류, 감성분석, 질의응답 등의 자연어 처리를 위해서 사전학습언어모델(Pre-trained Language Model, PLM)의 중요성은 날로 강조되고 있다. 한국어 PLM은 범용적인 도메인의 자연어 처리에서 높은 성능을 보이나 금융, 제조, 법률, 의료 등의 특화된 도메인에서는 성능이 미약하다. 본 연구는 금융도메인 뿐만 아니라 범용도메인에서도 우수한 성능을 보이는 금융특화 언어모델의 구축을 위해 언어모델의 학습과정과 미세조정 방법을 제안하는 것이 주요 목표이다. 금융도메인 특화언어모델을 구축하는 과정은 (1) 금융데이터 수집 및 전처리, (2) PLM 또는 파운데이션 모델 등 모델 아키텍처 선정, (3) 도메인 데이터 학습과 인스트럭션 튜닝, (4) 모델 검증 및 평가, (5) 모델 배포 및 활용 등으로 구성된다. 이를 통해 금융도메인의 특성을 살린 사전학습 데이터 구축방안과 효율적인 LLM 훈련방법인 적응학습과 인스트럭션 튜닝기법을 제안하였다.