• 제목/요약/키워드: 언어TEXT

검색결과 754건 처리시간 0.026초

Text to SPARQL을 위한 지식 증강 프롬프팅 연구 (Study on Knowledge Augmented Prompting for Text to SPARQL)

  • 이연진;남정재;김우영;김우주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-189
    • /
    • 2023
  • Text to SPARQL은 지식 그래프 기반 질의응답의 한 형태로 자연어 질문을 지식 그래프 검색 쿼리로 변환하는 태스크이다. SPARQL 쿼리는 지식 그래프의 정보를 기반으로 작성되어야 하기 때문에 기존 언어 모델을 통한 코드 생성방법으로는 잘 동작하지 않는다. 이에 우리는 거대 언어 모델을 활용하여 Text to SPARQL를 해결하기 위해 프롬프트에 지식 그래프의 정보를 증강시켜주는 방법론을 제안한다. 이에 더하여 다국어 정보 활용에 대한 영향을 검증하기 위해 한국어, 영어 각각의 레이블을 교차적으로 실험하였다. 추가로 한국어 Text to SPARQL 실험을 위하여 대표적인 Text to SPARQL 벤치마크 데이터셋 QALD-10을 한국어로 번역하여 공개하였다. 위 데이터를 이용해 지식 증강 프롬프팅의 효과를 실험적으로 입증하였다.

  • PDF

대형 언어 모델의 한국어 Text-to-SQL 변환 능력 평가 (Evaluation of Large Language Models' Korean-Text to SQL Capability)

  • 최주영;민경구;심묘섭;정해민;박민준;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.171-176
    • /
    • 2023
  • 최근 등장한 대규모 데이터로 사전학습된 자연어 생성 모델들은 대화 능력 및 코드 생성 태스크등에서 인상적인 성능을 보여주고 있어, 본 논문에서는 대형 언어 모델 (LLM)의 한국어 질문을 SQL 쿼리 (Text-to-SQL) 변환하는 성능을 평가하고자 한다. 먼저, 영어 Text-to-SQL 벤치마크 데이터셋을 활용하여 영어 질의문을 한국어 질의문으로 번역하여 한국어 Text-to-SQL 데이터셋으로 만들었다. 대형 생성형 모델 (GPT-3 davinci, GPT-3 turbo) 의 few-shot 세팅에서 성능 평가를 진행하며, fine-tuning 없이도 대형 언어 모델들의 경쟁력있는 한국어 Text-to-SQL 변환 성능을 확인한다. 또한, 에러 분석을 수행하여 한국어 문장을 데이터베이스 쿼리문으로 변환하는 과정에서 발생하는 다양한 문제와 프롬프트 기법을 활용한 가능한 해결책을 제시한다.

  • PDF

유사언어 활용 훈련이 오디오북 텍스트 형상화에 미치는 영향 연구 - 교수자의 우호적 행동을 매개변수로 - (The Effects of Paralanguage Utilization Training for Audiobook Text Shaping - Professor's Friendly Behavior as a Parameters -)

  • 조예신
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권2호
    • /
    • pp.141-153
    • /
    • 2020
  • 본 연구의 목적은 발음, 강세, 목소리의 톤, 속도, 휴지(Pause), 감정표현 등 유사언어 활용 훈련이 오디오북 텍스트 형상화에 영향을 미치는 과정에서 교수자의 우호적 행동의 매개역할 관계를 알아보고자 함에 있다. 본 연구결과는 오디오북 텍스트의 동적(動的)형상화를 위한 유사언어 활용 훈련과 매개변수인 교수자의 우호적 행동에 대한 필요성과 영향력을 인식하는 참고자료가 될 것이다. 연구의 결과는 다음과 같다. 첫째, 유사언어 활용 훈련은 오디오북 텍스트 형상화에 긍정적인 영향을 미치는 것으로 나타났으며 텍스트 본래의 의미를 전달하는 핵심 요인으로 작용하였다. 이에 따라 유사언어 활용 훈련의 의의와 내용을 살펴보고 유사언어 활용 훈련을 지속한다면 오디오북 텍스트 형상화에 도움이 될 것이다. 둘째, 교수자의 우호적 행동은 유사언어의 활용 훈련과 오디오북 텍스트 형상화 간에 부분 매개역할을 하였다. 교수자의 우호적 행동은 훈련생에게 호의와 신뢰를 갖게 하여 유사언어 활용 훈련에 도움을 주었으며 오디오북 텍스트 형상화에 대한 완성도를 높일 것이다. 따라서 유사언어 활용 훈련은 교수자의 우호적 행동과 함께 이루어질 때 오디오북 텍스트 형상화에 보다 효과적이라는 결과를 도출할 수 있었다.

언어 네트워크 분석 방법을 활용한 학술논문의 내용분석 (A Content Analysis of Journal Articles Using the Language Network Analysis Methods)

  • 이수상
    • 정보관리학회지
    • /
    • 제31권4호
    • /
    • pp.49-68
    • /
    • 2014
  • 본 연구의 목적은 국내 학술논문 데이터베이스에서 검색한 언어 네트워크 분석 관련 53편의 국내 학술논문들을 대상으로 하는 내용분석을 통해, 언어 네트워크 분석 방법의 기초적인 체계를 파악하기 위한 것이다. 내용분석의 범주는 분석대상의 언어 텍스트 유형, 키워드 선정 방법, 동시출현관계의 파악 방법, 네트워크의 구성 방법, 네트워크 분석도구와 분석지표의 유형이다. 분석결과로 나타난 주요 특성은 다음과 같다. 첫째, 학술논문과 인터뷰 자료를 분석대상의 언어 텍스트로 많이 사용하고 있다. 둘째, 키워드는 주로 텍스트의 본문에서 추출한 단어의 출현빈도를 사용하여 선정하고 있다. 셋째, 키워드 간 관계의 파악은 거의 동시출현빈도를 사용하고 있다. 넷째, 언어 네트워크는 단수의 네트워크보다 복수의 네트워크를 구성하고 있다. 다섯째, 네트워크 분석을 위해 NetMiner, UCINET/NetDraw, NodeXL, Pajek 등을 사용하고 있다. 여섯째, 밀도, 중심성, 하위 네트워크 등 다양한 분석지표들을 사용하고 있다. 이러한 특성들은 언어 네트워크 분석 방법의 기초적인 체계를 구성하는 데 활용할 수 있을 것이다.

언어 텍스트에 나타나는 벤포드 법칙: 원리와 응용 (Benford's Law in Linguistic Texts: Its Principle and Applications)

  • 홍정하
    • 한국언어정보학회지:언어와정보
    • /
    • 제14권1호
    • /
    • pp.145-163
    • /
    • 2010
  • This paper aims to propose that Benford's Law, non-uniform distribution of the leading digits in lists of numbers from many real-life sources, also appears in linguistic texts. The first digits in the frequency lists of morphemes from Sejong Morphologically Analyzed Corpora represent non-uniform distribution following Benford's Law, but showing complexity of numerical sources from complex systems like earthquakes. Benford's Law in texts is a principle reflecting regular distribution of low-frequency linguistic types, called LNRE(large number of rare events), and governing texts, corpora, or sample texts relatively independent of text sizes and the number of types. Although texts share a similar distribution pattern by Benford's Law, we can investigate non-uniform distribution slightly varied from text to text that provides useful applications to evaluate randomness of texts distribution focused on low-frequency types.

  • PDF

한중 자동 문서분류를 위한 최적 자질어 비교 (Comparison Between Optimal Features of Korean and Chinese for Text Classification)

  • 임미영;강신재
    • 한국지능시스템학회논문지
    • /
    • 제25권4호
    • /
    • pp.386-391
    • /
    • 2015
  • 본 논문에서는 한국어와 중국어의 언어학적인 특징을 고려하여 문서 자동분류 시스템의 성능을 높일 수 있는 최적의 자질어 단위를 제안한다. 언어 종속적 단위인 형태소 자질어와 언어 독립적 단위인 n-gram 자질어 그리고 이들을 조합한 복합 자질어 집합을 대상으로 각 언어의 인터넷 신문기사를 SVM으로 분류하는 실험을 수행하였다. 실험 결과, 한국어 문서분류에서는 bi-gram이 F1-measure 87.07%로 가장 좋은 분류 성능을 보였고, 중국어 문서분류에서는 'uni-gram 명사 동사 형용사 사자성어'의 복합 자질어 집합이 F1-measure 82.79%로 가장 좋은 성능을 보였다.

수학 담화에서 나타나는 교사의 감성적 언어 빈도 분석 (The Frequency Analysis of Teacher's Emotional Response in Mathematics Class)

  • 손복은;고호경
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제32권4호
    • /
    • pp.555-573
    • /
    • 2018
  • 본 연구는 텍스트 마이닝 기법을 활용하여 수학수업에서 나타나는 교사의 감성적 언어를 확인하고자 하였다. 이를 위해 우수 수업 동영상을 활용하여 수업에서 발생하는 교사의 수업 언어 데이터를 수집하였다. 추출한 비정형 데이터에 대한 분석 과정은 데이터 수집, 데이터 전처리, 텍스트 마이닝 분석의 세 가지 단계로 진행하였다. 분석 결과 수학 수업에서 오고가는 담화 중에서 교사의 감성적 반응을 나타내는 언어는 거의 나타나지 않았으며, 이를 통해 수업의 정의적 영역 측면에서의 시사점을 도출하였다.

On Removing Ambiguity in Text Understanding

  • Li, Simin;Itoh, Yukihiro
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 1998년도 Language, Information and Computation = Selected Papers from the 12th Pacific Asia Conference on Language, Information and Computation, Singapore
    • /
    • pp.271-282
    • /
    • 1998
  • PDF

텍스트 프로그래밍 언어 학습을 위한 블록 프로그래밍 언어를 선행조직자로 활용할 수 있는 도구 활용 전략 (Tool Utilization Strategy for Using Block Programming Language as a Preceding Organizer for Text Programming Language Learning)

  • 고학능;이영준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.395-396
    • /
    • 2022
  • 본 논문에서는 블록 프로그래밍 언어를 선행조직자로 하여 텍스트 프로그래밍 언어를 학습하는 도구 활용 전략을 연구하였다. 텍스트 프로그래밍 언어는 파이썬이며, 블록 프로그래밍 언어는 엔트리, 활용하는 도구는 주피터 노트북으로 선정하였다. 주피터 노트북을 활용한 블록 프로그래밍 언어 선행조직자 학습 전략은 code cell에 IPython.display.IFrame 클래스를 활용하여 결과 창에 엔트리 작업환경을 불러와 선행조직자로 제시하여 엔트리를 학습 후 code cell에서 파이썬으로 학습한다. 주피터 노트북을 통해 블록 프로그래밍 언어를 선행조직자로 제시 후 텍스트 프로그래밍 언어를 제시함으로써 텍스트 프로그래밍 언어를 학습할 때 인지적 부담을 줄어들고 긍정적 전이가 일어나 효과적인 학습이 될 것으로 기대된다.

  • PDF