통합 검색 | Korea Science

대규모 언어 모델을 활용한 새로운 의도 발견 방법과 액티브 러닝 전략 (Novel Intent Discovery Utilizing Large Language Models and Active Learning Strategies)

천창우;임송요
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
- /
- pp.425-431
- /
- 2023
음성 어시스턴트 시스템에서 발화의 의도를 분류하고 새로운 의도를 탐지하는 것은 매우 중요한 작업이다. 끊임없이 인입되는 새로운 발화로 인해 기존에 학습된 모델의 의도 분류 성능은 시간이 지남에 따라 점차 낮아진다. 기존 연구들에서 새로운 의도 발견을 위해 제안되었던 클러스터링 방법은 최적의 클러스터 수 결정과 명명에 어려움이 있다. 이러한 제한 사항을 보완하기 위해, 본 연구에서는 대규모 언어 모델 기반의 효과적인 의도 발견 방법을 제안한다. 이 방법은 기존 의도 분류기로 판단하기 어려운 발화에 새로운 의도 레이블을 할당하는 방법이다. 새롭게 인입되는 OOD(Out-of-Domain) 발화 내에서 오분류를 찾아 기존에 정의된 의도를 탐지하고, 새로운 의도를 발견하는 효율적인 프롬프팅 방법도 분석한다. 이를 액티브 러닝 전략과 결합할 경우, 분류 가능한 의도의 개수를 지속 증가시면서도 모델의 성능 하락을 방지할 수 있고, 동시에 새로운 의도 발견을 자동화 할 수 있다.
PDF

기호와 인지: 퍼스의 심성론 (The sign and the cognition: Peirce's Theory of Mind)

김성도
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
- /
- pp.240-243
- /
- 1995
최근에 들어와 퍼스는 인지과학적 관점에서 몇몇 영미철학자들의 각별한 관심을 끌고있다. 그러나 퍼스의 기호학과 현상론의 기본 바탕이 현대 인지과학의 노선과 그렇게 쉽사리 일치가 될 것 같지는 않다. 본 발표에서 논자는 퍼스와 인지과학의 관계를 본격적으로 탐구하기 위한 준비작업으로서 기호와 사고의 관계에 대한 퍼스의 이론을 그의 초기 논문들의 분석에 기초하여 비교적 선명하게 정리해보고자 한다. 발표 초반부에서 먼저 퍼스의 프래그매티시즘의 본질을 규정하고 이어서 기호학과의 관련성을 해명한 후, 기호와 인지의 관계를 밝혀보고자 한다.
PDF

Q2. 5벌식 한글자만 배열 제안 (Proposal for a New Korean Keyboard Layout)

이일병
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
- /
- pp.133-138
- /
- 1991
새로운 한글 자판 배열이 제안되었다. 자판에서 키 선택을 위한 기본적인 원칙들과 유추되는 제안들이 간략하게 설명되었으며, 나아가 이들에 토대한 키 배열이 선택되었다. 가장 중요한 원칙은 한글에 대한 인지모형을 따라서 자음중에서 초성자와 종성자의 구분이 같은 키에서 Shift의 동작의 유무로 이루어지는 점이며, 따라서 2벌식과 3벌식의 중간 형태로 생각될 수 있으므로, 본 자판 배열은 2.5벌식으로 명명하였다. 구체적인 키들의 배열은 최근에 조사된 신빙성있는 현대 한글에 대한 자소 빈도수와 손가락에 대한 부하를 고려해서 결정되었다.
PDF

LISP의 철학적 기초 (Philosophical Foundations of LISP)

이영의;이초식
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
- /
- pp.66-75
- /
- 1991
본 논문은 LISP의 기본적인 특성으로 간주되는 조건 표현과 회기에 대한 철학적 분석이다. 특히 여기서는 논리적 결합사들과 LISP의 원초적 용어들을 비교하고 있다. LISP은 현대 철학자들이 구성했던 이상언어의 사상을 계승한 것으로 여겨진다. 이러한 점에서 인공지능 연구와 철학 간의 학제적 연구가 절실히 필요하다는 논지를 몇가지 검토해 보았다.
PDF

언어 변화와 언어 처리 - '는게/는데' 문법 화와 자동 태깅 시스템- (The Language Change and Language Processing)

최운호
- 인지과학
- /
- 제10권2호
- /
- pp.35-43
- /
- 1999
본 논문에서는 현대 한국어에서 나타나는 언어 변화 현상에 대한 설명과 그러한 언어 현상이 언어 처리 시스템에 미칠 수 있는 영향을 연구한다. 현대 한국어에서는〔관형형 어미 + 의존 명사 + (조사)〕와 같은 통사론적 구성이 형태론적 구성으로 변화되는 과정이 나타나고 있으며 몇몇 형태에서는 문자 언어 생활에서도 두드러지게 나타나고 있다. 이러한 예로 통사론적 구성〔관형형 어미 + 의존명사‘데’(+조사)〕이‘-는데’로,〔관형형 어미 + 의존명사‘것’+ 조사〕구성이‘-는게’로 나타나고 있으며, 음성 언어 생활에서는 더욱 두드러지고 있어서 다른 어미와 구별하기 어렵다. 이와 같은 유형의 형태는 다른 접속 문 어미나 내포문 어미처럼 복합문 구성에 관여하는 것으로 파악할 수 있는데, 다른 어미와는 달리 이 형태 자체에 문법적인 격 기능이 융합되어 있다. 따라서, 이러한 형태에 대한 분석 방법은 언어 처리 시스템의 구성에 영향을 미칠 수 있으며, 자동 태깅 시스템. 통사 분석 시스템 등에는 특히 그러하다. 그러므로, 언어 처리 시스템의 설계에 이러한 언어 변화 현상이 반영될 필요가 있다.
PDF

언어 네트워크 분석을 통한 현대자동차의 기업 문화마케팅 변화 연구 (Semantic Network Analysis of Trends in Hyundai Motor's Corporate Cultural Marketing)

김정현;이진우
- 예술경영연구
- /
- 제51호
- /
- pp.75-102
- /
- 2019
본 연구는 언어 네트워크 분석 기법을 이용하여 현대자동차의 문화마케팅 유형과 변화를 분석하고 국내 문화마케팅의 발전 양상을 제시하고자 하였다. 기존 연구는 기업 문화마케팅의 개념 규정과 유형화, 문화마케팅의 영향 및 성과 등을 살펴보았지만, 시간의 흐름에 따른 기업 문화마케팅의 변화는 주목하지 않았다. 이에, 본고는 다양한 형태의 문화마케팅을 시행해온 현대자동차를 대상으로, 현대자동차의 문화마케팅이 보도된 2001년부터 2018년까지를 시간적 범주로 설정하고 국내 일간지 기사 2,315건을 분석하였다. 18년의 시간을 4개 시기로 분류하고, 시기마다 빈출단어를 추출하여 한국어 언어 분석 프로그램 텍스톰(Textom)과 언어 네트워크 분석 프로그램 유씨넷(UCINET)으로 분석하였다. 연구 결과, 현대자동차는 문화마케팅을 판매와 영업 성과를 향상하기 위한 수단으로 활용함과 동시에 기업과 브랜드 정체성을 차별화하기 위한 전략으로 발전시키고 있었다. 2000년대 초반에는 '고객', '위대한 회화의 시대: 렘브란트와 17세기 네덜란드 회화전', '공연'이 빈도수가 높은 단어로 추출되었다. 현대자동차가 공연 중심의 문화 행사를 고객 대상으로 개최하여, 특정 소비자 그룹에 혜택을 제공하는 방식으로 시작하였다. 2000년대 후반에 상위 노출된 단어는 '예술의 전당', '서울시립교향악단'으로, 인지도 높은 문화예술기관의 주요 문화 행사에 후원하였다. 2010년대 초반에는 기존고객 중심에서 잠재 고객으로 대상을 넓히고, 문화마케팅을 아우르는 브랜드와 공간('브릴리언트'와 '현대아트홀')을 선보였다. 2010년대 중후반에는 노출 빈도가 높은 '브랜드'와 '글로벌'에서 보여주듯, 문화마케팅의 초점이 고객에서 브랜드 구축으로, 국내에서 글로벌로 확장되고 있다.

A SPECTROGRAPHICAL STUDY OF KOREAN VOWELS

이현복;지민제
- 대한음성학회지:말소리
- /
- 제6호
- /
- pp.4-12
- /
- 1983
이 논문은 음향 분석기를 이용하여 한국어의 단순모음 8개를 음향 음성학적으로 분석하고 그 결과를, 이 현복의 1971년 논문 "현대 서울말의 모음 음가"에서 기분 모음을 기준으로 하여 기술한 단순 모음의 소리값과 비교하는 데어 목적이 있다. 특히, 한국어의 모음 1)길고 세게 날 때, 2)짧고 세게 날 때, 그리고 3) 여리게 날 때의 세가지 환경에 따라 변이음의 음가가 달리 나타난다는 이 현복의 이론을 음향 음성학적으로 확인해 보는 것이 연구를 하는 주요 관심사이다. 이 실험에 사용된 자료는 위에 말한 이 현복의 논문과 "한국어 음성학"(김선기, 1937, 1971; 영문)에 제시된 낱말로 이루어져 있으며, 이를 스웨덴에 유학중인 지 민제가 자신의 목소리로 직접 녹음하여 위메오 대한 음성학과의 음향 음성학 실험실에서 음향분석기로 분석한 다음, 각 모음의 제1 및 제2포인트를 측정하여 리를 토대로 음향도를 만들었다. 이 실험 결과는 다음과 같이 요약할 수 있다. : 1)그림 2,3과 포먼트 표에서 보인 바와 같이, 모음 /이, 에, 오, 으/는 각각 이 현복의 주장대로 환경에 따라 세 개의 분명히 다른 음가를 나타내고 있다. 2) 한편 모음 /애, 아, 우, 어/는 모음의 길이에 따라 다만 두 종류의 음가 변동이 나타날 뿐이며 강세의 유무에 따른 음가 차이는 드러나지 않았다. 3) 이 현복의 주장대로 모음 /에/와 /애/mss 음가의 차이가 크지 않으므로 음운 대립이 무디어질 수 있음을 이번 실험 결과로 확인 하였다. 특히 강세가 없는 /에/는 강세가 있는 /애/와 소리값이 거의 같았다. 4) 이 현복은 표준말에서 /어/의 음가가 세대에 따라 다르며, 안정된 세대의 말씨에서는 /어:/가 /어/에 비해 높고 중앙화한 소리값을 지닌다는 주장을 하였다. 그러나 이 실험 연구에서는 녹음한 이가 젊은 세대이어서 인지 그러한 현상이 나타나지 않았고, 다만 /어:/는 /어/보다 높이만이 높은 것으로 나타났다. 5) 이번 실험 연구에서 모음의 소리값이 장단과 강세에 따라 달라진다는 이 현복의 주장이 대체로 증명된 셈이나, 종합적이고 확고한 결론을 내리려면 좀 더 광범한 실험 연구가 필요하다고 본다. 특히 안정된 세대의 말씨를 직접 녹음하여 음향 음성학적으로 분석함이 필요하다.
PDF

생성형 대규모 언어 모델과 프롬프트 엔지니어링을 통한 한국어 텍스트 기반 정보 추출 데이터셋 구축 방법 (A Study on Dataset Generation Method for Korean Language Information Extraction from Generative Large Language Model and Prompt Engineering)

정영상;지승현;권다롱새
- 정보처리학회논문지:소프트웨어 및 데이터공학
- /
- 제12권11호
- /
- pp.481-492
- /
- 2023
본 연구는 생성형 대규모 언어 모델을 활용하여 텍스트에서 정보를 추출하기 위한 한글 데이터셋 구축 방법을 탐구한다. 현대 사회에서는 혼합된 정보가 빠르게 유포되며, 이를 효과적으로 분류하고 추출하는 것은 의사결정 과정에 중요하다. 그러나 이에 대한 학습용 한국어 데이터셋은 아직 부족하다. 이를 극복하기 위해, 본 연구는 생성형 대규모 언어 모델을 사용하여 텍스트 기반 제로샷 학습(zero-shot learning)을 이용한 정보 추출을 시도하며, 이를 통해 목적에 맞는 한국어 데이터셋을 구축한다. 본 연구에서는 시스템-지침-소스입력-출력형식의 프롬프트 엔지니어링을 통해 언어 모델이 원하는 결과를 출력하도록 지시하며, 입력 문장을 통해 언어 모델의 In-Context Learning 특성을 활용하여 데이터셋을 구축한다. 생성된 데이터셋을 기존 데이터셋과 비교하여 본 연구 방법론을 검증하며, 관계 정보 추출 작업의 경우 KLUE-RoBERTa-large 모델 대비 25.47% 더 높은 성능을 달성했다. 이 연구 결과는 한국어 텍스트에서 지식 요소를 추출하는 가능성을 제시함으로써 인공지능 연구에 도움을 줄 것으로 기대된다. 더욱이, 이 방법론은 다양한 분야나 목적에 맞게 활용될 수 있어, 다양한 한국어 데이터셋 구축에 잠재력을 가진다고 볼 수 있다.
https://doi.org/10.3745/KTSDE.2023.12.11.481 인용 PDF

공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법 (Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora)

한경은;백슬예;임재수
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
- /
- pp.228-232
- /
- 2017
본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.
PDF

트리 유사도: 상호운용성 평가도구 (Tree Similarity: Interoperability Evaluation Tool)

정성훈;배재학
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
- /
- pp.276-280
- /
- 2017
현대사회에 존재하는 다양한 시스템들이 병합될 때는 병합을 위해서 여러 가지 방법을 사용해 볼 수 있다. 이때 시스템의 성격에 따라 더 적절한 병합 방법론이 존재할 수 있지만, 어떤 방법이 해당 시스템을 통합하는데 더 적절한지를 판단하기는 쉽지 않다. 본 논문에서는 서로 다른 시스템을 통합할 때, 그 상호운용성을 평가하기 위한 수단으로 트리의 유사도를 측정하는 방안을 제시한다. 이렇게 측정된 유사도는 0이상 1이하의 값을 가지며, 정확한 수치로 제시되기 때문에 서로 다른 통합 방법론을 평가하기 위한 계량적 근거로 사용될 수 있다. 다만 트리 구조로 나타낼 수 없는 일부 시스템들에 대해서는 적용할 수 없는 한계를 가진다.
PDF

검색결과 71건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)