• 제목/요약/키워드: 학습 한국어

검색결과 1,338건 처리시간 0.022초

Super In-Context Learning을 활용한 생성 방법론 (Generation Methodology Using Super In-Context Learning)

  • 홍성태;이승준;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.382-387
    • /
    • 2023
  • 현재 GPT-4와 같은 거대한 언어 모델이 기계 번역, 요약 및 대화와 같은 다양한 작업에서 압도적인 성능을 보이고 있다. 그러나 이러한 거대 언어 모델은 학습 및 적용에 상당한 계산 리소스와 도메인 특화 미세 조정이 어려운 등 몇 가지 문제를 가지고 있다. In-Context learning은 데이터셋에서 추출한 컨택스트의 정보만으로 효과적으로 작동할 수 있는 효율성을 제공하여 앞선 문제를 일부 해결했지만, 컨텍스트의 샷 개수와 순서에 민감한 문제가 존재한다. 이러한 도전 과제를 해결하기 위해, 우리는 Super In-Context Learning (SuperICL)을 활용한 새로운 방법론을 제안한다. 기존의 SuperICL은 적용한 플러그인 모델의 출력 정보를 이용하여 문맥을 새로 구성하고 이를 활용하여 거대 언어 모델이 더욱 잘 분류할 수 있도록 한다. Super In-Context Learning for Generation은 다양한 자연어 생성 작업에 효과적으로 최적화하는 방법을 제공한다. 실험을 통해 플러그인 모델을 교체하여 다양한 작업에 적응하는 가능성을 확인하고, 자연어 생성 작업에서 우수한 성능을 보여준다. BLEU 및 ROUGE 메트릭을 포함한 평가 결과에서도 성능 향상을 보여주며, 선호도 평가를 통해 모델의 효과성을 확인했다.

  • PDF

자연어 처리 태스크에 대한 기계와 인간의 성능 상관관계 연구 (Exploring the Relationship Between Machine and Human Performance in Natural Language Processing Tasks)

  • 박서윤;김희재;이성우;강예지;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.485-490
    • /
    • 2023
  • 언어 모델 발전에 따라 사람과 유사하게 글을 생성하고 태스크를 수행하는 LLM들이 등장하고 있다. 하지만 아직까지도 기계와 사람의 수행 과정에 초점을 맞추어 차이점을 드러내는 연구는 활성화되지 않았다. 본 연구는 자연어 이해 및 생성 태스크 수행 시 기계와 인간의 수행 과정 차이를 밝히고자 하였다. 이에 이해 태스크로는 문법성 판단, 생성 태스크로는 요약 태스크를 대상 태스크로 선정하였고, 기존 주류 사전학습 모델이었던 transformer 계열 모델과 LLM인 ChatGPT 3.5를 사용하여 실험을 진행하였다. 실험 결과 문법성 판단 시 기계들이 인간의 언어적 직관을 반영하지 못하는 양상을 발견하였고, 요약 태스크에서는 인간과 기계의 성능 판단 기준이 다름을 확인하였다.

  • PDF

인공지능 기반 사회 통계 생산 방법론 고도화 방안: 가계동향조사와 생활시간조사 사례 (Advancing Societal Statistics Processing Methodology through Artificial Intelligence: A Case Study on Household Trend Survey and Time Use Survey)

  • 오교중;최호진;김일구;한승우;김건수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.563-567
    • /
    • 2023
  • 본 연구는 한국 통계청이 수행하는 가계동향조사와 생활시간조사에서 자료처리 과정 및 방법을 혁신하려는 시도로, 기존의 통계 생산 방법론의 한계를 극복하고, 대규모 데이터의 효과적인 관리와 분석을 가능하게 하는 인공지능 기반의 통계 생산을 목표로 한다. 본 연구는 데이터 과학과 통계학의 교차점에서 진행되며, 인공지능 기술, 특히 자연어 처리와 딥러닝을 활용하여 비정형 텍스트 분류 방법의 성능을 검증하며, 인공지능 기반 통계분류 방법론의 확장성과 추가적인 조사 확대 적용의 가능성을 탐구한다. 이 연구의 결과는 통계 데이터의 품질 향상과 신뢰성 증가에 기여하며, 국민의 생활 패턴과 행동에 대한 더 깊고 정확한 이해를 제공한다.

  • PDF

퓨샷 개체명 인식을 위한 Maximal Marginal Relevance 기반의 라벨 단어 집합 생성 (Generating Label Word Set based on Maximal Marginal Relevance for Few-shot Name Entity Recognition)

  • 최효림;황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.664-671
    • /
    • 2023
  • 최근 다양한 거대 언어모델(Large Language Model)들이 개발되면서 프롬프트 엔지니어링의 대한 다양한 연구가 진행되고 있다. 본 논문에서는 퓨삿 학습 환경에서 개체명 인식의 성능을 높이기 위해서 제안된 템플릿이 필요 없는 프롬프트 튜닝(Template-free Prompt Tuning) 방법을 이용하고, 이 방법에서 사용된 라벨 단어 집합 생성 방법에 Maximal Marginal Relevance 알고리즘을 적용하여 해당 개체명에 대해 보다 다양하고 구체적인 라벨 단어 집합을 생성하도록 개선하였다. 실험 결과, 'LOC' 타입을 제외한 나머지 개체명 타입에서 'PER' 타입은 0.60%p, 'ORG' 타입은 4.98%p, 'MISC' 타입은 1.38%p 성능이 향상되었고, 전체 개체명 인식 성능은 1.26%p 향상되었다. 이를 통해 본 논문에서 제안한 라벨 단어 집합 생성 기법이 개체명 인식 성능 향상에 도움이 됨을 보였다.

  • PDF

국소 문맥과 공기 정보를 이용한 비교사 학습 방식의 명사 의미 중의성 해소 (Unsupervised Noun Sense Disambiguation using Local Context and Co-occurrence)

  • 이승우;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권7호
    • /
    • pp.769-783
    • /
    • 2000
  • 본 논문에서는 한국어 명사의 중의성 해소를 위해, 원시 말뭉치로부터 얻을 수 있는 지식원으로서 국소문맥을 정의하고 추출하는 방법을 제시한다. 동일한 국소 문맥을 갖는 서로 다른 명사는 그 의미가 유사하다는 직관을 바탕으로 대상 명사의 중의성 해소를 위해 대상명사를 포함하는 국소문맥과 동일한 국소문맥을 갖는 단어를 단서로 사용함으로써 학습 자료의 활용도를 높일 수 있고 빈도수가 적은 단어의 의미 중의성도 해결할 수 있으며, 용언의 확장을 통해 자료 부족 현상을 줄일 수 있다. 대상 명사는 동일한 국소문맥에 의한 단서들과의 최대 유사도 계산을 통해 그 의미가 결정된다. 두 단어간의 유사도는 WordNet으로부터 차용한 의미 계층 구조에서 두 단어가 가지는 개념 사이의 거리에 의해 계산된다. 최대 유사도를 계산하는 과정에서는 단서들의 중의성을 점차 줄여 나감으로써 유사도 계산의 속도를 향상시킬 수 있다. 대상 명사가 둘 이상의 국소문맥을 가질 때에는 각 국소문맥의 종류에 따른 가중치를 부여하여 국소문맥의 종류에 따른 의미제약의 차이를 구현하였다. 또 하나의 지식원으로서 사전 정의와 예문으로부터 공기정보를 얻고, 이를 국소문맥을 보완하기 위한 지식으로 사용하여 최선의 의미를 선택할 수 있도록 하였다. 실험을 통해, 제안하는 방법은 국소 문맥의 적용률이 높고, 공기 정보는 국소 문맥과 상호 보완적으로 사용되어 정확도를 높일 수 있음을 보였다. 본 방법을 실험한 결과, 사용된 단어의 의미 중의성이 크면서도, 기존의 의미 부착 말뭉치를 이용한 교사 학습 방식의 성능보다도 높은 정확도(89.8%)를 얻을 수 있었다.

  • PDF

파형 특징 추출과 신경망 학습 기반 모음 'ㅣ' 음성 인식 (Speech Recognition for the Korean Vowel 'ㅣ' based on Waveform-feature Extraction and Neural-network Learning)

  • 노원빈;이종우;이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.69-76
    • /
    • 2016
  • 최근 모든 산업에서 사물인터넷에 대한 관심이 집중되면서 집, 회사, 차, 길거리 등 인간이 생활하는 모든 환경에 컴퓨팅 기술이 접목되고 있다. 이 같은 사물인터넷 환경에서 음성인식은 중요한 HCI 수단으로 자리 잡고 있다. 현존하는 서버 기반의 음성인식은 속도가 빠르고 꽤 높은 인식률을 보여주고는 있지만, 데이터베이스 내에 저장되어 있는 단어 단위로 인식하기 때문에 인터넷 연결과 복잡한 컴퓨팅이 필수적이다. 본 논문은 한국어 음소 모음 'ㅏ', 'ㅓ' 인식에 대한 휴리스틱 알고리즘에 이은 연구로 모음 'ㅣ'에 대한 음성 인식을 구현하고자 한다. 모음 'ㅣ' 음성의 여러 파형 패턴들을 관찰한 결과 모음 'ㅏ', 'ㅓ'와는 다른 특정한 파형의 패턴을 가지고 있음을 발견하였고, 그 패턴을 인식하는 알고리즘을 제시한다. 또한, 제시한 알고리즘에 신경망 학습을 적용하여 인식성공률을 높이는 실험 결과도 제시한다. 모음 'ㅣ'에 대한 본 알고리즘은 파형의 특징적인 부분 추출 기반으로 인식하며, 신경망 학습까지 적용한 후 실험한 결과 90% 이상의 정확도로 모음 'ㅣ'를 인식하는 것을 확인하였다.

토론식 수업에서 온라인 토론의 참여적 차원과 상호작용 차원에 관한 탐색적 연구 (Exploratory Study on the Levels of Participation and Interaction in Online Debate of the Classes with Discussion Session)

  • 이란
    • 한국콘텐츠학회논문지
    • /
    • 제21권9호
    • /
    • pp.63-74
    • /
    • 2021
  • 본 연구의 목적은 사이버 대학 일반 교과목 토론식 수업의 온라인 토론과정에서 학습자들의 논제유형에 따른 참여적 차원과 상호작용 차원을 양적 질적으로 분석하고 그 효과성을 탐색하여 활성화 방안을 제안하는 데에 있다. 이를 위하여 온라인 토론방의 메시지 수와 양상을 양적으로 분석하였고 사후 설문을 추가로 진행하여 토론의 상호작용 요소들과 효과에 대한 인식을 살펴보았다. 제시된 두 논제유형은 의견제시형 논제와 목표 제시형 논제였다. 각 논제에의 참여적 차원을 살펴본 결과, 선행 연구와는 달리 의견제시형 논제 참여도가 높았다. 그 이유를 설문으로 탐색하였고 그 결과를 토대로 교수자가 온라인 토론의 논제를 제시할 때 참여자들의 성향을 참고하여야 함을 제안하였다. 또한 사후 설문을 통하여 상호작용에 대한 보다 심화된 결과들을 제시하였다. 설문에서 학습자들은 교수자의 강의와 강의자료 의존도가 매우 높은 것을 보여주었고 토론을 준비하면서 다양한 자료들과 상호작용하고 있음을 보여주었다. 이외에도 토론은 학습자들의 논증적 사고, 글쓰기, 해당 교과목 지식의 습득과 심화에도 도움을 주는 요소라는 인식을 나타냈다. 이를 바탕으로 본고는 교수자의 교육적 역할을 강조하고, 원격교육의 시대에 온라인 토론의 교육적 효과가 각 교과목마다 활성화되기를 제안하였다.

KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구 (KOMUChat: Korean Online Community Dialogue Dataset for AI Learning)

  • 유용상;정민화;이승민;송민
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.219-240
    • /
    • 2023
  • 사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

결혼이주여성의 자기문화 스토리텔링 활용 표현교육 사례 연구 (A Study on the Expression Class through Story-telling about Interracial Married Women's Homeland Cultures)

  • 김영순;허숙;응웬뚜언아잉
    • 비교문화연구
    • /
    • 제25권
    • /
    • pp.695-721
    • /
    • 2011
  • 본 연구는 결혼이주여성들이 출신국의 문화에 대한 자부심을 가지고 한국문화를 공부하기 위해 자신의 출신국 지역문화 스토리텔링(자기문화 스토리텔링) 활용 표현교육 모형을 제안하고자 한다. 이를 통해 결혼이주여성들이 자신의 문화에 대한 자부심을 가지고 한국문화를 공부할 수 있을 것으로 기대한다. 본 연구는 결혼이주여성들의 자기문화 스토리텔링 활용 표현교육 5단계 모형을 활용하여 한국어 고급 학습자 49명에게 한국어 쓰기와 말하기 활동을 주목하였다. 그 중 일본 출신 A씨의 한국어 쓰기 및 말하기 표현교육 사례를 중심으로 각 단계별 활동 결과물을 제시했다. 활동 결과 제시의 방법은 내러티브 기술법을 사용하였다. 본 연구에서 자기문화 스토리텔링은 스토리텔링의 '대중성', '상호작용성', '참여성'을 중심으로 구성하였다. 자기문화 스토리텔링은 결혼이주여성에게 출신국의 문화에 대한 쓰기와 말하기의 재구성을 포함한다. 이를 통해 결혼이주여성들은 자기문화에 대한 자부심 함양과 정체성의 확립에 긍정적인 변화가 있었을 뿐만 아니라 한국어 및 한국문화 이해도가 높아진 것을 확인할 수 있었다.

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.