• 제목/요약/키워드: 생성형 인공지능

검색결과 149건 처리시간 0.028초

복수 대규모 언어 모델에 기반한 제어 가능형 데이터 증강 프레임워크 (Controllable data augmentation framework based on multiple large-scale language models)

  • 강현석;남궁혁;정지수;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2023
  • 데이터 증강은 인공지능 모델의 학습에서 필요한 데이터의 양이 적거나 편향되어 있는 경우, 이를 보완하여 모델의 성능을 높이는 데 도움이 된다. 이미지와는 달리 자연어의 데이터 증강은 문맥이나 문법적 구조와 같은 특징을 고려해야 하기 때문에, 데이터 증강에 많은 인적자원이 소비된다. 본 연구에서는 복수의 대규모 언어 모델을 사용하여 입력 문장과 제어 조건으로 프롬프트를 구성하는 데 최소한의 인적 자원을 활용한 의미적으로 유사한 문장을 생성하는 방법을 제안한다. 또한, 대규모 언어 모델을 단독으로 사용하는 것만이 아닌 병렬 및 순차적 구조로 구성하여 데이터 증강의 효과를 높이는 방법을 제안한다. 대규모 언어 모델로 생성된 데이터의 유효성을 검증하기 위해 동일한 개수의 원본 훈련 데이터와 증강된 데이터를 한국어 모델인 KcBERT로 다중 클래스 분류를 수행하였을 때의 성능을 비교하였다. 다중 대규모 언어 모델을 사용하여 데이터 증강을 수행하였을 때, 모델의 구조와 관계없이 증강된 데이터는 원본 데이터만을 사용하였을 때보다 높거나 그에 준하는 정확도를 보였다. 병렬 구조의 다중 대규모 언어 모델을 사용하여 400개의 원본 데이터를 증강하였을 때에는, 원본 데이터의 최고 성능인 0.997과 0.017의 성능 차이를 보이며 거의 유사한 학습 효과를 낼 수 있음을 보였다.

  • PDF

생성형 AI 기술을 적용한 음성 및 모션 인식 기반 양방향 대화형 알고리즘 (Two-way Interactive Algorithms Based on Speech and Motion Recognition with Generative AI Technology)

  • 장대성;김종찬
    • 한국전자통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.397-402
    • /
    • 2024
  • 음성 인식과 모션 인식 기술은 다양한 스마트 디바이스에 적용되어 사용되고 있으나, 단순한 명령어 인식 형태로 구성되어 단순 기능으로 사용되고 있다. 인식 데이터에 대한 단순 기능에서 벗어나 다양한 분야에서 학습된 데이터를 기반으로 전문적인 명령어 수행 능력이 요구되고 있다. 현재 세계적으로 경쟁이 이루어지고 있는 생성형 AI를 활용하여 사용자에게 최적의 데이터를 제공하고, 음성 인식과 모션 인식을 통해 상호작용할 수 있는 시스템 플랫폼에 대한 연구가 진행되고 있다. 본 연구를 위해 설계한 주요 기술 프로세스는 음성 및 모션 인식 기능, AI 기술 적용, 양방향 커뮤니케이션 등 기술을 이용한 설계하였다. 본 논문에서는 AI 기술을 적용한 디바이스와 음성인식과 모션 인식 기술을 통해 디바이스와 사용자 간 양방향 커뮤니케이션을 다양한 입력방식에 의해 이루어질 수 있도록 하였다.

인공지능 기법을 이용한 웹 가상 도우미로서의 대화형 에이전트 (Conversational Agent as Web Virtual Representative using Artificial Intelligence Techniques)

  • 김경민;임성수;조성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.201-207
    • /
    • 2003
  • 인터넷의 사용이 보편화됨에 따라 인터넷을 통한 정보 제공 서비스가 확대되고 있다. 이에 따라 빠르게 변화하는 사용자의 요구를 만족시킴과 동시에 편리하고 유용한 서비스를 제공하기 위하여 사용자와 자연스럽게 의사소통할 수 있는 대화형 에이전트의 연구가 활발히 진행되고 있다. 더불어 시스템의 효율적인 설계 또한 중요한 문제가 아닐 수 없다. 본 논문에서는 패턴매칭 기법과 베이지안 네트워크를 이용해 사용자 질의에 대한 적절한 답변을 생성하고, 스크립트 인터페이스를 통한 자동 스크립트 설계로 보다 효율적인 시스템 구축 방안을 제안해 보고자 한다. 실제 의류 사이트를 위한 안내 도우미 에이전트를 구현해 봄으로써 그 기능성을 평가해 본다.

  • PDF

포토그래메트리 및 인공지능 기술을 활용한 실감 콘텐츠 제작과 스토리텔링 방법 연구 (A Study on Immersive Content Production and Storytelling Methods using Photogrammetry and Artificial Intelligence Technology)

  • 김정호;박진완;유태경
    • 방송공학회논문지
    • /
    • 제27권5호
    • /
    • pp.654-664
    • /
    • 2022
  • 실감 콘텐츠는 COVID-19 팬데믹으로 인한 관심과 더불어 확장현실, 인공지능, 포토그래메트리 기술과 융합을 통해 공간적 한계를 극복하며 엔터테인먼트, 미디어, 공연, 전시 등 콘텐츠 시장에서 새로운 패러다임을 제시하며 수요 역시 증가하고 있다. 하지만 실감 콘텐츠가 대중들에게 지속된 관심을 가지기 위해서는 기술적 신선함보다 콘텐츠에 대한 몰입도를 높일 수 있는 스토리텔링 방법 연구가 필요하다는 것을 알 수 있다. 따라서 본 연구에서는 인공지능 및 포토그래메트리 기술을 활용한 실감 콘텐츠 스토리텔링 방법을 제안한다. 제안된 스토리텔링 방법은 대화형 가상존재와 참여자가 대화를 통한 상호작용으로 콘텐츠 스토리를 생성하는 것이다. 이에 관객 주도적 참여를 통해 콘텐츠 몰입도를 높일 수 있다. 본 연구는 가속화되는 실감 콘텐츠 시장에서 콘텐츠 제작자들에게 제안된 인공지능 기술이 활용된 가상존재를 통한 스토리텔링 방법론으로 효율적인 콘텐츠 제작에 도움을 줄 수 있을 것으로 기대한다. 또한 콘텐츠 제작에 있어 인공지능 및 포토그래메트리 기술을 활용한 실감 콘텐츠 제작 파이프라인 정립에 기여할 것이라고 생각한다.

RSSI기반 지능형 위치 추정 시스템 설계 및 구현 (Design and Implementation of RSSI-based Intelligent Location Estimation System)

  • 임창균;강오성;이창영;김강철
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.9-18
    • /
    • 2013
  • 본 논문에서는 모바일 로봇이 주어진 환경에서 물건 객체를 찾기 위해 RFID(Radio Frequency IDentification) 태그의 위치를 추정할 수 있는 지능형 시스템을 설계하고 구현하였다. 개발된 지능형 시스템은 인공 신경망 시스템으로 RSSI(Received Signal Strength Indication)값을 입력으로 하고 절대 위치 좌표 값을 목표 값으로 하는 학습 시스템이다. 위치 추정을 위하여 수동형 RFID를 사용하였으며 능동형으로의 확장도 고려하였다. 실내에서 위치 추정을 위한 환경을 구축하여 사용될 수 있도록 시스템을 설계하였다. 또한 설계된 시스템을 소프트웨어 개발을 하였고, 실험을 통해 테스트베드 상에서 시스템 학습과 관련된 결과를 보여준다. 실제 현장과 유사한 환경에서 학습데이터 생성에서부터 실시간 위치 추정과 관련된 다양한 실험 결과를 보여준다. 실험 결과를 통해 모바일 로봇이 실내에서 원하는 객체를 쉽게 찾을 수 있음을 확인하였다.

연합학습을 위한 패턴 및 그룹 기반 효율적인 분산 합의 최적화 (Efficient distributed consensus optimization based on patterns and groups for federated learning)

  • 강승주;천지영;노건태;정익래
    • 인터넷정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.73-85
    • /
    • 2022
  • 인공지능으로 자동화와 연결성이 극대화되는 4차 산업혁명 시대를 맞이하여 모델의 업데이트를 위한 데이터 수집과 활용의 중요성이 점차 높아지고 있다. 인공지능 기술을 사용하여 모델을 생성하기 위해서는 일반적으로 데이터를 한곳에 모아야 업데이트할 수 있으나, 이런 경우 사용자의 개인정보를 침해할 수 있다. 본 논문에서는 분산 저장된 데이터를 직접 공유하지 않으면서 서로 협력하여 모델을 업데이트할 수 있는 분산형 기계학습 방법인 연합학습을 소개하며, 기존의 서버 없이 참여자들 간의 분산 합의 최적화를 이루는 연구를 소개한다. 또한, Kirkman Triple System을 기반으로 한 패턴 및 그룹을 생성하는 알고리즘을 이용하며, 병렬적인 업데이트 및 통신을 하는 패턴 및 그룹 기반 분산 합의 최적화 알고리즘을 제안한다. 이러한 알고리즘은 기존의 분산 합의 최적화 알고리즘 이상의 프라이버시를 보장하며, 모델이 수렴할 때까지의 통신시간을 감소시킨다.

영화 장르 메타데이터 생성을 위한 오디오 활용 방법에 대한 연구 (A Research on the Audio Utilization Method for Generating Movie Genre Metadata)

  • 용성중;박효경;유연휘;문일영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.284-286
    • /
    • 2021
  • 지속적으로 인터넷 및 디지털의 발전으로 많은 양의 미디어 데이터를 저장하고 온라인을 통해 개인에게 맞춤형 서비스를 제공하는 플랫폼이 등장하고 있다. 이러한 서비스를 제공하는 업체들은 미디어의 소비를 촉진 시키기 위해 개인 취향에 맞는 영화를 추천한다. 각 업체에서는 사용자가 선호할 미디어 추천을 위해 다양한 알고리즘에 대해 많은 연구를 하고 있다. 영화는 액션, 멜로, 공포, 드라마 등으로 장르를 구분하고 있으며, 영화의 오디오(음악,효과,음성)는 영화를 구성하는 중요한 제작 요소로 자리잡고 있다. 본 연구에서는 영화예고편을 바탕으로 장르별 오디오를 추출하고, 장르별 오디오의 공통점을 확인 후 인공지능의 지도학습을 통해 영화 장르를 구별하고 추후 메타데이터 생성을 위한 활용방안을 제안하고자 한다.

  • PDF

AiMind: 디지털 인재 양성을 위한 SW·AI 융합 교육 플랫폼 (AiMind: SW·AI Convergence Education Platform for Fostering Digital Talent)

  • 이세훈;김기태;윤재광;강도형;김영호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.387-388
    • /
    • 2023
  • 본 논문에서는 인공지능(AI) 체험부터 초중등, 대학 및 평생교육에서 필요한 광범위한 응용과 활용을 할 수 있는 라이브러리를 디지털북 형태로 지원하며, 블록과 텍스트 코딩의 장점을 취합해 입문자들이 쉽고 재미있게 SW·AI 융합 교육을 할 수 있는 플랫폼을 구현하였다. 플랫폼은 웹어셈블리 기반의 파이오다이드를 통해 웹 브라우저에서 파이썬 코딩을 가능하게 하고 복잡한 설치과정 없이 쉽게 이용이 가능하다. 다양한 LMS와 연동이 가능하도록 API를 제공하며, Drag & Fill 블록으로 입문자가 코딩에 겪는 어려움 중 하나인 많은 양의 함수와 파라미터 사용법의 어려움을 해소하였다. 플랫폼은 블록으로 코딩하여 문법의 어려움, 오탈자, 오류 등을 줄이는 동시에 블록에서 생성되는 파이썬 텍스트 코드로 입문자가 텍스트 코드에 익숙해질 수 있는 경험을 제공한다.

  • PDF

고위험 현장의 안전관리를 위한 AI 클라우드 플랫폼 설계 (A Design of AI Cloud Platform for Safety Management on High-risk Environment)

  • 김기봉
    • 미래기술융합논문지
    • /
    • 제1권2호
    • /
    • pp.01-09
    • /
    • 2022
  • 최근 기업과 공공기관에서 안전 이슈는 더는 미룰 수 있는 상황이 아니며, 대형 안전사고가 발생했을 때 직접적인 금전적 손실뿐 아니라 해당 기업 및 공공기관에 대한 사회적 신뢰가 함께 떨어지는 간접적인 손실도 매우 커진다. 특히 사망 사고의 경우는 더욱 피해가 심각하다. 이에 따라 기업 및 공공기관은 산업 안전 교육과 예방에 대한 투자를 확대함에 따라, 고위험 상황이 존재하는 산업현장에서 사용자 행동반경에 영향을 받지 않고 안전관리 서비스가 가능한 개방형 AI 학습모델 생성 기술, 에지단말간 AI협업 기술, 클라우드-에지단말 연동 기술, 멀티모달 위험상황 판단기술, AI 모델 학습 지원 기술을 이용한 시스템 개발이 이루어지고 있다. 특히 인공지능 기술의 발전과 확산으로 안전 이슈에도 해당 기술을 적용하기 위한 연구가 활발해지고 있다. 따라서 본 논문에서는 고위험 현장 안전관리를 위해 AI 모델 학습 지원이 가능한 개방형 클라우드 플랫폼 설계 방안을 제시하였다.

콘포머 기반 FastSpeech2를 이용한 한국어 음식 주문 문장 음성합성기 (A Korean menu-ordering sentence text-to-speech system using conformer-based FastSpeech2)

  • 최예린;장재후;구명완
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.359-366
    • /
    • 2022
  • 본 논문에서는 콘포머 기반 FastSpeech2를 이용한 한국어 메뉴 음성합성기를 제안한다. 콘포머는 본래 음성 인식 분야에서 제안된 것으로, 합성곱 신경망과 트랜스포머를 결합하여 광역과 지역 정보를 모두 잘 추출할 수 있도록 한 구조다. 이를 위해 순방향 신경망을 반으로 나누어 제일 처음과 마지막에 위치시켜 멀티 헤드 셀프 어텐션 모듈과 합성곱 신경망을 감싸는 마카론 구조를 구성했다. 본 연구에서는 한국어 음성인식에서 좋은 성능이 확인된 콘포머 구조를 한국어 음성합성에 도입하였다. 기존 음성합성 모델과의 비교를 위하여 트랜스포머 기반의 FastSpeech2와 콘포머 기반의 FastSpeech2를 학습하였다. 이때 데이터셋은 음소 분포를 고려한 자체 제작 데이터셋을 이용하였다. 특히 일반대화 뿐만 아니라, 음식 주문 문장 특화 코퍼스를 제작하고 이를 음성합성 훈련에 사용하였다. 이를 통해 외래어 발음에 대한 기존 음성합성 시스템의 문제점을 보완하였다. ParallelWave GAN을 이용하여 합성음을 생성하고 평가한 결과, 콘포머 기반의 FastSpeech2가 월등한 성능인 MOS 4.04을 달성했다. 본 연구를 통해 한국어 음성합성 모델에서, 동일한 구조를 트랜스포머에서 콘포머로 변경하였을 때 성능이 개선됨을 확인하였다.