• Title/Summary/Keyword: 초거대 AI

Search Result 13, Processing Time 0.023 seconds

Application Strategies of Superintelligent AI in the Defense Sector: Emphasizing the Exploration of New Domains and Centralizing Combat Scenario Modeling (초거대 인공지능의 국방 분야 적용방안: 새로운 영역 발굴 및 전투시나리오 모델링을 중심으로)

  • PARK GUNWOO
    • The Journal of the Convergence on Culture Technology
    • /
    • v.10 no.3
    • /
    • pp.19-24
    • /
    • 2024
  • The future military combat environment is rapidly expanding the role and importance of artificial intelligence (AI) in defense, aligning with the current trends of declining military populations and evolving dynamics. Particularly, in the civilian sector, AI development has surged into new domains based on foundation models, such as OpenAI's Chat-GPT, categorized as Super-Giant AI or Hyperscale AI. The U.S. Department of Defense has organized Task Force Lima under the Chief Digital and AI Office (CDAO) to conduct research on the application of Large Language Models (LLM) and generative AI. Advanced military nations like China and Israel are also actively researching the integration of Super-Giant AI into their military capabilities. Consequently, there is a growing need for research within our military regarding the potential applications and fields of application for Super-Giant AI in weapon systems. In this paper, we compare the characteristics and pros and cons of specialized AI and Super-Giant AI (Foundation Models) and explore new application areas for Super-Giant AI in weapon systems. Anticipating future application areas and potential challenges, this research aims to provide insights into effectively integrating Super-Giant Artificial Intelligence into defense operations. It is expected to contribute to the development of military capabilities, policy formulation, and international security strategies in the era of advanced artificial intelligence.

Examining the Feasibility of Utilizing a Large Language Model for Korean Grammatical Error Correction (한국어 맞춤법 교정을 위한 초거대 언어 모델의 잠재적 능력 탐색)

  • Seonmin Koo;Chanjun Park;JeongBae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.61-65
    • /
    • 2023
  • 최근, 대부분의 태스크가 초거대 언어 모델로 통합되고 있을 정도로 많은 관심 및 연구되고 있다. 초거대 언어 모델을 효과적으로 활용하기 위해서는 모델의 능력에 대한 분석이 선행되어야 하나, 한국어에 대한 분석 및 탐색은 상대적으로 부족하다. 본 논문에서는 한국어 맞춤법 교정 태스크를 통해 초거대 언어 모델의 능력을 탐색한다. 맞춤법 교정 태스크는 문장의 구조 및 문법을 이해하는 능력이 필요하며, 사용자의 만족도에 영향을 미칠 수 있는 중요한 태스크이다. 우리는 맞춤법 세부 유형에 따른 ChatGPT의 제로샷 및 퓨샷성능을 평가하여 초거대 언어 모델의 성능 분석을 수행한다. 실험 결과 제로샷의 경우 문장부호 오류의 성능이 가장 우수했으며, 수사 오류의 성능이 가장 낮았다. 또한, 예제를 더 많이 제공할수록 전체적인 모델의 성능이 향상되었으나, 제로샷의 경우보다 오류 유형 간의 성능 차이가 커지는 것을 관찰할 수 있었다.

  • PDF

Technical Trends in Hyperscale Artificial Intelligence Processors (초거대 인공지능 프로세서 반도체 기술 개발 동향)

  • W. Jeon;C.G. Lyuh
    • Electronics and Telecommunications Trends
    • /
    • v.38 no.5
    • /
    • pp.1-11
    • /
    • 2023
  • The emergence of generative hyperscale artificial intelligence (AI) has enabled new services, such as image-generating AI and conversational AI based on large language models. Such services likely lead to the influx of numerous users, who cannot be handled using conventional AI models. Furthermore, the exponential increase in training data, computations, and high user demand of AI models has led to intensive hardware resource consumption, highlighting the need to develop domain-specific semiconductors for hyperscale AI. In this technical report, we describe development trends in technologies for hyperscale AI processors pursued by domestic and foreign semiconductor companies, such as NVIDIA, Graphcore, Tesla, Google, Meta, SAPEON, FuriosaAI, and Rebellions.

Empirical Study on the Hallucination of Large Language Models Derived by the Sentence-Closing Ending (어체에 따른 초거대언어모델의 한국어 환각 현상 분석)

  • Hyeonseok Moon;Sugyeong Eo;Jaehyung Seo;Chanjun Park;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.677-682
    • /
    • 2023
  • 초거대 언어모델은 모델의 학습 없이 학습 예시만을 입력에 추가함으로써 목표하는 작업을 수행한다. 이런 방식은 상황 내 학습 (In-Context Learning, ICL)이라 불리며, 초거대 언어모델 활용의 사실상의 표준으로 사용되고 있다. 하지만 이러한 모델은, 환각현상 등 사용상의 한계가 발생하는 상황이 다수 발생한다는 연구 결과가 나오고 있다. 본 연구에서는 초거대언어모델을 한국어 작업에서 사용하는 경우, 매우 간단한 수준의 종결어미 변환만으로도 성능 편차가 매우 크게 발생함을 확인하였다. 우리는 이에 대한 분석을 통해, 학습 예시의 어체와 추론 대상의 어체의 변환에 따라 초거대언어모델의 효용성이 크게 변함을 발견하고 이에 대해 분석한다. 나아가 우리는 본 실험 결과를 바탕으로, 어체에 대한 일관성이 유지된 형태의 한국어 데이터 구축이 이루어져야 함을 제안한다.

  • PDF

Trends in Lightweight Neural Network Algorithms and Hardware Acceleration Technologies for Transformer-based Deep Neural Networks (Transformer를 활용한 인공신경망의 경량화 알고리즘 및 하드웨어 가속 기술 동향)

  • H.J. Kim;C.G. Lyuh
    • Electronics and Telecommunications Trends
    • /
    • v.38 no.5
    • /
    • pp.12-22
    • /
    • 2023
  • The development of neural networks is evolving towards the adoption of transformer structures with attention modules. Hence, active research focused on extending the concept of lightweight neural network algorithms and hardware acceleration is being conducted for the transition from conventional convolutional neural networks to transformer-based networks. We present a survey of state-of-the-art research on lightweight neural network algorithms and hardware architectures to reduce memory usage and accelerate both inference and training. To describe the corresponding trends, we review recent studies on token pruning, quantization, and architecture tuning for the vision transformer. In addition, we present a hardware architecture that incorporates lightweight algorithms into artificial intelligence processors to accelerate processing.

Evaluating Table QA with Generative Language Models (생성형 언어모델을 이용한 테이블 질의응답 평가)

  • Kyungkoo Min;Jooyoung Choi;Myoseop Sim;Haemin Jung;Minjun Park;Jungkyu Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.75-79
    • /
    • 2023
  • 문서에서 테이블은 중요한 정보들을 축약하여 모아 놓은 정보 집합체라고 할 수 있다. 이러한 테이블을 대상으로 질의응답하는 테이블 질의응답 기술이 연구되고 있으며, 이 중 언어모델을 이용한 연구가 좋은 결과를 보이고 있다. 본 연구에서는 최근 주목받고 있는 생성형 언어모델 기술을 테이블 질의응답에 적용하여 언어모델과 프롬프트의 변경에 따른 결과를 살펴보고, 단답형 정답과 생성형 결과의 특성에 적합한 평가방법으로 측정해 보았다. 자체 개발한 EXAONE 1.7B 모델의 경우 KorWiki 데이터셋에 대해 적용하여 EM 92.49, F1 94.81의 결과를 얻었으며, 이를 통해 작은 크기의 모델을 파인튜닝하여 GPT-4와 같은 초거대 모델보다 좋은 성능을 보일 수 있음을 확인하였다.

  • PDF

KoCheckGPT: Korean LLM written document detector (KoCheckGPT: 한국어 초거대언어모델 작성 글 판별기)

  • Myunghoon Kang;Jungseob Lee;Seungyoon Lee;Seongtae Hong;Jeongbae Park;Heuiseok, Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.432-436
    • /
    • 2023
  • 초거대언어모델(LLM)의 도래에 따라 다양한 과업들이 도메인 관계 없이 제로샷으로 추론이 가능해짐에 따라서 LLM이 다양한 산업분야에 적용되고 있다. 대표적으로 ChatGPT와 GPT-4는 상용 API로 서비스를 제공하여 용이한 서비스 접근으로 다양한 이용층을 끌어들이고 있다. 그러나 현재 상용 API로 제공되고 있는 ChatGPT 및 GPT-4는 사용자의 대화 내역 데이터를 수집해 기업의 보안 문제를 야기할 수 있고 또한 생성된 결과물의 환각 문제로 인한 기업 문서의 신뢰성 저하를 초래할 수 있다. 특히 LLM 생성 글은 인간의 글과 유사한 수준으로 유창성을 확보한만큼 산업현장에서 LLM 작성 글이 판별되지 못할 경우 기업 활동에 큰 제약을 줄 수 있다. 그러나 현재 한국어 LLM 작성 글 탐지 서비스가 전무한 실정이다. 본 논문에서는 한국어 초거대언어모델 작성 글 판별기: KoCheckGPT 를 제안한다.KoCheckGPT는 산업현장에서 자주 사용되는 문어체, 개조식 글쓰기로 작성된 문서 도메인을 목표로 하여 글 전체와 문장 단위의 판별 정보를 결합하여 주어진 문서의 LLM 작성 여부를 효과적으로 판별한다. 다국어 LLM 작성 글 판별기 ZeroGPT와의 비교 실험 결과 KoCheckGPT는 우수한 한국어 LLM 작성 글 탐지 성능을 보였다.

  • PDF

Analysis of Toxicity and Bias of ChatGPT within Korean Social Context (한국의 사회적 맥락에서의 ChatGPT의 독성 및 편향성 분석)

  • Seungyoon Lee;Chanjun Park;Gyeongmin Kim;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.539-545
    • /
    • 2023
  • 초거대 언어모델은 심화된 언어적 이해를 요구하는 여러 분야에 높은 영향력을 미치고 있으나, 그에 수반되는 편향성과 윤리성에 대한 우려 또한 함께 증대되었다. 특히 편향된 언어모델은 인종, 성적 지향 등과 같은 다양한 속성을 가진 개인들에 대한 편견을 강화시킬 수 있다. 그러나 이러한 편향성에 관한 연구는 대부분 영어 문화권에 한정적이며 한국어에 관한 연구 또한 한국에서 발생하는 지역 갈등, 젠더 갈등 등의 사회적 문제를 반영하지 못한다. 이에 본 연구에서는 ChatGPT의 내재된 편향성을 도출하기 위해 의도적으로 다양한 페르소나를 부여하고 한국의 사회적 쟁점들을 기반으로 프롬프트 집합을 구성하여 생성된 문장의 독성을 분석하였다. 실험 결과, 특정 페르소나 또는 프롬프트에 관해서는 지속적으로 유해한 문장을 생성하는 경향성이 나타났다. 또한 각 페르소나-쟁점에 대해 사회가 갖는 편향된 시각이 모델에 그대로 반영되어, 각 조합에 따라 생성된 문장의 독성 분포에 유의미한 차이를 보이는 것을 확인했다.

  • PDF

A Study on the Process of Policy Change of Hyper-scale Artificial Intelligence: Focusing on the ACF (초거대 인공지능 정책 변동과정에 관한 연구 : 옹호연합모형을 중심으로)

  • Seok Won, Choi;Joo Yeoun, Lee
    • Journal of the Korean Society of Systems Engineering
    • /
    • v.18 no.2
    • /
    • pp.11-23
    • /
    • 2022
  • Although artificial intelligence(AI) is a key technology in the digital transformation among the emerging technologies, there are concerns about the use of AI, so many countries have been trying to set up a proper regulation system. This study analyzes the cases of the regulation policies on AI in USA, EU and Korea with the aim to set up and improve proper AI policies and strategies in Korea. In USA, the establishment of the code of ethics for the use of AI is led by private sector. On the other side, Europe is strengthening competitiveness in the AI industry by consolidating regulations that are dispersed by EU members. Korea has also prepared and promoted policies for AI ethics, copyright and privacy protection at the national level and trying to change to a negative regulation system and improve regulations to close the gap between the leading countries and Korea in AI. Moreover, this study analyzed the course of policy changes of AI regulation policy centered on ACF(Advocacy Coalition Framework) model of Sabatier. Through this study, it proposes hyper-scale AI regulation policy recommendations for improving competitiveness and commercialization in Korea. This study is significant in that it can contribute to increasing the predictability of policy makers who have difficulties due to uncertainty and ambiguity in establishing regulatory policies caused by the emergence of hyper-scale artificial intelligence.

A Study on the Evaluation Method of Korean Comprehension Abilities of Large Language Model (대규모 언어모델의 한국어 이해 능력 평가 방법에 관한 연구)

  • Ki Jun Son;Seung Hyun Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.733-736
    • /
    • 2024
  • 최근 GTP4, LLama와 같은 초거대 언어모델을 활용한 서비스가 공개되어 많은 사람의 주목을 받고 있다. 해당 모델들은 사용자들의 다양한 질문에 대하여 유창한 결과를 생성하고 있지만 한국어 데이터에 대한 학습량이 부족하여 한국어 이해 및 한국 문화 등에 대한 잘못된 정보를 제공하는 문제를 야기할 수 있다. 이에 본 논문에서는 한국어 데이터를 학습한 주요 공개 모델 6개를 선정하고 5개 분야(한국어 이해 및 문화 영역으로 구성)에 대한 평가 데이터셋을 구성하여 한국어 이해 능력에 대한 평가를 진행하였다. 그 결과 한국어 구사 능력은 Bookworm 모델이, 한국어 이해 및 문화와 관련한 부문은 LDCC-SOLAR 모델이 우수한 것으로 확인할 수 있었다.