• 제목/요약/키워드: 언어생성

검색결과 1,751건 처리시간 0.03초

에지 컴퓨팅 환경에서의 상황인지 서비스를 위한 팻 클라이언트 기반 비정형 데이터 추상화 방법 (Fat Client-Based Abstraction Model of Unstructured Data for Context-Aware Service in Edge Computing Environment)

  • 김도형;문종혁;박유상;최종선;최재영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권3호
    • /
    • pp.59-70
    • /
    • 2021
  • 최근 사물인터넷의 발전으로 사용자 주변 상황을 인지하여 맞춤형 서비스를 제공하는 상황인지 시스템에 대한 관심이 증가되고 있다. 기존의 상황인지 시스템은 사용자 주위에서 생성되는 데이터를 분석하여 사용자 주변 상황을 표현하는 상황 정보로 추상화하는 기술이 사용되었다. 하지만 증가하는 사용자의 서비스 요구 사항에 따라 다양한 종류의 비정형 데이터의 사용이 증가하고, 사용자 주변에서 수집되는 데이터의 양이 많아지면서 비정형 데이터의 처리와 상황인지 서비스의 제공에 어려움이 있다. 이러한 사항은 딥러닝 응용에서 비정형 구조의 입력 데이터가 많이 사용되는 데서 찾아볼 수 있다. 기존 연구에서는 에지 컴퓨팅 환경에서 다양한 딥러닝 모델을 활용해 비정형 데이터를 상황 정보로 추상화하는 연구가 진행되었으나, 수집-전처리-분석 등과 같은 추상화 과정 간의 종속성으로 인해 제한된 종류의 딥러닝 모델만이 적용 가능하기 때문에 시스템의 기능적 확장성이 고려되어야 한다. 이에 본 논문은 에지 컴퓨팅 환경에서 딥러닝 기술을 활용한 비정형 데이터 추상화 과정의 기능적 확장성을 고려한 비정형 데이터 추상화 방법을 제안한다. 제안하는 방법은 데이터 처리가 분산되어 있는 에지 컴퓨팅 환경에서 수집과 전처리 과정을 수행할 수 있는 팻 클라이언트 기술을 사용하여 추상화 과정의 수집-전처리 과정과 분석 과정을 분리하여 수행하는 것이다. 또한 분리된 추상화 과정을 관리하기 위해 수집-전처리 과정을 수행하는 데 필요한 정보를 팻 클라이언트 프로파일로 제공하고, 분석 과정에 필요한 정보를 분석 모델 설명 언어(AMDL) 프로파일로 제공한다. 두 가지 프로파일을 통해서 추상화 과정을 독립적으로 관리하여 상황인지 시스템의 기능적 확장성을 제공한다. 실험에서는 차량 출입 통제 알림 서비스를 위한 차량 이미지 인식 모델을 대상으로 팻 클라이언트 프로파일과 AMDL 프로파일의 예제를 통해 시스템의 기능적 확장성을 보이고, 비정형 데이터의 추상화 과정별 세부사항을 보인다.

BERT-Fused Transformer 모델에 기반한 한국어 형태소 분석 기법 (Korean Morphological Analysis Method Based on BERT-Fused Transformer Model)

  • 이창재;나동열
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.169-178
    • /
    • 2022
  • 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소 분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는 것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에 직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를 다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로 변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한 BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을 이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.

Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅 (Korean Part-Of-Speech Tagging by using Head-Tail Tokenization)

  • 서현재;김정민;강승식
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 기존의 한국어 품사 태깅 방식은 복합어를 단위 형태소들로 분해하여 품사를 부착하므로 형태소 태그가 세분화되어 있어서 태거의 활용 목적에 따라 불필요하게 복잡하고 다양한 어절 유형들이 생성되는 단점이 있다. 딥러닝 언어처리에서는 키워드 추출 목적으로 품사 태거를 사용할 때 복합조사, 복합어미 등 문법 형태소들을 단위 형태소로 분할하지 않는 토큰화 방식이 효율적이다. 본 연구에서는 어절을 형태소 단위로 토큰화할 때 어휘형태소 부분과 문법형태소 부분 두 가지 유형의 토큰으로만 분할하는 Head-Tail 토큰화 기법을 사용하여 품사 태깅 문제를 단순화함으로써 어절이 과도하게 분해되는 문제점을 보완하였다. Head-Tail 토큰화된 데이터에 대해 통계적 기법과 딥러닝 모델로 품사 태깅을 시도하여 각 모델의 품사 태깅 정확도를 실험하였다. 통계 기반 품사 태거인 TnT 태거와 딥러닝 기반 품사 태거인 Bi-LSTM 태거를 사용하여 Head-Tail 토큰화된 데이터셋에 대한 품사 태깅을 수행하였다. TnT 태거와 Bi-LSTM 태거를 Head-Tail 토큰화된 데이터셋에 대해 학습하여 품사 태깅 정확도를 측정하였다. 그 결과로, TnT 태거는 97.00%인데 비해 Bi-LSTM 태거는 99.52%의 높은 정확도로 품사 태깅을 수행할 수 있음을 확인하였다.

Improved Method for Learning Context-Free Grammar using Tabular representation

  • Jung, Soon-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.43-51
    • /
    • 2022
  • 이 논문은 문법적 추론에서 유전자 알고리즘의 진화대상으로 테이블 표현(Tabular representation: TBL)을 이용한 문맥자유 문법(Context-free grammar: CFG)을 학습하는 기존의 방법을 개선하여 더 효율적인 결과를 얻은 그 방법과 실험 결과를 제시한다. 이 논문에서 소개하는 개선된 점은 두가지로, 첫째는 적합도 함수를 긍정과 부정의 예들에 대한 학습 평가를 동시에 반영하도록 수식을 개선하고 둘째는 긍정적 학습 예들로부터 생성된 TBL들에 대응되는 파티션(partition)들을 학습 문자열의 크기별로 분류하여 부류별 진화 과정을 진행하며 그 성공률에 따라 구성 비율을 조정하여 다음세대에 생존에 연계하는 학습 방법을 적용한다. 이 개선점들은 학습 예들의 크기에 따른 TBL의 크기가 여러 개체들 사이의 교배와 일반화 단계에서 복잡성과 어려움을 해결하여 기존 방법보다도 좋은 효율을 제공한다. 이 연구는 기존 방법에서 제안된 언어들로 실험하고 그 결과는 기존 방법보다 같은 성공률을 갖는 상태에서 학습 완성의 평균 세대수가 적게 걸리는 다소 빠른 세대속도의 결과를 보여준다. 앞으로 이 방법은 확장된(extended) CYK에 시도할 수 있으며 더 나아가 좀 더 복잡한 파싱 테이블(parsing table)에도 적용할 가능성을 제시한다.

정동 이론으로 본 농악의 공감각적 현존과 신체 운동 (The Synesthetic Presence and Physical Movement of Nong-ak as Seen Through Affect Theory)

  • 권은영
    • 공연문화연구
    • /
    • 제40호
    • /
    • pp.5-35
    • /
    • 2020
  • 정동(affect)은 신체가 외부 세계를 감각함으로써 생성되는 강렬함(intensity)과 특질(quality)이다. 이렇게 체험된 정동 중에서 의미와 해석이 부여된 관념이 감정(emotion)이다. 정동 이론(affect theory)은 감정과 정동을 분별하고 정동에 주목함으로써 신체의 반응과 변화를 분석할 수 있는 방법을 제공하고 있으며, 신체를 매체로 하는 공연예술 연구에 새로운 가능성을 제시하고 있다. 농악은 '재현'(representation)보다는 정동의 발생 자체에 주력하는 예술이다. 농악은 소리, 색깔, 질감, 신체 운동 등이 중첩되어 공감각적으로 현존하는 공연이다. 여기에는 인간의 신체를 중심으로 악기, 소품, 의상, 무대장치 등 물질적인 것들과 리듬, 기분, 분위기 등 비물질적인 것들이 동원된다. 신체는 이런 것들에 자극되어 공연에 적절하도록 경향성을 띄며, 공연에 몰입할수록 '이미지 없는 신체'(the body without an image)가 되어 '의사-신체성'(quasi-corporeality)을 보이며 행동한다. 마치 의식이 없는 것처럼 자동으로 움직이는 이런 신체는 집단 속에서 더 쉽게 나타난다. 일상의 개인을 집단 속의 '이미지 없는 신체'로 이행(transition)시키기 위해서 농악에서는 '진풀이'라는 집단적인 신체 운동을 수행한다. 이런 신체 운동은 비언어적인 교감과 소통을 높여 정동을 증강시키고, 상호 신뢰와 귀속감 속에서 개개인들의 창조력을 발휘하게 한다. 농악이 일으키는 정동과 감정은 자신과 집단의 존재, 활력, 능력을 확인하고 긍정하는 것으로 작용한다. 이런 긍정성은 집단의 차원에서 농악을 의미 있고 중요한 가치로 기억하게 하였고, 보존하고 전승해야 하는 공연양식으로 인식하게 하였다.

라반의 공간조화이론 "코레우틱스(Choreutics)"를 활용한 움직임의 추상적 시각화 연구 (A Study on the Abstraction of Movements Based on Laban's Space Theory "Choreutics")

  • 김혜란;이상욱
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권3호
    • /
    • pp.371-381
    • /
    • 2017
  • 본 논문에서는 인간 움직임에 관한 이론들 중 현대무용 이론가인 루돌프 폰 라반(Rudolf von Laban)의 움직임 분석(Laban Movement Analysis)을 중심으로 추상 애니메이션의 제작 방법론을 소개한다. 라반의 이론은 다양한 인간의 움직임들을 묘사하고 시각화하고 해석하고 문서화하기 위한 도구와 언어를 모두 포함하며 그 중 공간조화이론인 코레우틱스(Choreutics)는 고대로부터 정의된 자연의 보편적인 패턴과 자연의 일부인 인간의 보편적 디자인에 기반하고 있다. 라반은 근본적으로 움직임의 공간을 이원론적 방식으로 정의하였는데 외형적으로는 점, 선, 면, 다각형, 그리고 선형, 비선형 움직임과 같은 기하학과 모션 프리미티브의 관점에서의 객관적이고 과학적인 정의를 통해 컴퓨터 그래픽스에서 인간의 움직임을 생성하기 위한 구체적인 기반을 제공하였다. 또 한편으로는 움직임의 내적인 의도와 관련하여 나타나는 역동적 운동성의 미묘한 특징들을 이해할 수 있는 시스템을 제공하였다. 라반의 해석은 다양한 시각적 분석방식을 통해 조형예술과 컴퓨터 아트 양쪽 분야에서 활용될 수 있는 잠재적인 가치를 지니고 있다. 본 연구는 움직임에 대한 신체적, 심리적 분석에서 영감을 얻었으며 추상 애니메이션을 제작하기 위해 컴퓨터 알고리즘을 개발하였다. "코레오그래피(Choreography)"라고 명명된 일련의 컴퓨터 애니메이션 작품들은 문화체육관광부와 한국공예·디자인문화진흥원이 주최·주관한 "2015 공예트렌드페어(Craft Trend Fair)"의 주제관 <손에 담긴 미래>와 2016년 주영한국문화원의 "움직임을 만드는 사물(Make Your Movements: Korean Contemporary Objects)"등 다수의 전시에 소개되었다. 본 논문에서는 라반의 움직임에 관한 표현을 기초로 추상적 조형요소들의 움직임을 제작하기 위한 아이디어와 방법들을 설명한다.

KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구 (KOMUChat: Korean Online Community Dialogue Dataset for AI Learning)

  • 유용상;정민화;이승민;송민
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.219-240
    • /
    • 2023
  • 사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

Reddit 소셜미디어를 활용한 ChatGPT에 대한 사용자의 감정 및 요구 분석 (Analysis of Users' Sentiments and Needs for ChatGPT through Social Media on Reddit)

  • 나혜인;이병희
    • 인터넷정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.79-92
    • /
    • 2024
  • ChatGPT는 생성형 인공지능(Generative AI) 기술을 활용한 대표적인 챗봇으로서 과학기술 영역뿐만 아니라 사회, 경제, 산업, 문화 등 당양한 분야에서 유용하게 활용되고 있다. 본 연구는 글로벌 소셜미디어 레딧(Reddit)을 활용해 ChatGPT에 대한 사용자의 감정과 요구에 대한 탐색적인 분석을 수행한다. 이를 위해, 2022년 12월부터 2023년 8월까지의 댓글 10,796건을 수집하여 키워드 분석, 감성 분석, 니드마이닝(Needmining) 기반 토픽모델링을 실시하였다. 분석 결과, ChatGPT에 대한 댓글에서 출현 빈도가 가장 높은 단어는 "time"으로 답변의 신속성, 시간 효율성, 생산성 향상을 강조한 것으로 나타났다. 사용자들은 ChatGPT에 대해 신뢰와 기대의 감정과 동시에 사회적 영향에 대한 두려움과 분노의 감정을 표현하였다. 또한, 토픽모델링 분석을 통해 잠재적 니즈(Needs)를 포함한 14개의 주제를 도출하였고, 사용자들이 특히 ChatGPT에 대한 교육적 활용과 사회적 영향에 많은 관심을 보였다. 또한, ChatGPT와 관련된 언어모델, 직업, 정보, 의료, 서비스, 게임, 규제, 에너지, 윤리적 문제 등 다양한 주제들이 논의된 것을 알 수 있었다. 분석 결과를 바탕으로 사용자들의 요구를 반영하여 향후 실행계획의 방향을 제시하였다. 본 연구는 향후 ChatGPT를 이용하여 제품과 서비스를 개선하고, 새로운 서비스 플랫폼 기획 단계에서 유용한 정보를 제공할 것으로 기대된다.

대학입시 수능시험을 평가 도구로 적용한 ChatGPT의 학업 능력 분석 (Analysis of the scholastic capability of ChatGPT utilizing the Korean College Scholastic Ability Test)

  • 문혜림;김진혁;한경희;김시호
    • Journal of Platform Technology
    • /
    • 제11권5호
    • /
    • pp.72-83
    • /
    • 2023
  • ChatGPT는 2022년 하반기 상업적 서비스 시작 이후에 미국 변호사 자격시험과 의사 자격시험을 포함한 전문직 시험에서 성공적인 결과를 보였고, 전문직 영역에서 주관식 시험의 통과 능력을 입증하였으나, 교육 분야의 영역에서는 ChatGPT의 논리적 추론과 문제 풀이 등 학업 능력의 평가에 대해서도 새로운 실험과 분석이 필요하다. 본 연구에서는 한국 대학수학능력 시험 문제의 국어, 영어, 수학 세 주요 교과목을 활용하여 ChatGPT의 학업 능력을 평가하였다. 실험 결과에서는 ChatGPT는 영어 영역에서는 상대적으로 높은 69%의 정답률을 보이지만, 국어와 수학 영역에서는 각각 34%와 19%의 비교적 낮은 정답률을 기록하였다. 문장의 이해와 논리적 추론 능력에 관련된 수능 국어와 한국어 능력 시험 (TOPIK II) 및 수능 영어 시험의 결과 분석을 통하여, ChatGPT의 학업능력과 취약점의 원인을 분석하였다. ChatGPT는 대화형 언어 모델로 개발되었기 때문에 일반적인 국어, 영어, 수학 문제를 이해하고 응답하는 능력은 있지만, 난도가 높은 논리적 추론 능력과 수학 문제 풀이 능력에서는 매우 취약한 것으로 판단되었다. 본 연구는 생성형 인공지능의 성능 평가를 위한 간편하면서도 정확도가 높으며 효과적인 평가 기준을 마련하는 데에 큰 도움이 될 것으로 기대한다.

  • PDF

가습기 살균제 성분(PHMG, PGH, CMIT/MIT)의 사람 피부세포 독성 및 제브라피쉬 뇌신경 독성 비교 연구 (Comparison study of dermal cell toxicity and zebrafish brain toxicity by humidifier sterilizer chemicals (PHMG, PGH, CMIT/MIT))

  • 조경현;김재룡
    • 환경생물
    • /
    • 제38권2호
    • /
    • pp.271-277
    • /
    • 2020
  • 가습기 살균제 성분(PHMG, PGH, CMIT/MIT)의 노출에 의한 다양한 장기에 대한 독성들에 대해서 피해사례는 계속 증가하고 있으나, 세포모델과 동물모델에서의 연구와 보고는 아직 부족한 실정이다. 심혈관 독성, 간 독성, 배아 독성에 대해서는 최근 알려져 있으나 뇌신경 독성과 피부 독성에 대해서는 상대적으로 적게 알려져 있다. 본 연구에서는 이들 세 가지 성분들의 피부 독성과 뇌신경 독성을 사람 피부섬유세포와 제브라피쉬 동물모델을 대상으로 각각 평가하였다. 사람피부섬유세포에 세 가지의 성분들을 0, 2, 4, 6, 8, 16 mg L-1 (최종농도)로 처리하였을 때, 세포 생존율은 PHMG가 33%로 가장 낮았고, PGH가 49%, CMIT/MIT가 40%의 생존율을 보였다. 세포배양액 내의 산화물을 정량해본 결과, PHMG 처리된 세포가 28 nmol MDA로 가장 높았고, PGH가 13 nmol MDA, CMIT가 21 nmol MDA를 보였다. 제브라피쉬 사육수조에 PHMG, PGH, CMIT를 40 mg L-1의 최종농도가 되도록 희석한 후, 제브라피쉬를 30분간 노출시킨 후 중뇌의 광시개영역(optic tectum)을 횡면 미세절단하여 산화물의 생성정도를 비교해본 결과, CMIT/MIT를 처리한 그룹에서 대조군 대비 17배 많은 산화물의 생성이 있었고, PGH를 처리한 그룹에서는 15배, PHMG를 처리한 그룹에서는 11배 많은 산화물이 관찰되어 심각한 뇌신경계 독성을 보여주었다. 결론적으로 세 가지 종류의 가습기 살균제 성분들에서 모두 심각한 피부세포 독성과 뇌신경계 독성이 나타났는데, 피부 독성은 특히 PHMG가, 뇌신경계 독성은 특히 CMIT/MIT가 가장 심각하였다. 이들 결과들은 가습기 살균제에 노출된 어린이들이 뇌신경계 독성을 통하여 언어장애, 운동장애, 발달장애 등을 겪게 될 수도 있음을 실험적으로 제시한다.