• 제목/요약/키워드: a inference

검색결과 2,820건 처리시간 0.032초

대형 사전훈련 모델의 파인튜닝을 통한 강건한 한국어 음성인식 모델 구축 (Building robust Korean speech recognition model by fine-tuning large pretrained model)

  • 오창한;김청빈;박기영
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.75-82
    • /
    • 2023
  • 자동 음성 인식(automatic speech recognition, ASR)은 딥러닝 기반 접근 방식으로 혁신되었으며, 그중에서도 자기 지도 학습 방법이 특히 효과적일 수 있음이 입증되고 있다. 본 연구에서는 다국어 ASR 시스템인 OpenAI의 Whisper 모델의 한국어 성능을 향상시키는 것을 목표하여 다국어 음성인식 시스템에서의 비주류 언어의 성능 문제를 개선하고자 한다. Whisper는 대용량 웹 음성 데이터 코퍼스(약 68만 시간)에서 사전 학습되었으며 주요 언어에 대한 강력한 인식 성능을 입증했다. 그러나 훈련 중 주요 언어가 아닌 한국어와 같은 언어를 인식하는 데 어려움을 겪을 수 있다. 우리는 약 1,000시간의 한국어 음성으로 구성된 추가 데이터 세트로 Whisper 모델을 파인튜닝하여 이 문제를 해결한다. 또한 동일한 데이터 세트를 사용하여 전체 훈련된 Transformer 모델을 베이스 라인으로 선정하여 성능을 비교한다. 실험 결과를 통해 Whisper 모델을 파인튜닝하면 문자 오류율(character error rate, CER) 측면에서 한국어 음성 인식 기능이 크게 향상되었음을 확인할 수 있다. 특히 모델 크기가 증가함에 따라 성능이 향상되는 경향을 포착하였다. 그러나 Whisper 모델의 영어 성능은 파인튜닝 후 성능이 저하됨을 확인하여 강력한 다국어 모델을 개발하기 위한 추가 연구의 필요성을 확인할 수 있었다. 추가적으로 우리의 연구는 한국어 음성인식 애플리케이션에 파인튜닝된 Whisper 모델을 활용할 수 있는 가능성을 확인할 수 있다. 향후 연구는 실시간 추론을 위한 다국어 인식과 최적화에 초점을 맞춰 실용적 연구를 이어갈 수 있겠다.

과학 학습지도를 위한 '과학적 설명'의 의미 명료화 (Clarifying the Meaning of 'Scientific Explanation' for Science Teaching and Learning)

  • 박종원;윤혜경;이인선
    • 한국과학교육학회지
    • /
    • 제43권6호
    • /
    • pp.509-520
    • /
    • 2023
  • 과학적 설명은 과학자의 과학적 실행에서 추구하는 주요한 목표이며 과학교육 과정 문서에서도 학생의 과학적 설명 구성 능력을 주요한 목표로 포함하고 있다. 따라서 그 의미를 명료화하는 것은 과학교육 공동체에서 중요한 문제이다. 이 논문에서는 주제 범위 문헌 고찰 방법을 사용하여 '과학적 설명'에 대한 3가지 관점을 추출하고 각각에 대해 고찰하였다(연역-법칙적 설명 모델, 확률론적 설명 모델, 실용적 설명 모델). 그리고 문헌 고찰 내용을 바탕으로 과학적 설명이 과학교육에서 사용하는 다른 개념들, 즉 '기술', '예상', '추론', '가설', '논증'과 어떤 점에서 유사하고 어떤 점에서 구분되는지 논의하면서 이러한 용어들의 의미를 구분하여 사용하는 것이 과학교육 연구와 실행에서 중요하다는 점을 주장하였다. 또 산물로서의 '과학적 설명'과 의사소통으로서 '과학적으로 설명하기'가 차이가 있음을 지적하고, 과학 교육과정의 성취기준 진술 방안, 학생의 과학적 설명 구성을 돕는 방안, 학생의 과학적 설명하기를 돕는 방안을 몇 가지 제안하였다. 예를 들어, 세 가지 과학적 설명 모델에 따라 각각 중요하게 고려해야 할 요인들을 구분하여 정리하고, 그러한 요인을 고려한 과학적 설명을 위한 과학 학습활동 사례를 제시하였다. 본 연구에서의 논의가 과학적 설명과 관련된 과학 학습에서 좀 더 분명하게 학습 목표를 설명하고 그에 따라 보다 적절한 학습활동을 설계하는 데 도움이 되기를 기대한다.

가상화 시스템에서 Virtio와 SR-IOV 적용에 대한 단일 및 다중 네트워크 성능 평가 및 분석 (Performance Evaluation and Analysis on Single and Multi-Network Virtualization Systems with Virtio and SR-IOV)

  • 이재학;임종범;유헌창
    • 정보처리학회 논문지
    • /
    • 제13권2호
    • /
    • pp.48-59
    • /
    • 2024
  • 하드웨어 자체적으로 가상화를 지원하는 기능들이 추가됨에 따라 다양한 작업 유형을 가진 사용자 어플리케이션들이 가상화 시스템에서 효율적으로 운용되고 있다. 가상화 지원 기능 중 SR-IOV는 PCI 장치에 대한 직접 접근을 통해 하이퍼바이저 또는 운영체제 개입을 최소화하여 시스템 성능을 높이는 기술로 베어-메탈 시스템 대비 비교적 긴 I/O 경로 및 사용자 영역과 커널 영역에 대한 빈번한 컨텍스트 스위칭 등 가상화 계층의 추가로 낮은 네트워크 성능을 가진 가상화 시스템에서 네트워크 I/O 가속화를 실현하게 해준다. 이러한 성능적 이점을 이용하기 위해 가상머신 또는 컨테이너와 같은 인스턴스에 SR-IOV를 접목할 시 최적의 네트워크 I/O 성능을 도출할 수 있는 네트워크 자원 관리 정책이 활발히 연구되고 있다. 본 논문은 I/O 가속화를 실현하는 SR-IOV의 네트워크 성능을 1) 네트워크 지연 시간, 2) 네트워크 처리량, 3) 네트워크 공정성, 4) 성능간섭, 5) 다중 네트워크와 같은 측면으로 세밀한 성능 평가 및 분석을 Virtio와 비교하여 진행한다. 본 논문의 기여점은 다음과 같다. 첫째, 가상화 시스템에서 Virtio와 SR-IOV의 네트워크 I/O 과정을 명확히 설명했으며, 둘째, Virtio와 SR-IOV의 네트워크 성능을 다양한 성능 메트릭을 기반으로 분석하였다. 셋째, 가상머신 밀집도가 높은 환경에서 SR-IOV 네트워크에 대한 시스템 오버헤드 및 이에 대한 최적화 가능성을 실험으로 확인하였다. 본 논문의 실험 결과 및 분석들은 스마트 팩토리, 커넥티드-카, 딥러닝 추론 모델, 크라우드 소싱과 같은 네트워크 집약적인 서비스들을 운용하는 가상화 시스템에 대한 네트워크 자원 관리 정책에 활용될 것으로 기대된다.

Designing fuzzy systems for optimal parameters of TMDs to reduce seismic response of tall buildings

  • Ramezani, Meysam;Bathaei, Akbar;Zahrai, Seyed Mehdi
    • Smart Structures and Systems
    • /
    • 제20권1호
    • /
    • pp.61-74
    • /
    • 2017
  • One of the most reliable and simplest tools for structural vibration control in civil engineering is Tuned Mass Damper, TMD. Provided that the frequency and damping parameters of these dampers are tuned appropriately, they can reduce the vibrations of the structure through their generated inertia forces, as they vibrate continuously. To achieve the optimal parameters of TMD, many different methods have been provided so far. In old approaches, some formulas have been offered based on simplifying models and their applied loadings while novel procedures need to model structures completely in order to obtain TMD parameters. In this paper, with regard to the nonlinear decision-making of fuzzy systems and their enough ability to cope with different unreliability, a method is proposed. Furthermore, by taking advantage of both old and new methods a fuzzy system is designed to be operational and reduce uncertainties related to models and applied loads. To design fuzzy system, it is required to gain data on structures and optimum parameters of TMDs corresponding to these structures. This information is obtained through modeling MDOF systems with various numbers of stories subjected to far and near field earthquakes. The design of the fuzzy systems is performed by three methods: look-up table, the data space grid-partitioning, and clustering. After that, rule weights of Mamdani fuzzy system using the look-up table are optimized through genetic algorithm and rule weights of Sugeno fuzzy system designed based on grid-partitioning methods and clustering data are optimized through ANFIS (Adaptive Neuro-Fuzzy Inference System). By comparing these methods, it is observed that the fuzzy system technique based on data clustering has an efficient function to predict the optimal parameters of TMDs. In this method, average of errors in estimating frequency and damping ratio is close to zero. Also, standard deviation of frequency errors and damping ratio errors decrease by 78% and 4.1% respectively in comparison with the look-up table method. While, this reductions compared to the grid partitioning method are 2.2% and 1.8% respectively. In this research, TMD parameters are estimated for a 15-degree of freedom structure based on designed fuzzy system and are compared to parameters obtained from the genetic algorithm and empirical relations. The progress up to 1.9% and 2% under far-field earthquakes and 0.4% and 2.2% under near-field earthquakes is obtained in decreasing respectively roof maximum displacement and its RMS ratio through fuzzy system method compared to those obtained by empirical relations.

모발분석 및 처리를 위한 한국형 의료 정보 시스템 구축 (Implementation of Medical Information System for Korean by Tissue Mineral Analysis)

  • 조영임
    • 한국멀티미디어학회논문지
    • /
    • 제6권1호
    • /
    • pp.148-160
    • /
    • 2003
  • 현재 세계 48개국의 의료기관에서 임상을 위해 널리 사용 중인 모발분석(TMA)은 중요 미네랄 비율을 분석하여 체내에 과잉, 결핍 및 불균형 상태를 평가하고 인체에 미치는 영향을 예측하여 건강유지 방향을 제시하는 임상 영양학 및 독성학 검사방법을 말한다. 그러나 국내 모발분석방법에는 몇 가지 문제점이 있다. 즉, 모발분석결과를 처리하고 해석할 수 있는 한국형 의료정보 데이터베이스가 없으므로 미국에 의뢰하고 있는데, 외화낭비는 물론 보내오는 모발분석 검사결과지가 영문이고 철저한 보안 위주파일이므로 국내의료 기관에서의 활용도가 매우 낮다. 또한 모발분석 결과가 서구식 데이터베이스로부터 분석된 것이므로 검사결과의 신뢰성 문제도 발생한다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 국내 최초로 TMA 기반 한국형 의료정보시스템을 구축하였다. 이 시스템은 복잡한 모발분석 자료의 분류를 다단계 통계분석 방법에 의한 결정트리 분류기를 통해 수행하고, 다중 퍼지 규칙방식의 데이터베이스를 구축하여 지능형 퍼지추론 방법에 의해 모발분석 자료를 분석한다. 본 시스템의 성능을 실제 작업 환경에서 측정한 결과, 시스템을 사용하는 경우가 사용하지 않았을 경우보다 업무능률과 사용자 만족도가 각각 86%, 92% 증가하였다.

  • PDF

LDA 기반 은닉 토픽 추론을 이용한 TV 프로그램 자동 추천 (Automatic TV Program Recommendation using LDA based Latent Topic Inference)

  • 김은희;표신지;김문철
    • 방송공학회논문지
    • /
    • 제17권2호
    • /
    • pp.270-283
    • /
    • 2012
  • 다채널 TV, IPTV 및 Smart TV 서비스의 등장으로 인해 수많은 방송 채널과 방대한 TV 프로그램 콘텐츠가 시청자 단말로 제공됨으로써 시청자들은 자신이 원하는 콘텐츠를 쉽게 찾고 소비하는 것이 어려운 TV 시청 환경을 맞게 되었다. 따라서 TV 사용자들에게 자신이 선호하는 콘텐츠를 자동 추천해 줌으로써 원하는 콘텐츠로의 접근성을 증대시키는 것은 미래의 지능형 TV 서비스에 있어서 주요한 이슈이다. 이에 본 논문에서는 사용자의 선호 취향과 대중의 선호취향을 모두 고려한 협업필터링 개념의 통계적 기계학습 기반 TV 프로그램 추천 모델을 제시한다. 이를 위해 시청한 TV 콘텐츠에 대한 선호 토픽을 사용자의 시청 선호도로 보고, 최근 널리 활용되고 있는 LDA(Latent Dirichlet Allocation)모델을 TV 프로그램 추천 모델에 적용하였다. LDA 기반 TV 프로그램 추천 성능을 개선하기 위해 본 논문에서는 TV시청 이용내역 데이터를 기반으로, TV 사용자들의 관심 토픽을 은닉 변수로 하고, TV 사용자들의 관심 토픽에 대한 다양성을 반영하기 위해 은닉 변수의 확률분포 특성을 비대칭 디리클레(Dirichlet) 분포로 모형화하여 실험에 적용하였다. 제안된 LDA 기반 TV 프로그램 자동 추천 방법의 성능을 검증하기 위해, 유사 시청 특성을 갖는 사용자 그룹에 대해 상위 5개의 TV 프로그램을 일주일 단위로 추천하였을 경우 평균 66.5%, 2개월 단위의 추천에 대해서는 평균 77.9%의 precision 추천 성능을 확인할 수 있었다.

고산도 생성 초산균의 분리 및 발효특성 (Characterization of Acetobacter sp. Strain CV1 Isolated from a Fermented Vinegar)

  • 백창호;백성열;이세희;강지은;최한석;김재현;여수환
    • 한국미생물·생명공학회지
    • /
    • 제43권2호
    • /
    • pp.126-133
    • /
    • 2015
  • 본 연구에서는 정치 배양법으로 고농도의 초산을 생산할 수 있고 에탄올 내성이 우수한 균주를 확보하고자 농가형 발효식초에서 초산균을 분리 및 선발하였고, 이들 초산균의 형태적 특징을 조사한 바, 분리균 CV1은 그람 음성으로 운동성이 없는 간균으로 나타났다. 분리균의 chemotaxonomy를 분석한 결과, meso-DAP이며, 대표 퀴논은 Q10이고, G+C mol 함량은 61.0 mol %로 나타났으며 16S rDNA 유전자의 염기서열을 분석한 결과, Gluconacetobacter saccharivorans로 동정되어 Glu. saccharivorans CV1로 명명하였다. CV1 초산균의 최적 성장조건은 30℃, pH 3.0 이상으로 판단되었고 에탄올 농도에 따른 초산 생성능은 10% 에탄올 농도에서 9.3%, 9% 에탄올 농도에서는 8.4% 적정산도를 나타내어 고농도 에탄올 조건에서도 높은 산 생성능을 나타내는 우수한 균주로 판단되었다.

백화산 고도별 식물 종풍부도에 대한 기후 및 서식지 인자의 상대적 중요성 (Relative importance of climatic and habitat factors on plant richness along elevation gradients on the Mt. Baekhwa, South Korea)

  • 이창배;천정화
    • 한국농림기상학회지
    • /
    • 제20권3호
    • /
    • pp.233-242
    • /
    • 2018
  • 본 연구는 백화산 지역 고도 구배에 따른 식물 종풍부도 패턴을 구명 하고, 관찰된 고도별 식물 종풍부도 패턴에 대한 기후 및 서식지 인자들의 효과를 구명하고자 수행되었다. 백화산 지역 두 개의 조사 구간인 반야사에서 한성봉 구간과 보현사에서 한성봉 구간을 따라 총 70개 조사구에서 목본식물 78종, 초본식물 109종 등 총 187종의 식물종이 관찰되었다. 구간별로 살펴보면, 반야사 구간에서 목본식물 66종, 초본식물 88종을 포함한 154종이 관찰되었으며, 보현사 구간에서는 목본식물 58종, 초본식물 73종 등 131종이 관찰되었다. 고도별 종풍부도 패턴에 대한 기후 및 서식지 인자의 상대적 중요성을 분석하기 위해 단순최소제곱 회귀모형, 다수준모형 및 변이분할을 수행하였다. 분석결과, 반야사 구간의 고도별 종풍부도 패턴은 감소형 패턴을 나타내었으며, 보현사 구간의 종풍부도 패턴은 역단봉형 패턴을 나타내었다. 비록, 고도별 식물종풍부도 패턴은 조사구간 별로 서로 다른 양상을 나타내었으나, 백화산 지역 본 연구 조사 구간에 있어서 고도별 식물 종다양성 패턴에 영향을 미치는 인자들의 상대적 중요성은 서식지 인자가 기후 인자보다 큰 것으로 나타났다. 이러한 결과는 동일한 산악 생태계 내에 위치하는 인근 조사구간에서 조차 고도별 식물 종 풍부도 패턴은 다를 수 있다는 것을 나타낸다. 하지만, 동시에 동일 산악 생태계 내에서의 상이한 패턴에도 불구하고 그 패턴을 제어하는 인자는 동일할 수 있음을 나타낸다.

유전알고리즘을 이용한 OD 추정모형의 개발과 적용에 관한 연구 (서울시 내부순환도로를 대상으로) (Development and application of GLS OD matrix estimation with genetic algorithm for Seoul inner-ringroad)

  • 임용택;김현명;백승걸
    • 대한교통학회지
    • /
    • 제18권4호
    • /
    • pp.117-126
    • /
    • 2000
  • 링크에서 관측된 교통량과 기존의 기종점표(Origin-Destination matrix)를 결합해 새로운 OD를 추정하고자 하는 연구들은 1980년대부터 20여년간 많은 연구자들을 통해 논의되어 왔다. 특히 최근들어 ITS 등의 보급으로 교통관리를 위한 기본자료로서 링크 교통량의 관측이 확대되면서, 도시고속도로 및 간선도로 관리, 경로안내 시스템 등에 사용될 목적으로 링크관측교통량 자료를 이용한 OD 추정의 필요성이 더욱 높아지고 있다. OD 추정을 위해 사용되는 기존기법으로는 여러 가지가 있으나 가장 대표적인 기법으로는 베이지안 추정을 이용하는 통계적 방법(Maher, 1983), Entropy 극대화 규칙을 이용하는 방법(Van Zuylen and Willumsen, 1980; Fisk and Boyce, 1983; Fisk, 1989), 최우추정법을 이용한 방법(Spiess, 1987), 그리고 일반화 최소자승법을 이용하는 방법(Gothe et al., 1989; Bell, 1997; Yang et al., 1992) 등이 있다. 본 연구에서는 이러한 방법들 중 최소자승법을 이용해 OD추정모형을 구축하고, 최적해를 얻기 위하여 유전알고리즘(Genetic Algorithm)을 이용한 알고리즘을 개발하였다 또한, 개발된 모형을 통해 얻은 결과를 Spiess(1990)가 제시하여 현재 EMME/2에서 사용되고 있는 Gradient method의 결과와 비교하였다. 본 연구에서는 모형의 추정력 비교를 위해 각 기종점 통행량의 평균 추정오차 외에 동일한 기점을 갖는 기종점 통행량 간의 규모순위(OD 구조) 추정력을 확인하였다. 서울시 내부순환도로를 분석대상으로 하여, 대상지역에서 오전에 조사된 OD를 기존(Target) OD로 사용하였고, 오후의 OD를 추정대상 OD로 설정하였으며, 각 링크에서 오후에 조사된 실제교통량을 링크 관측교통량으로 사용하였다. 분석결과 유전알고리듬을 이용한 최소자승법을 통해 얻은 결과가 Gradient method를 통해 얻은 결과에 비해 우수한 것으로 나타났다.

  • PDF

한국의 자연실업률 추정 (Korea's Natural Rate of Unemployment: Estimates and Assessment)

  • 신석하
    • KDI Journal of Economic Policy
    • /
    • 제26권2호
    • /
    • pp.3-62
    • /
    • 2004
  • 한국의 자연실업률에 대한 기존 연구들은 대부분 한 가지의 추정방법에 의존하고 있어 연구 간에 상이하게 나타나는 추정결과를 평가할 근거가 없는 상황이다. 따라서 본고에서는 이를 감안하여 순수 시계열방법, 축약형 모형을 이용한 방법, 구조모형을 이용한 방법 등 다양한 추정방법을 검토하여 추정방법 간 상대적인 장단점을 비교하고 이를 기반으로 한국의 자연실업률을 추정하고자 하였다. 또한 본 논문에서는 추정결과의 신뢰구간을 몬테카를로 적분(Monte Carlo integration)방법을 이용하여 추정함으로써 추정결과의 정확성에 대한 평가 근거를 제시하였다. 축약형 모형의 하나인 다변수 비관측인자모형이 여타 추정방법에 비해 상대적으로 장점을 지니고 있는 것으로 평가되었으나 추정결과가 모형설정오류에 민감하다는 점을 고려하여 모형설정에 세심한 주의를 기울일 필요가 제기되었으며, 순수 시계열방법이나 구조 벡터자기회귀모형도 나름대로의 장점이 있으므로 특정방법을 이용한 결과에 의존하기보다는 여러 추정방법에 의한 추정결과에서 공통적으로 발견되는 부분에 기반을 두어 자연실업률을 추론하는 것이 바람직하다고 사료된다. 추정방법에 따라 다소 차이가 있지만, 한국의 자연실업률은 1979~87년 동안 평균 3.7~4.0% 수준에서 1988~97년 기간 동안 평균 2.6~3.2% 수준으로 하락하였으나, 외환위기를 거치며 4.0~5.3% 수준까지 상승하였다가 이후 하락하는 추세를 지속하고 있는 것으로 나타났다. 또한 대부분의 추정결과에서 최근에 실제실업률이 자연실업률에 근접해 있으나 실업률 갭이 상승하고 있는 것으로 나타나 최근 비교적 높은 수준에 머무르고 있는 실업률이 외환위기 이후 자연실업률의 상승이라는 구조적 변화와 경기침체라는 경기순환적 요인에 함께 영향 받고 있을 가능성을 시사하였다.

  • PDF