통합 검색 | Korea Science

DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구 (DART: Data Augmentation using Retrieval Technique)

이승준;서재형;이정섭;강명훈;문현석;박찬준;정다현;이재욱;박기남;임희석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
- /
- pp.313-319
- /
- 2022
최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.
PDF

분산조직을 위한 컴퓨터 통합 비즈니스 시스템 (The computer-Integrated Business System(CIBS) for Highly Decentralized Organizations)

박광호;권용균
- 한국경영과학회:학술대회논문집
- /
- 한국경영과학회 1996년도 추계학술대회발표논문집; 고려대학교, 서울; 26 Oct. 1996
- /
- pp.153-156
- /
- 1996
현재의 정보시스템이 하드웨어의 발전에 비해 늦어진 이유는 개발 단계별로 상호 일관성이 결여된 방법론을 사용하고 있고 이 방법론들이 실제의 비즈니스 프로세스(Business Process)와는 차이가 있는 형태로 구현이 되기 때문이다. 또한, 이런 방법론들이 분산조직에 사용된다면 비즈니스 프로세스가 세분화되기 때문에 문제점들이 더 깊이 심화되는 경향이 발생하게 된다. 이런 상황에 대한 해결책은 정보시스템이 비즈니스 프로세스로부터 구체적인 정보시스템의 구현에 이르기까지 일관성 있게 진행할 수 있는 방법론이 필요하다. 그러므로, 정보시스템 구현의 각 단계별로 추상과 구현방법을 구체적으로 제시하고 개념적인 무결성을 보장할수 있는 새로운 정보시스템 개발방법이 요구된다. 본 논문에서는 이러한 정보시스템을 구현하기 위해서 업무분석의 과정에서부터 구현에 이르기까지 개념적인 무결성(Conceptual Integrity)을 유지하고(Brooks, 1982) 방법론상에서 중단이나 변형없이 연결되는 시스템 개발방법론인 컴퓨터 통합 비즈니스 시스템(Computer-Integrated Business System:CIBS)을 소개하고 이 CIBS가 사용하는 세부적인 객체지향 프로그래밍 방법론이 AF(Application Framework)을 설명하며, 최종적으로 이 CIBS에 의해서 구현된 정보시스템과 기존의 프로그래밍 기법으로 구현된 정보시스템과의 비교를 통해 그 장단점을 증명하고자 한다. 또한, 이 CIBS구조는 정보시스템의 단편적인 정보제공 능력을 넘어서서 비즈니스 프로세스를 개선함에 의해서 기업의 노하우를 정립하고 이를 발전시키는 정보시스템의 진보된 형태를 보여줌으로서 정보시스템의 새로운 모습과 비젼을 제시하며 혁신적인 정보시스템의 새로운 구조를 보여준다. 문제점들은 HED (Human Engineerign Discrepance) 목록으로 정리하여 설계에 반영하도록 하였다.로 마음의 안정감, 몸의 긴장 이완에 따른 건강 상태 유지, 수업 집중도 향상 등이 나타났다. 위와 같은 종합 적 분석 결과에 따라, 본 연구는 제조 현장의 생산성 향상 및 품질 향상과 연계하여 작업자의 작업 집중도 향상, 작업자의 육체적, 심리적 변화에 따른 생산성 및 품질 향상 변화 정도 등의 산업공학(인간공학) 제 분야의 여러 측면에서 연구 및 적용이 가능하리라 사료된다.l, 시험군:25.90$\pm$7.16mg/d1, 47% 감소)를 나타내었으며, 시험군의 AUC는 대조군에 비해 39% 감소하였고, 혈중 아세트알데히드의 농도는 투여 60분후 시험군(3.96$\pm$0.07nmo1/$m\ell$)이 대조군(6.45$\pm$0,64nmo1/$m\ell$)에 비해 유의성 있는 감소(39%)를 나타내었으며, 시험군의 AUC는 대조군에 비해 48% 감소하였다 한편, 시험관내 에탄올 대사 효소에 대한 바이오짐의 효과를 검색해본 결과 바이오짐(2.0 $\mu\textrm{g}$/assay)에 의해 Aldehyde dehydrogenase(1.5unit/assay)의 활성이 14% 증가되었다. 본 연구의 결과로 볼 때, 비지니스 및 바이오짐은 음주 후 상승된 혈중 에탄을 농도 및 아세트알데히드의 농도를 현저히 감소시키는 효과가 있었다.량 보호 관리, 도시 소공원 개발, 역사 문화 공원 조성, 하천 공간 복원, 공원 시설 기능 개선, 이용 프로그램 개발, 공원 관리 개선, 환경 피해 녹지의 회복, 도시 환경 림 조성, 녹지 기능
PDF

기업 전사 자료 설계에서 역정규화 중심 데이터 모델링의 부작용 (Negative Side Effects of Denormalization-Oriented Data Modeling in Enterprise-Wide Database Design)

이혜경
- 전자공학회논문지CI
- /
- 제43권6호
- /
- pp.17-25
- /
- 2006
전산화 대상 규모가 확대되면서 새로운 방식의 데이터 모델링 방법론이 필요하게 됨에 따라 자료 설계라는 것에 최근 들어 1980년대 초반 못지 않게 이른 바 데이터 거버넌스 혹은 데이터 질 등의 화두의 모습으로 큰 관심이 재연되고 있다. 그러나 데이터 모델링에 대한 확고한 견해를 가지고 있지 못하기 때문에 막상 데이터베이스 설계를 실무적으로 소화해 내기에는 적지 않은 어려움을 겪게 된다 본 논문에서는 업무의 요구 형성/분석 단계부터 데이터베이스 구현까지 최종 단계까지를 체계적인 방법론을 통해 정보시스템의 데이터 모델을 창출하는 정규화 중시의NS방법론을 적용한 설계방법과 기존의 관행에 의해 역정규화를 어쩔 도리 없이 용인하고 마는 정보공학(Information Engineering, 약칭 IE)방법론 기반의 설계방법과 비교한다. 동일한 업무를 대상으로 설계된 데이터 설계 산출물을 기준으로 각종 측면에서 비교해 봄으로써 정규화 중시 기반의 체계적 방법론이 기업의 정보시스템의 성능 향상에 어느 정도 기여하는지를 정량 파악하였다. 비교 실험 결과, 개체 설정의 타당성, 설계의 균형성 지표인 사각고리형 경로 유무, 그리고 속성중복률 면에서 모두 NS방법론적 설계가 우수하였다.
PDF KSCI

데이터베이스 의미론의 기초: 자질 구조에서 테이블로 (A Basis of Database Semantics: from Feature Structures to Tables)

이기용
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
- /
- pp.297-303
- /
- 1999
오늘날 전산망을 통해 대량의 다양한 언어 정보가 일상 언어로 교환되고 있다. 따라서 대량의 이러한 정보를 효율적으로 처리할 수 있는 언어 정보 처리 시스템이 필요하다. Hausser (1999)와 이기용(1999)는 그러한 언어 정보 처리 시스템으로 데이터베이스 의미론을 주장하였다. 이 의미론의 특징은 자연언어의 정보 처리 시스템 구축에 상업용 데이터베이스 관리 시스템을 활용한다는 점이다. 이때 야기되는 문제 중의 하나가 표상(representation)의 문제이다. 그 이유는 언어학의 표상 방법이 데이터베이스 관리 시스템의 표상 방법과 다르기 때문이다. 특히, 관계형 데이터베이스 관리 시스템(RDBMS)에서는 테이블 (table) 형식으로 각종 정보를 표시한다. 따라서, 이 논문의 주안점(主眼点)은 언어학에서 흔히 쓰이는 표상 방법, 즉 문장의 통사 구조를 표시하는 수형(tree)이나 의미 구조를 표시하는 논리 형태(logical form), 또는 단어나 구의 특성을 나타내는 자질 구조(feature structure)를 테이블 형식으로 대체하는 방법을 모색하는 것이다. 더욱이 관계형 데이터베이스 관리 시스템에서는 테이블에 대한 각종 연산, 특히 두 테이블을 연결(link)하는 작업이 가능하고 이런 연산 과정을 통해 정보를 통합하거나 여과할 수 있기 때문에 관련 정보를 하나의 테이블에 표상하거나 정보 자료의 분산 저장과 자료의 순수성을 유지하는 것이 용이하다. 이 논문은 곧 이러한 점을 가급적 간단한 예를 들어 설명하는 데 그 목적이 있다.
PDF

소프트웨어 공학과 품질관리 방법론의 동향

양해술;정호원
- 정보처리학회지
- /
- 제1권1호
- /
- pp.33-45
- /
- 1994
PDF

수정된 퍼지 최대-최소 신경망 모델을 이용한 수화 인식 기법 (Sign Language Recognition using a Modified Fuzzy Min-Max Neural Network Model)

박소정;김호준
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2011년도 추계학술발표대회
- /
- pp.257-260
- /
- 2011
본 논문에서는 수화인식을 위한 신경망에서 특징추출과 분류단계의 방법론과, 특징 선별 기법을 통하여 분류기의 규모를 최적화 하는 방법을 고찰한다. 색상 및 움직임정보로부터 특징영역의 시간에 따른 변화를 3 차원 볼륨형태의 데이터로 표현하며, 이로부터 특징지도를 생성하는 과정에서 특징영역의 위치에 대한 변이를 보완하는 방법을 고려한다. 특징추출과정과 패턴 분류과정에서 점진적 학습이 가능한 모델과 특징 수를 효과적으로 줄일 수 있는 방법론을 제시하였으며, 학습된 신경망으로부터 특징과 패턴 클래스간의 상대적 연관성 척도를 정의하여 특징을 선별하도록 하였다. 제안된 내용에 대하여 여섯 가지 수화패턴에 대상으로 한 실험을 통하여 그 유용성을 평가하였다.
https://doi.org/10.3745/PKIPS.y2011m11a.257 인용 PDF

BackTranScription (BTS)기반 제주어 음성인식 후처리기 연구 (BackTranScription (BTS)-based Jeju Automatic Speech Recognition Post-processor Research)

박찬준;서재형;이설화;문현석;어수경;장윤나;임희석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
- /
- pp.178-185
- /
- 2021
Sequence to sequence(S2S) 기반 음성인식 후처리기를 훈련하기 위한 학습 데이터 구축을 위해 (음성인식 결과(speech recognition sentence), 전사자(phonetic transcriptor)가 수정한 문장(Human post edit sentence))의 병렬 말뭉치가 필요하며 이를 위해 많은 노동력(human-labor)이 소요된다. BackTranScription (BTS)이란 기존 S2S기반 음성인식 후처리기의 한계점을 완화하기 위해 제안된 데이터 구축 방법론이며 Text-To-Speech(TTS)와 Speech-To-Text(STT) 기술을 결합하여 pseudo 병렬 말뭉치를 생성하는 기술을 의미한다. 해당 방법론은 전사자의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축 할 수 있다. 본 논문은 BTS를 바탕으로 제주어 도메인에 특화된 음성인식 후처리기의 성능을 향상시키기 위하여 모델 수정(model modification)을 통해 성능을 향상시키는 모델 중심 접근(model-centric) 방법론과 모델 수정 없이 데이터의 양과 질을 고려하여 성능을 향상시키는 데이터 중심 접근(data-centric) 방법론에 대한 비교 분석을 진행하였다. 실험결과 모델 교정없이 데이터 중심 접근 방법론을 적용하는 것이 성능 향상에 더 도움이 됨을 알 수 있었으며 모델 중심 접근 방법론의 부정적 측면 (negative result)에 대해서 분석을 진행하였다.
PDF

웹 기반 시스템의 개발 프로세스에 관한 연구 및 웹 서버 구축 (A Study of Development Process for Web-Based System and Web Server Construction)

김만중;박만곤
- 한국멀티미디어학회:학술대회논문집
- /
- 한국멀티미디어학회 2002년도 춘계학술발표논문집(상)
- /
- pp.16-21
- /
- 2002
현재의 웹은 신문, 잡지, 책 등의 온라인 출판뿐 아니라, 전자상거래, 금융, 가상 공동체, 마케팅, 광고 둥의 다양한 분야에서 실생활과 밀접하고, 기업에서도 웹 사이트가 제품 홍보 뿐 아니라 제품의 판매, 마케팅 등 매출에 막대한 영향을 미치는 중요한 위치를 차지하고 있다. 웹 사이트의 규모가 커지고 복잡해져감에 따라서 소수의 웹 디자이너들이 웹 사이트를 개발했던 것에서 개발에 필요한 인력과 그 역할을 나누게 되었고, 다른 제품처럼 납기를 위한 일정 관리가 필요하게 되었다. 그동안 웹 사이트 개발에 있어서 일련의 과정들에 대한 정형화되고 표준화된 작업 방법을 별로 적용하지는 않았다. 소프트웨어 공학을 그대로 웹 사이트 개발에 적용할 수는 없지만, 점차 웹 사이트가 소프트웨어 처럼 되어 가고 있고, 현재 웹 사이트 개발에 있어서 필요한 표준 개발 방법론이나 프로젝트 관리 둥을 소프트웨어 공학에서 적용시킬 수 있다. 본 논문에서 웹 사이트 개발에 있어서 더 나은 생산성과 품질을 얻기 위해 기획, 설계, 개발, 그래픽 디자인, 정보 설계, 컨텐츠, 테스트, 유지보수 등의 일련의 과정들을 프로세스화 하고, 구조적으로 접근하는 방법을 소프트웨어 공학의 표준 개발 방법론이나 프로젝트 관리, 품질관리 등에 관한 연구와, 실제로 이러한 방법론을 적용한 웹 서버을 구축하였다.
PDF

동시공학적 전문가시스템 개발방법론 (A Concurrent Engineering A, pp.oach to Expert System Development)

박광호
- 지능정보연구
- /
- 제1권1호
- /
- pp.73-89
- /
- 1995
전문가시스템이 등장한지도 근 20년이 흘렀고 다양한 분야에서 기업의 중추적 시스템으로 운영되고 있다. 이렇게 전문가시스템이 연구단계에서 벗어나 실용화됨에 따라 전문가시스템의 개발방법에 대한 연구가 학계가 산업계가 새로운 연구과제로 인식되고 있다. 지금까지 개발에 대한 연구는 주로 지식획득 기술의 개발에 치중되어있다. 본 논문에서는 전문가시스템의 개발에 대한 방법론적 접근방법이 제시된다. 이 접근벙법은 시간과 인력 등 자원의 제약을 받는 전문가시스템 개발프로젝트에 적합한 것으로 동시공학(Concurrent Engineering)개념을 채택하고 있으며 개발 라이프사이클 모델, 프로젝트팀 구성방법등을 다루고 있다. 또한, 동시공학적 접근방법을 지원하기 위한 분석과 설계방법으로는 객체지향기술을 사용하며 개발단계별로 해당 모델이 산출물로 구축된다.
PDF

정보검색 기술을 이용한 비교사 학습 기반 문서 분류 시스템 개발 (Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique)

노대욱;이수용;나동열
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
- /
- pp.98-106
- /
- 2006
문서분류기의 개발에 있어 교사학습기법을 이용할 경우 많은 양의 사람에 의한 범주 부착 말뭉치가 필요하다. 그러나 이의 구축은 많은 시간과 노력을 필요로 한다. 최근 이러한 범주 부착 말뭉치 대신 원시말뭉치와 범주마다 약간의 씨앗 정보를 이용하여 학습을 수행하여 문서분류기를 개발하는 방법론이 제시되었다. 본 논문에서는 이 방법론 하에서 다른 연구에서의 결과보다 좋은 성능을 나타내는 비교사 학습 기법을 소개한다. 본 논문에서 제시하는 기법의 특징은 씨앗 단어에서 출발하여 평균상호정보를 이용하여 다른 대표단어 및 그들의 가중치를 학습한 다음, 정보검색에서 많이 사용하는 기술을 이용하여 그 가중치를 갱신하는 것이다. 그리고 이 과정을 반복 수행하여 최종적으로 높은 성능의 시스템을 개발할 수 있음을 제시하였다.
PDF

검색결과 792건 처리시간 0.034초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)