• 제목/요약/키워드: 데이터 선별

검색결과 570건 처리시간 0.032초

다양한 특징 파라미터와 선형변별분석을 이용한 후두암의 선별검사

  • 이원범;왕수건;권순복;전경명;전계록;김수미;김형순;양병곤;조철우
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 2003년도 제19회 학술대회
    • /
    • pp.149-149
    • /
    • 2003
  • 후두질환 감별용 음성 분석방법인 multi-dimensional voice program (MDVP)으로 분석이 불가능할 정도로 주기성이 크게 훼손된 후두암 말기의 음성 에 대하여 효과적인 감별을 하기 위하여, 몇 가지 켑스트럼(cepstrum) 파라미터를 비롯하여, 주기성 및 그 동요 정도, 영교차율(zero-crossing rate, ZCR), 스텍트럼 중심 (spectral centroid, SC) 등 다양한 특징 파라미터를 이용한 감별 실험을 수행하였다. 후두암 감별 실험을 위해 부산대학교 병원 이비인후과에서 수집한 정상 남자 음성 데이터 50개, 양성 후두질환 남자 음성 데이터 50개 및 남성 후두암 환자 음성 데이터 105개를 사용하였다. 음성 데이터는 단모음 /아/ 발성만을 사용하였고, 정상인과 양성후두질환 환자, 그리고 MDVP 분석이 가능한 후두암 환자 음성 데이터 중 2/3는 학습에, 나머지 113은 감별실험에 사용하였다. 후두암 감별을 위한 분류기로는 Gaussian Mixture Model(GMM) 분류기를 사용하였으며, 이때 모델의 복잡도를 표현하는 mixture 수는 1에서 10까지 가변시키면서 가장 좋은 성능을 나타내는 값으로 결정하였다. 또한 모든 실험에서 켑스트럼 분석의 차수는 동일하게 12차로 고정시켰다. (중략)

  • PDF

통합 상관된 특징 집합을 이용한 림프종 데이터의 분류 (Classification of Lymphoma Dataset with Combinatorially Correlated Feature Set)

  • 박찬호;조성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.321-324
    • /
    • 2003
  • 근래, DNA microarray와 관련된 기술의 발달은 한번에 수천 개 이상의 유전자발현데이터를 얻을 수 있게 해주었고, 많은 연구기관에서 이를 이용한 질병 분류에 관하여 연구를 진행하고 있다. 하지만 수천 개의 유전자 모두가 암에 관계된 것은 아니기 때문에, 관련 유전자의 선별 작업을 먼저 수행하는 것이 필요하며, 이를 위하여 통계기반 방법, 정보이론기반 방법 등 다양한 방법이 사용되고 있다. 본 논문에서는 의미 있는 유전자를 선택하는 방법으로서, 일반적인 순위-기반 방법이 양의 상관관계만 이용한다는 점을 보완하여, 유전자와 학습데이터 사이의 음의 상관관계까지도 고려한 방법을 제시하였다. 제안한 방법의 성능을 검증하고자 잘 알려진 암 관련 유전자발현데이터이인 림프종 데이터에 대하여, MLP와 KNN을 이용한 분류를 해 보았다. 실험 걸과 총합 상관관계를 가지는 특징 집합이 일반적인 순위-기반 방식의 특징 집합에 비하여 높은 분류 인식률을 보여주었다.

  • PDF

오픈 API에서의 새로운 파라미터 요청 방식 제안 (Suggestion of New Parameter Request Method for Open API)

  • 박재훈;서화정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.622-625
    • /
    • 2020
  • 오픈 API에서는 사용자로부터 조회할 데이터를 요청을 통해 조건에 해당하는 데이터들을 선별하여 리턴하게 되는데, 현재 통용되는 방식은 다양한 조건을 설정하는 것에 있어 상당한 불편함이 따른다. 이에 따라 오픈 API에서 다양한 조건을 검색할 수 있는 방식을 제안한다. POST 메소드를 통해 숫자의 경우 원하는 검색 범위에 대한 설정을, 문자열의 경우 조건에 따라서 포함 혹은 일치하는 데이터를 검색한다. 이렇게 파라마터의 종류가 다양해짐에 따라 SQL 인젝션과 같은 보안에 대한 위험성도 커지며, 그것을 원천적으로 차단하기 위해 쿼리에 사용자로부터 받은 변수를 넣는 것이 아닌, 데이터베이스에서 얻은 데이터로부터 특정 알고리즘을 통해 사용자의 원하는 조건에 해당하는 데이터를 추출해내는 방법 또한 제안한다. 이를 통해 생산성 극대화를 기대한다.

마이데이터를 활용한 주식 추천모델 개발 (Development of Stock Recommendation Model Using Personal MyData)

  • 김예진;임성하;성승연;김효재;류상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.943-945
    • /
    • 2022
  • 2030 세대의 주식시장 참여율은 갈수록 늘어나는 데에 반해 증권업의 높은 진입 장벽과 부족한 정보로 손실을 보는 경우가 적지 않다. 이러한 상황에서 정보의 주체인 개인이 본인 데이터에 대한 권리를 가지고, 본인이 원하는 방식으로 데이터를 관리하는 패러다임인 '마이데이터' 서비스가 최근 떠오르고 있다. 본 논문에서는 위의 문제를 해결하기 위하여 마이데이터를 토대로 특정 주식 종목과 유사한 종목들을 먼저 선별한 후 순수익이 높게 예측되는 종목을 최종 추천하는 모델을 제안한다.

KoQuality: 한국어 언어 모델을 위한 고품질 명령어 데이터 큐레이션 (KoQuality: Curation of High-quality Instruction Data for Korean Language Models)

  • 나요한;김다혜;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.306-311
    • /
    • 2023
  • 최근 생성형 언어모델에 명령어 튜닝을 적용하여 사람의 명령을잘이해하고, 대답의 성능을 향상시키는 연구가 활발히 수행되고 있으며, 이 과정에서 다양한 명령어 튜닝 데이터셋이 등장하고 있다. 하지만 많은 데이터셋들 중에서 어떤 것을 선택해서 활용하지가 불분명하기 때문에, 현존하는 연구들에서는 단순히 데이터셋을 모두 활용하는 방식으로 명령어 튜닝이 진행되고 있다. 하지만 최근 연구들에서 고품질의 적은 데이터셋으로도 명령어 튜닝을 하기에 충분하다는 결과들이 보고되고 있는 만큼, 많은 명령어 데이터셋에서 고품질의 명령어를 선별할 필요성이 커지고 있다. 이에 따라 본 논문에서는 한국어 데이터셋에서도 명령어 튜닝 데이터셋의 품질을 향상시키기 위해, 기존의 데이터셋들에서 데이터를 큐레이션하여 확보된 적은 양의 고품질의 명령어 데이터셋인 KoQuality를 제안한다. 또한 KoQuality를 활용하여 한국어 언어모델에 명령어 튜닝을 진행하였으며, 이를 통해 자연어 이해 성능을 높일 수 있음을 보인다. 특히 제로샷 상황에서 KoBEST 벤치마크에서 기존의 모델들보다 높은 성능 향상을 보였다.

  • PDF

행정정보 데이터세트 기록의 선별 기준 및 절차 연구 (A Study on Record Selection Strategy and Procedure in Dataset for Administrative Information)

  • 조은희;임진희
    • 기록학연구
    • /
    • 제19호
    • /
    • pp.251-291
    • /
    • 2009
  • 행정정보시스템은 계속 숫자가 증가하고 있음에도 불구하고 기록관리의 사각지대에 있어서 시스템이 노후화되거나 새로 개발되는 경우 기록이 손실될 위험을 내포하고 있다. 또한 기록관리를 염두에 두지 않고 설계되었기 때문에 기록의 특성과 요건을 만족하지 않은 상태로 관리되고 있다. 기록관리 선진국에서는 정부차원에서 데이터세트 기록의 중요성을 인지하여 데이터세트 아카이브를 운영하는 사례도 있고, 보존을 위한 관리체계나 보존포맷에 대한 프로젝트를 수행한 사례도 있다. 우리나라도 데이터세트에 대한 기록관리 체제와 개별 행정정보시스템에 대한 연구가 조금씩 수행되고 있으나 공식적인 관리 체계가 수립되지는 않은 상태이다. 본 논문에서는 이러한 방향성에 기본 하여 전자정부 추진 전략의 틀에서 데이터세트 식별체계의 수립과 기록관리기준의 설정 전략을 제안하였다. 행정정보시스템 기록화를 위한 데이터세트 선별 절차를 (1)기록화 대상 데이터세트 결정, (2)데이터세트 기록 건 식별 단계, (3)데이터세트 기록의 관리계층 구성 단계로 나누어 정리해보았다. 이 논문은 데이터세트에 대한 보존포맷이나 데이터세트 아카이브 단계에서의 관리절차 등 아카이빙 단계의 문제는 연구내용에 포함하지 않았다.

행정정보 데이터세트 기록관리 적용 사례 분석: 전자인사관리시스템 데이터세트 관리기준표 작성을 중심으로 (Case Study on Managing Dataset Records in Government Information System: Focusing on Establishing Records Management Reference Table for Electronic Human Resource Management System)

  • 신정엽
    • 한국기록관리학회지
    • /
    • 제21권3호
    • /
    • pp.227-246
    • /
    • 2021
  • 본 고에서는 전자인사관시스템 데이터세트의 관리기준표 작성 절차와 방법, 참여 기관의 역할, 관리기준표 영역별 작성 내용 등을 기록관담당자 입장에서 분석하여 관리기준표를 수립해야하는 업무담당자의 이해를 돕고, 기준표 작성 과정 중에 나타난 문제점을 바탕으로 개선방안을 제시하였다. 주요 개선방안으로, 국가적 중요 행정정보 데이터세트에 대해서는 영구기록물관리기관 차원의 별도 선별 정책이 마련되어야 하고 일부가 아닌 전체 데이터세트를 보존하는 방식으로 운영되어야 하겠다. 또 단위기능 설정과 데이터 분석을 위해 단위기능-데이터테이블-비정형데이터 매핑 자료를 필수작성사항으로 설정할 필요가 있으며 시스템 운영에 큰 영향을 미치는 비정형데이터에 대한 선별, 관리기준이 추가로 작성되어야 하겠다. 처분지연기간을 설정하는 것은 보존기간의 복잡성을 증가시키는 측면이 있으므로 관련 단위기능의 통합 또는 보존기간 상향 책정 등의 방식으로 운영하는 것이 바람직할 것으로 판단된다.

효율적인 감염병 검사 예약을 위해 클라우드에 기반한 예약 및 알림 시스템 (Cloud-Based Reservation and Notification System for Efficient Testing of Infectious Diseases)

  • 황보제성;김호윤;신승수
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.67-76
    • /
    • 2023
  • 2019년 발생한 코로나는 전파력이 강하고 감염 증상, 후유증 등이 심각하며 기저질환 및 증상에 따라 심한 경우 사망한다. 코로나는 전파력이 강한 만큼 국내에서는 코로나 확산세를 막기 위해 코로나 양성 여부를 판별하고 감염자를 격리하기 위해 전국에 선별 진료소를 설치했다. 그러나 코로나 검사 희망자들이 선별 진료소로 몰려 검사 대기시간이 길어져 검사를 받지 못하는 경우가 발생했으며 대기 중에 2차 감염이 발생할 수 있는 위험성이 있다. 본 연구에서는 기존 선별 진료 시스템에 예약 및 알림 시스템을 적용하여 공간적 제약 문제를 해결하여 선별 진료 예약으로 대기시간을 줄일 수 있으며 선별 진료소로의 인구 병목 현상을 해소할 수 있다. 코로나 팬데믹 사태를 삼아 향후 발생할 수 있는 또 다른 팬데믹 사태에서 방향성을 제시할 수 있는 시스템을 제안한다. 실시간 데이터를 처리하기 위해 Google의 Firebase를 활용하여 클라우드 환경의 Realtime Database를 사용한다. 실시간 Database를 사용하기 때문에 사용자는 앱을 통해서 선별 진료소의 현황을 실시간으로 파악 및 예약을 할 수 있고 검사 예약에 대한 알림을 받을 수 있다.

방송콘텐츠의 소셜 큐레이션 서비스 (Social quration service with broadcasting contents)

  • 권재광;최성우;유제현;정인영;정병희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.187-190
    • /
    • 2015
  • 현재를 '빅데이터' 시대라 부른다. '빅데이터', 그 용어가 주는 의미대로 우리가 처리해야 할 데이터가 매우 많다는 것을 의미 하며, 과거의 데이터 정제 기술로 유의미한 정보로 가공하려면 상당한 자원이 필요하다. 현재, 장비의 고성능화 등으로 가능성이 검증되고 있고, 일부 비즈니스에 활용되는 단계이나 여전히 혼돈의 문제가 존재하며, 이러한 문제의 해결책으로 제시되는 것 중의 하나가 바로 '소셜 큐레이션'이라 할 수 있다. 본 개발 서비스1)는 시청자들이 방송 콘텐츠를 소유하고 공유하고자 하는 욕구를 반영하여, 실시간으로 TV를 보면서 방송 프로그램을 캡처하고 공유할 수 있게 한다. 방송콘텐츠에 관한 '소셜 큐레이션' 서비스이며, 이는 각 사용자들이 캡처하여 생성한 수많은 콘텐츠 중에서 사용자들이 원하는 콘텐츠를 사용자들의 사회적인 관계를 이용하여 선별적으로 제공할 수 있도록 구성한 것이다. 본 논문에서는 서비스의 개발 방향과 시스템 구성 등을 설명한다.

  • PDF

TVzzik : 방송콘텐츠의 실시간 캡처 및 소셜 큐레이션 서비스 (TVzzik : Social curation service with broadcasting contents captured in real-time)

  • 권재광;최성우;유제현;정인영;정병희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 추계학술대회
    • /
    • pp.182-185
    • /
    • 2014
  • 현재를 '빅데이터' 시대라 부른다. '빅데이터', 그 용어가 주는 의미대로 우리가 처리해야 할 데이터가 많다는 것을 의미하며, 과거의 데이터 정제 기술로는 유의미한 정보로 가공하기에는 상당한 노력이 필요하다는 것을 암시하고 있다. 현재 장비의 고성능화 등으로 가능성이 검증되고 있고 일부 비즈니스에 활용되는 단계이나, 여전히 혼돈의 문제가 존재하며, 이러한 문제의 해결책으로 제시되는 것 중의 하나가 바로 '소셜 큐레이션'이라 할 수 있다. 본 'TVzzik' 서비스는 시청자들이 방송 콘텐츠를 소유하고 공유하고자 하는 욕구를 반영하여, 실시간으로 TV를 보면서 방송 프로그램을 캡처하고 공유할 수 있게 한다. 방송콘텐츠에 관한 '소셜 큐레이션' 서비스이며, 이는 각 사용자들이 캡처하여 생성한 수많은 콘텐츠 중에서 사용자들이 원하는 콘텐츠를 사용자들의 사회적인 관계를 이용하여 선별적으로 제공할 수 있도록 구성한 것이다. 본 논문에서는 'TVzzik' 서비스의 개발 방향과 시스템 구성 등을 설명한다.

  • PDF