• 제목/요약/키워드: Donor file

검색결과 7건 처리시간 0.016초

A Statistical Matching Method with k-NN and Regression

  • Chung, Sung-S.;Kim, Soon-Y.;Lee, Seung-S.;Lee, Ki-H.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권4호
    • /
    • pp.879-890
    • /
    • 2007
  • Statistical matching is a method of data integration for data sources that do not share the same units. It could produce rapidly lots of new information at low cost and decrease the response burden affecting the quality of data. This paper proposes a statistical matching technique combining k-NN (k-nearest neighborhood) and regression methods. We select k records in a donor file that have similarity in value with a specific observation of the common variable in a recipient file and estimate an imputation value for the recipient file, using regression modeling in the donor file. An empirical comparison study is conducted to show the properties of the proposed method.

  • PDF

A Robust Approach of Regression-Based Statistical Matching for Continuous Data

  • Sohn, Soon-Cheol;Jhun, Myoung-Shic
    • 응용통계연구
    • /
    • 제25권2호
    • /
    • pp.331-339
    • /
    • 2012
  • Statistical matching is a methodology used to merge microdata from two (or more) files into a single matched file, the variants of which have been extensively studied. Among existing studies, we focused on Moriarity and Scheuren's (2001) method, which is a representative method of statistical matching for continuous data. We examined this method and proposed a revision to it by using a robust approach in the regression step of the procedure. We evaluated the efficiency of our revised method through simulation studies using both simulated and real data, which showed that the proposed method has distinct advantages over existing alternatives.

의사결정 규칙을 이용한 데이터 통합에 관한 연구 (A Study on the Data Fusion Method using Decision Rule for Data Enrichment)

  • 김순영;정성석
    • 응용통계연구
    • /
    • 제19권2호
    • /
    • pp.291-303
    • /
    • 2006
  • 대용량의 데이터로부터 의미있는 지식을 찾는 과정에서 데이터의 질은 무엇보다도 중요하다. 본 연구에서는 데이터의 충실도를 높이기 위한 방법으로 여러 경로로부터 수집된 데이터의 정보를 활용하기 위해 데이터 마이닝 알고리즘인 의사결정 규칙을 이용한 데이터 통합 기법을 제안하고, 실제 데이터를 이용하여 모의실험을 통해 제안된 알고리즘의 효율성을 비교하였다. 실험결과 제안된 알고리즘이 데이터 통합의 성능을 향상시킴을 알 수 있었다.

데이터 보강을 위한 데이터 통합기법에 관한 연구 (A Study on the Data Fusion for Data Enrichment)

  • 정성석;김순영;김현진
    • 응용통계연구
    • /
    • 제17권3호
    • /
    • pp.605-617
    • /
    • 2004
  • 데이터마이닝에서 가장 중요한 요소 중 하나는 마이닝에 사용될 데이터의 질이다. 질 높은 데이터를 바탕으로 마이닝이 수행될 때, 데이터마이닝의 잠재적 가치는 증대될 것이다. 본 논문에서는 지식발견 과정 중 데이터의 질을 향상시키기 위한 한 단계인 데이터 보강을 위해 데이터 통합 기법을 제안하고, 모의실험을 통해 제안된 알고리즘의 효율성을 비교하였다. 실험결과 제안된 알고리즘이 데이터 통합의 성능을 향상시킴을 알 수 있었다.

A Method for Identifying Splice Sites and Translation Start Sites in Human Genomic Sequences

  • Kim, Ki-Bong;Park, Kie-Jung;Kong, Eun-Bae
    • BMB Reports
    • /
    • 제35권5호
    • /
    • pp.513-517
    • /
    • 2002
  • We describe a new method for identifying the sequences that signal the start of translation, and the boundaries between exons and introns (donor and acceptor sites) in human mRNA. According to the mandatory keyword, ORGANISM, and feature key, CDS, a large set of standard data for each signal site was extracted from the ASCII flat file, gbpri.seq, in the GenBank release 108.0. This was used to generate the scoring matrices, which summarize the sequence information for each signal site. The scoring matrices take into account the independent nucleotide frequencies between adjacent bases in each position within the signal site regions, and the relative weight on each nucleotide in proportion to their probabilities in the known signal sites. Using a scoring scheme that is based on the nucleotide scoring matrices, the method has great sensitivity and specificity when used to locate signals in uncharacterized human genomic DNA. These matrices are especially effective at distinguishing true and false sites.

대학기록관 시소러스 구축 지침의 개발 연구 - 명지대학교 대학사료실의 사례를 중심으로 - (Study on the Development of Guidelines for Thesaurus Construction at University Archives: Case Study of Myongji University Archives Center)

  • 이해영;이미영;이은영;이혁준;이현정;최영실;박미자
    • 한국기록관리학회지
    • /
    • 제8권1호
    • /
    • pp.189-210
    • /
    • 2008
  • 이 논문에서는 대학기록관에서 사용되는 용어들을 통제하여 검색 효율성을 제고할 수 있는 시소러스 구축을 위한 지침을 개발하고 적용하는 과정에서 도출된 다양한 상황과 그에 대응하는 방안들을 제시하였다. 개발 과정에서 고려된 중요한 이슈 및 적용 방안은 다음과 같다. 대학 기록관 기록물 정리과정에서 도출된 용어들은 고유명사가 많아 시소러스는 전거파일 기능을 동시에 하도록 개발되어야 했다. 대학의 공식문서에 자주 나타나는 용어를 우선어로 제시하였다. 또한 포함될 인명의 범위는 주요 보직자 및 주제가 된 개인들로 하되, 작성자 및 기증자들의 필드 통합 검색이 가능하면 지나친 범주의 포함은 불필요했다.

사회복지시설의 민간자원 동원에 영향을 주는 요인 연구: 후원을 중심으로 (A Study on Factors Affecting Social Welfare Centers and Facilities' Resource Mobilization)

  • 김미숙;김은정
    • 한국사회복지학
    • /
    • 제57권2호
    • /
    • pp.5-40
    • /
    • 2005
  • 취약계층에게 사회서비스를 제공하는 사회복지시설은 자원의 결핍으로 클라이언트를 위한 서비스를 제공하는데 재정적인 한계에 직면한 상황이다. 그 근본적인 이유는 정부지원금의 부족에도 기인하지만 시설이 지역사회의 풍부한 민간자원을 개발하는 기술이 부족한 탓도 있다. 이에 본 연구에서는 후원에 초점을 두어 시설의 자원동원에 영향을 주는 요인을 규명함으로써 시설들이 효과적으로 자원을 동원할 수 있는 방안을 마련하였다. 본 연구를 위해서 사회복지시설의 후원업무를 담당하거나 관여를 하는 직원을 대상으로 우편조사를 실시하였다. 조사대상 시설은 이용시설 3유형(사회복지관, 노인복지관, 장애인복지관)시설과 생활시설 6유형(아동시설, 노인시설, 장애인시설, 여성시설, 정신요양시설, 부랑인시설)시설이었다. 총 1,510개소의 대상 중 조사에 응한 시설은 이용시설 293개소, 생활시설 632개소로 설문응답률은 62%에 이른다. 본 연구의 종속변수는 자원동원실태로써 후원자수(결연후원자와 시설후원자의 합), 후원액(결연후원액과 시설후원액의 합), 후원물품 현금환가액을 설정하였고, 이용시설과 생활시설에서 각각 세 모델을 구성하였다. 독립변수는 기존의 연구 결과를 참고로 하여 자원동원에 영향을 주는 세 유형인 지역환경요인, 조직요인, 후원개발요인을 선정하였다. 분석을 위해서 중다회귀분석(multiple regression analysis)을 실시하였다. 분석결과 본 연구에서 중점적으로 보았던 후원개발요인은 많은 모델에서 유의한 것으로 판명되었다. 후원자수, 후원액, 후원물품(이용시설 제외) 모델에서 모두 6변수로 구성된 자원개발요인은 최소한 1개의 변수는 유의한 것으로 밝혀졌다. 후원개발을 위해 후원을 위한 전담부서나 직원을 두며, 후원자 관리를 위한 전산 프로그램을 사용하는 시설, 그리고 후원자 모집 및 관리를 하는 시설이 그렇지 않은 시설보다 자원동원결과가 더 긍정적이었다. 특히 후원자관리를 위한 전산 프로그램 사용은 생활시설 모델에서는 유의한 것으로 나타났다. 이 밖에 생활시설의 후원자수 모델에서는 소재지(대도시)가 유의하였고, 후원액 모델에서는 생활시설의 경우 시설유형(여성시설), 운영기간, 직원 수가 유의하였다. 후원물품 모델에서는 이용시설의 경우 지역 생활환경(중상층), 생활시설의 경우 시설유형(노인, 아동, 정신요양시설), 운영기간이 유의하였다. 이러한 분석결과를 바탕으로 본 연구에서는 사회복지시설이 자원을 활발하게 동원하기 위해서는 후원개발을 위한 조직이나 인력을 배치해야 하고, 후원자 관리를 위한 전산 프로그램 및 후원자 모집 및 관리 프로그램을 활용해야 함을 제시하였다.

  • PDF