• 제목/요약/키워드: vectorization

검색결과 57건 처리시간 0.032초

의무 기록 문서 분류를 위한 자연어 처리에서 최적의 벡터화 방법에 대한 비교 분석 (Comparative Analysis of Vectorization Techniques in Electronic Medical Records Classification)

  • 유성림
    • 대한의용생체공학회:의공학회지
    • /
    • 제43권2호
    • /
    • pp.109-115
    • /
    • 2022
  • Purpose: Medical records classification using vectorization techniques plays an important role in natural language processing. The purpose of this study was to investigate proper vectorization techniques for electronic medical records classification. Material and methods: 403 electronic medical documents were extracted retrospectively and classified using the cosine similarity calculated by Scikit-learn (Python module for machine learning) in Jupyter Notebook. Vectors for medical documents were produced by three different vectorization techniques (TF-IDF, latent sematic analysis and Word2Vec) and the classification precisions for three vectorization techniques were evaluated. The Kruskal-Wallis test was used to determine if there was a significant difference among three vectorization techniques. Results: 403 medical documents were relevant to 41 different diseases and the average number of documents per diagnosis was 9.83 (standard deviation=3.46). The classification precisions for three vectorization techniques were 0.78 (TF-IDF), 0.87 (LSA) and 0.79 (Word2Vec). There was a statistically significant difference among three vectorization techniques. Conclusions: The results suggest that removing irrelevant information (LSA) is more efficient vectorization technique than modifying weights of vectorization models (TF-IDF, Word2Vec) for medical documents classification.

Unicon Optimization 기법을 이용한 적운모수화 코드 성능 향상 (Performance Improvement of Cumulus Parameterization Code by Unicon Optimization Scheme)

  • 이창현;김민규;신대영;조예린;염기훈;정성욱
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권2호
    • /
    • pp.124-133
    • /
    • 2022
  • 하드웨어 기술이 발달하고 수치 모델 방식이 고도화됨에 따라 더욱 정밀한 기상예보를 진행할 수 있게 되었다. 본 논문에서는 CESM의 간소화 버전인 SCAM에 포함된 적운모수화 코드 (Unicon, Fortran)를 최적화하고 유지보수성을 증가시키기 위해 Loop Vectorization, Dependency Vectorization, Code Modernization 3가지가 결합한 Unicon Optimization 기법을 제안하고 이를 테스트 하기 위하여 SCAM 전체 실행 구조도를 제시하였다. 본 논문에서는 구축한 SCAM 실행 환경에서 논문에서 제안한 Unicon Optimization 기법을 테스트 하였고 기존 소스 코드 대비 Loop Vectorization은 3.086% Dependency Vectorization은 0.4572% 성능 향상을 이끌어 냈다. 그리고 이를 모두 적용한 Unicon Optimization의 경우 기존 소스 코드 대비 3.457%의 성능 향상을 이끌어 냈다. 이는 본 논문에서 제안한 Unicon Optimization 기법이 우수한 성능을 제공하고 있음을 입증한다.

무인항공사진측량을 이용한 벡터화의 3차원 위치정확도 분석 (Analysis of Three Dimensional Positioning Accuracy of Vectorization Using UAV-Photogrammetry)

  • 이재원;김두표
    • 한국측량학회지
    • /
    • 제37권6호
    • /
    • pp.525-533
    • /
    • 2019
  • 무인항공사진측량을 이용한 지도제작의 지형·지물 묘사 방법에는 벡터화와 수치도화 방법이 있다. 벡터화 방법은 정사영상에서 평면위치를 추출하고, 수치표면모델(DSM: Digital Surface Model) 혹은 수치표고모델(DEM: Digital Elevation Model)에서 높이 값을 취득하고 있다. 그러나 지금까지 벡터화 성과의 정확도는 대부분 검사점만을 이용하여 분석하고 있어 지상시설물과 건물 등 3차원 지물의 위치정확도 판단이 어렵다. 이에 본 연구에서는 검사점 뿐만 아니라 지형·지물의 Layer별 모서리에 대한 정확도를 분석하여 벡터화를 이용한 3차원 공간정보취득 및 수치지도제작 가능성을 판단하고자 하였다. 촬영은 DJI사 Phantom 4 pro로 비행고도 90m에서 GSD (Ground Sample Distance) 3.6cm의 영상을 취득하였다. 연구 결과, 벡터화에 의한 묘사의 정확도는 현장측량 성과와 비교하여 검사점의 잔차를 분석한 결과 평면 RMSE (Root Mean Square Error)가 0.045m로 나타나 정사영상을 이용한 1/1,000 축척의 수치지형(평면)현황도 제작이 가능할 것으로 판단된다. 반면 전주, 옹벽 및 건물 등 Layer별 모서리 좌표를 기준자료와 비교하여 3차원 정확도를 분석한 결과 RMSE가 평면 0.068~0.162m, 표고 0.090~1.840m로 나타났다. 따라서 벡터화로 취득한 3차원 성과의 표고위치에서 오차가 크게 발생하여 벡터화를 이용한 3차원 공간정보 취득 및 1/1,000 수치지도제작이 어려운 것으로 판단된다.

Memory-to-Memory방식 벡터컴퓨터에서의 외연적 유한요소법의 벡터화 (Vectorization of an Explicit Finite Element Method on Memory-to-Memory Type Vector Computer)

  • 이지호;이재석
    • 전산구조공학
    • /
    • 제4권1호
    • /
    • pp.95-108
    • /
    • 1991
  • 외연적 유한요소법은 벡터처리에 적합한 구조를 가지고 있어 벡터컴퓨터를 이용하면 기존의 스칼라 컴퓨터에서보다 휠씬 빠르게 해석을 수행할 수 있다. 본 논문에서는 memory-to-memory방식의 벡터컴퓨터에서의 외연적 유한요소법의 효율적인 벡터화 방법을 제시하였다. 먼저 벡터컴퓨터의 구조적 특성과 무관하게 적용될 수 있는 일반적인 벡터화 기법을 고찰한 후 memory-to-memory방식의 벡터컴퓨터에 적합한 벡터화 기법을 개발하였다. 개발된 벡터화 기법의 유용성을 확인하기 위해 외연적 유한요소 프로그램인 DYNA3D를 memory-to-memory방식의 벡터컴퓨터인 HDS AS/XL V50에 이식한 결과 스칼라에 비해 2.4배 이상의 성능 향상을 얻을 수 있었다.

  • PDF

전자회로 도면관리를 위한 벡터화와 회로 기호의 인식 (The vectorization and recognition of circuit symbols for electronic circuit drawing management)

  • 백영묵;석종원;진성일;황찬식
    • 전자공학회논문지B
    • /
    • 제33B권3호
    • /
    • pp.176-185
    • /
    • 1996
  • Transformin the huge size of drawings into a suitable format for CAD system and recognizng the contents of drawings are the major concerans in the automated analysis of engineering drawings. This paper proposes some methods for text/graphics separation, symbol extraction, vectorization and symbol recognition with the object of applying them to electronic cirucit drawings. We use MBR (Minimum bounding rectangle) and size of isolated region on the drawings for separating text and graphic regions. Characteristics parameters such as the number of pixels, the length of circular constant and the degree of round shape are used for extracting loop symbols and geometric structures for non-loop symbols. To recognize symbols, nearest netighbor between FD (foruier descriptor) of extractd symbols and these of classification reference symbols is used. Experimental results show that the proposed method can generate compact vector representation of extracted symbols and perform the scale change and rotation of extracted symbol using symbol vectorization. Also we achieve an efficient searching of circuit drawings.

  • PDF

Man-Machine Interfacing을 위한 EOG의 벡터화 (The Vectorization of EOG for Man-Machine Interfacing)

  • 박종환;천우영;박형준
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 B
    • /
    • pp.604-606
    • /
    • 1998
  • As a basic study for Man-Machine interfacing technics, this paper purposed the vertorization of EOG(electrooculogram) that is generated by eye movement. EOG is electric potential difference between the positive potential of cornea and the negative potential of retina. The magnitude and the polarity are depend on the direction of eye movement and degree of gaze angle. In order to vectorize EOG, EOG signal is measured about vertical and horizontal movement of eyes. This vectorization of EOG is expected to help Man-Machine Interfacing technics and development of other useful equipment.

  • PDF

벡터화 기술을 이용한 대규모 MIMO 시스템의 간단한 Toeplitz 채널 행렬 분해 (A Simple Toeplitz Channel Matrix Decomposition with Vectorization Technique for Large scaled MIMO System)

  • 박주용;모하마드 아부 하니프;김정수;송상섭;이문호
    • 전자공학회논문지
    • /
    • 제51권9호
    • /
    • pp.21-29
    • /
    • 2014
  • 오늘날 수많은 사용자와 제한된 메모리 공간 때문에 빅 데이터(big data)를 위한 메모리 공간 문제가 중요한 이슈로 부상하고 있다. 대규모 MIMO 시스템에서 Toeplitz 채널은 전력효율 문제뿐아니라 성능 개선에 커다란 역할을 할 수 있다. 본 논문에서는 행렬 벡터화(vectorization)에 기반한 Toeplitz 채널 분해를 제안하고, 이때 대규모 MIMO 시스템을 위한 채널에 Toeplitz 행렬을 사용하며, 또 Toeplitz Jackrt행렬이 푸리에 고속 변환(FFT)처럼 Cooley-Tukey sparse 행렬로 분해됨을 보인다.

한국 지적도에서의 문자분리 및 고품질 벡터화 (Separation of Character Strings and High Quality Vectorization for Korean Cadastral Map)

  • 방극준;홍대식
    • 전자공학회논문지S
    • /
    • 제36S권2호
    • /
    • pp.63-68
    • /
    • 1999
  • 지도에서의 문자와 선성분의 겹침과 선성분의 교차점 및 가지점에서의 벡터화 왜곡문제는 지도 자동입력 기능 구현에서의 문제점으로 지적되고 있다. 본 논문에서는 이와같은 두가지 문제점을 동시에 해결하기 위한 새로운 방법을 제안한다. 즉, 지도영상을 일반적인 방법으로 세선화 한 후 교차점 및 분기점을 중심으로 그 주변을 불확실영역으로 정하고 이 영역을 삭제한 후, 끊어진 선성분은 상호 연결가능 척도를 이용하여 연결하고 연결되진 않는 부분을 문자영역으로 분리하는 방법을 제안한다. 특히 제안된 방법은 벡터화 왜곡 및 문자분릴르 동시에 처리함에 따라 수행 속도면에서도 장점이 있으며, 처리과정에서 선성분의 두께산출 등의 적응적 처리과정을 포함함에 따라 대상지도의 입력 해상도에 무관하게 처리될 수 있는 장점도 있다. 제안된 방법은 일반적으로 직선성분과 문자영역의로 구성되는 경우에 효과적이며 이러한 예에 해당되는 한국 지적도에 적용한 실험을 통하여 제안된 방법의 유용함을 보인다.

  • PDF

Limits on the efficiency of event-based algorithms for Monte Carlo neutron transport

  • Romano, Paul K.;Siegel, Andrew R.
    • Nuclear Engineering and Technology
    • /
    • 제49권6호
    • /
    • pp.1165-1171
    • /
    • 2017
  • The traditional form of parallelism in Monte Carlo particle transport simulations, wherein each individual particle history is considered a unit of work, does not lend itself well to data-level parallelism. Event-based algorithms, which were originally used for simulations on vector processors, may offer a path toward better utilizing data-level parallelism in modern computer architectures. In this study, a simple model is developed for estimating the efficiency of the event-based particle transport algorithm under two sets of assumptions. Data collected from simulations of four reactor problems using OpenMC was then used in conjunction with the models to calculate the speedup due to vectorization as a function of the size of the particle bank and the vector width. When each event type is assumed to have constant execution time, the achievable speedup is directly related to the particle bank size. We observed that the bank size generally needs to be at least 20 times greater than vector size to achieve vector efficiency greater than 90%. When the execution times for events are allowed to vary, the vector speedup is also limited by differences in the execution time for events being carried out in a single event-iteration.

INSTABILITY OF THE BETTI SEQUENCE FOR PERSISTENT HOMOLOGY AND A STABILIZED VERSION OF THE BETTI SEQUENCE

  • JOHNSON, MEGAN;JUNG, JAE-HUN
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제25권4호
    • /
    • pp.296-311
    • /
    • 2021
  • Topological Data Analysis (TDA), a relatively new field of data analysis, has proved very useful in a variety of applications. The main persistence tool from TDA is persistent homology in which data structure is examined at many scales. Representations of persistent homology include persistence barcodes and persistence diagrams, both of which are not straightforward to reconcile with traditional machine learning algorithms as they are sets of intervals or multisets. The problem of faithfully representing barcodes and persistent diagrams has been pursued along two main avenues: kernel methods and vectorizations. One vectorization is the Betti sequence, or Betti curve, derived from the persistence barcode. While the Betti sequence has been used in classification problems in various applications, to our knowledge, the stability of the sequence has never before been discussed. In this paper we show that the Betti sequence is unstable under the 1-Wasserstein metric with regards to small perturbations in the barcode from which it is calculated. In addition, we propose a novel stabilized version of the Betti sequence based on the Gaussian smoothing seen in the Stable Persistence Bag of Words for persistent homology. We then introduce the normalized cumulative Betti sequence and provide numerical examples that support the main statement of the paper.