Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)
Korean Institute of Information Scientists and Engineers (KIISE)
- Semi Annual
- /
- 1598-5164(pISSN)
Domain
- Information/Communication > Information Processing Theory
2008.06c
-
일반적으로 연속 데이터 스트림을 모니터링하는 응용은 다수의 범위 질의를 포함한다. 이러한 다수의 범위 질의는 술어 색인을 이용해 효율적으로 처리할 수 있다. IBS-tree는 연속 데이터 스트림 상에서 효과적으로 이용될 수 있는 술어 색인 기법 중 하나이다. 그러나 IBS-tree는 모든 노드에서 등호 검사와 부등호 검사를 함께 실시하며, 이는 검색 성능의 저하로 이어질 수 있다. 본 논문에서는 등호 검사와 부등호 검사를 분리하여 수행함으로써 검색 성능을 향상시키는 술어 색인 방법을 제안한다. 제안하는 방법은 등호 검사를 위해 해싱을 이용하고, 부등호 검사에는 균형 이진 검색 트리를 이용한다. 본 논문에서는 실험을 통해 IBS-tree와 제안하는 방법의 검색 성능을 비교하였으며, 실험 결과로부터 제안하는 방법의 성능이 더욱 우수한 것을 확인하였다.
-
정보기술과 디지털 기술의 발전에 힘입어 디지털 콘텐츠에 대한 수요가 증가하였다. 디지털 콘텐츠 중 비디오 콘텐츠는 순차적인 특성을 가지며, 시간과 공간정보가 결합된 3차원 데이타로써 처리시간이 높은 작업이기 때문에 검색이나 브라우징이 대단히 어렵다. 이러한 문제의 해결을 위하여 비디오 데이타를 구조화하는 동영상 내용 편집 도구(Authoring Tool for Video Contents)를 제안했었다. 본 논문에서는 동영상 내용 편집 도구의 연구를 확장하여, 이러한 구조화된 데이타를 이용하여 원하는 부분을 쉽게 볼 수 있을 뿐만 아니라, 검색을 위한 주석의 내용까지 보여줌으로써 사용자에게 효율적으로 제공할 수 있는 브라우징을 제안한다. 메타데이타가 저장된 XML파일을 이용하여 플렉스 솔루션으로 구현하였다. 즉, 웹 어플리케이션에 플래시를 도입시킨 것으로 플래시 플레이어(Flash Player)가 동작한다면 운영체제, 브라우저, 디바이스에 대해 독립적으로 실행될 수 있으며, 인터넷 익스플로어, 파이어 폭스, PDA, 핸드폰, 위성 단말기 등 어디에서든지 인터넷으로 같은 어플리케이션을 공유할 수 있는 환경을 제공할 수 있다.
-
웹 2.0 환경에서 인터넷 사용자가 생성하는 정보는 폭발적인 규모로 증가하고 있다. 또한 UCC 등의 사용자 참여 서비스 및 VOD, IPTV 등의 대용량 서비스가 본격화 되고 있다. 그러나 이러한 데이타 전송량 증가 속도를 네트워크 전송 설비의 증설이 따라가지 못하고 있는 실정이다. 이를 극복하기 위해 P2P 기술을 이용하고 있지만 대부분의 P2P 기술들은 실제 물리적인 네트워크 상태를 고려하지 않고 응용 계층만을 고려하기 때문에 데이타 전송의 비효율이 발생하게 된다. 게다가 이러한 비효율을 해결하기 위한 방안들은 분산형 Pure P2P 시스템이나 구조적 P2P 시스템에 대한 연구가 대부분이고 비구조적 중앙 집중형에 대한 연구는 없는 실정이다. 본 논문에서는 물리적인 네트워크 정보와 그래프 클러스터링 기법을 적용한 계층적 클러스터링 방법을 이용하여 실제 기업에서 운영하는 중앙 집중형 P2P 시스템에서 성능을 향상 시킬 수 있는 기법을 제안한다. 그리고 이를 통해 기존의 기법들이 가지고 있는 과도한 메시지 교환, 고정된 랜드마크의 유지 등의 문제점을 보완하여 대규모 데이타의 효율적인 전송을 가능케 하는 실제적인 P2P 환경에 적합한 오버레이 네트워크 모듈을 구현하였다.
-
데이터베이스가 DTD를 가지는 valid XML을 관리하기 위해서는 XML 문서를 변경하는 트랜잭션들에 대한변경 유효성을 검사할 수 있는 메커니즘이 필요하게 된다. 그리고 이러한 유효성의 검증 범위는 유효성을 검증하기 위해 필요한 정보를 담고 있는 노드들을 나타낸다고 할 수 있는데 이것은 유효성 검증이 올바르게 수행되기 위해서는 검증 범위에 속하는 데이터 아이템들이 다른 트랜잭션들에 의해서 변경되지 않도록 보장하는 병행수행 제어 기법이 필요하다는 것을 의미하며 이를 위해 유효성과 병행수행에 대한 낙관적 처리 기법이 필요하게 된다. 본 논문에서는 효율적인 충돌 탐지와 같은 검증 범위에서의 유효성 검사를 통해 변경 연산의 트랜잭션들의 병행수행 성능을 향상시키는 기법을 제안하고 기존연구의 유효성 검증과 충돌 탐지 기법을 비교, 분석한다.
-
온라인 분석 처리(On-Line Analytical Processing: OLAP)은 데이터 웨어하우스로부터 다차원 데이터를 분석하거나 의사 결정을 위한 유용한 정보를 제공하고 있다. 데이터 분석을 위해, OLAP에서는 다차원 데이터를 표현한 스프레드시트(spreadsheet) 또는 피벗 테이블(PIVOT table)을 널리 사용하고 있다. 스프레드시트와 피벗 테이블은 서로 유사한 형태로써 분석의 기준이 되는 애트리뷰트들이 많은 구조이다. 사용자들은 흔히 사용되고 있는 SQL 구문을 이용하여 스프레드시트 또는 피벗 테이블에서 손쉬운 데이터 분석을 요구한다. 그러나, RDBMS에서 제공하는 SQL 구문의 사용으로, 이는 다차원 데이터를 효과적으로 분석할 수 없다. 그 이유는 SQL 구문이 다양한 데이터 분석의 목적으로 사용되거나, 요약된 집계 정보를 도출하는 데 한계가 있기 때문이다. 따라서, 본 연구에서는 SQL 구문을 확장하여 다차원 데이터를 표현한 스프레드시트를 손쉽게 조작하고, 요약된 집계를 계산하는 셀(cell) 구문을 제안한다. 이 방법은 스프레드시트와 피벗 테이블에서 행과 열이 교차하는 좌표(coordinate)를 이용하여, 특정 셀의 조작 및 선택한 부분/전체 영역에 대한 집계 정보를 계산하는 방법이다. 결과적으로, RDBMS에서 사용되는 SQL 구문이 친숙한 사용자들이 제안한 셀 구문을 이용하면, 다양한 관점에 따라 손쉽게 스프레드시트와 피벗 테이블을 다룰 수 있을 것으로 사료된다.
-
Currently an automated methodology based on data mining techniques is presented for the prediction of customer load patterns in long duration load profiles. The proposed our approach consists of three stages: (i) data pre-processing: noise or outlier is removed and the continuous attribute-valued features are transformed to discrete values, (ii) cluster analysis: k-means clustering is used to create load pattern classes and the representative load profiles for each class and (iii) classification: we evaluated several supervised learning methods in order to select a suitable prediction method. According to the proposed methodology, power load measured from AMR (automatic meter reading) system, as well as customer indexes, were used as inputs for clustering. The output of clustering was the classification of representative load profiles (or classes). In order to evaluate the result of forecasting load patterns, the several classification methods were applied on a set of high voltage customers of the Korea power system and derived class labels from clustering and other features are used as input to produce classifiers. Lastly, the result of our experiments was presented.
-
Social Network는 웹 환경에서 개인을 중심으로 뻗어 나가는 연결로서 사용자별 프로필을 탐색하고 새로운 연결 및 정보의 소통을 지원한다. 이러한 상호신뢰를 바탕으로 구축된 Social Network 환경 내 구성원들이 가지고 있는 속성(Feature)을 이용하여 사용자간 친밀도를 산정한다면 친구 및 동호회 추천 등 Social Network 내부의 효율 향상 뿐만 아니라 웹 검색 등 다양한 사용자간의 공통 활동에도 응용할 수 있다. 본 논문에서는 Social Network 사용자간 친밀도를 산정하기 위한 방법을 제시한다. 기존의 친밀도가 없이 구성되어 있는 사용자간의 관계를 사용자의 속성(Feature)에 내재된 정보를 이용하여 주제의 유사성과 접근성을 이용하여 산정하였으며, 이는 Social Network 성격의 규명과 사용자의 정보 요구에 대한 판단의 척도로 사용될 수 있다.
-
SIMS는 지역 정보 관리 환경을 지원하기 위한 통합 관리 시스템으로써 다양한 지역 및 비지역 자료를 관리하고 여러 응용작업을 지원한다. 본 논문에서는 지역데이터에 대한 질의를 처리하기 위해서 기존에 개발된 지역데이터 마이닝 질의 언어에 대한 모델과 지역 서술자를 기반으로 SQL형태의 객체 질의어를 새로이 정의한다. 또한 자동 데이터 수집, 인공위성 측위 서비스, 원격탐사, GPS, 모바일 컴퓨팅 등의 다양한 자료와 시지역(Spatio-Temporal)자료로부터 유용한 정보를 발견 할 수 있도록 SIMS를 기반으로 한 지역 데이터 마이닝 질의 언어를 설계하였다.
-
플래시 메모리 환경에서는 디스크 환경과는 달리 논 클러스터링 방법의 성능이 클러스터링 방법에 비해 우수하다. 그러나 논 클러스터링 방법 역시 플래시 메모리의 특성을 고려하여 설계된 것이 아니므로, 성능 저하 요인이 많이 존재한다. 본 논문에서는 이를 바탕으로 플래시 메모리 환경에서 효율적인 레코드 관리방법을 제안한다. 제안하는 레코드 관리 방법은 빈 공간이 큰 페이지에 레코드들을 최대한 모아 한 번의 쓰기 연산으로 저장함으로써, 쓰기 연산을 크게 줄일 수 있다. 실험 결과에 의하면, 제안하는 방법은 기존 방법의 성능을 최대 1.8배까지 향상시키는 것으로 나타났다.
-
디자인 팀들간의 효과적인 협업 작업을 위해서는 효율적이고 실행할 수 있는 협동 플랫폼이 필요하다. 본 연구에서는 텍스타일 패턴 디자인을 협업할 수 있는 시스템 기반구조를 설계하였다. 또한 웹 상의 패턴 지식 라이브러리를 구축하여 참여자들이 필요로 하는 지능적인 디자인을 지원하도록 하였다. 기반구조에 따라 설계된 웹 사이트는 디자이너들 간에 빠르고, 효율적인 패턴 설계를 지원한다.
-
질의응답시스템에서 사용자 질의로 입력된 자연어문장을 완벽하게 분석하는 것은 쉬운 일이 아니며, 사용자의 질의 의도의 불명확성으로 키워드 여러 개의 질의문이 존재할 수 있다. 본 논문에서는 질의를 하기 전에 사용자가 안게 되는 자연어 질의문의 작성 부담감을 줄이고, 키워드만으로 자신이 원하는 질의문을 선택할 수 있는 시스템을 제안하고자 한다. 제안 시스템은 평서문에서 자동으로 질의문을 생성한다. 질의문 생성은 장문형질의문생성과 단문형질의문생성으로 구분하며, 장문형질의문은 문장의 전체형태를 유지하면서 특정고유명사를 질의하는 것이고, 단문형질의문은 주어진 고유명사를 질의하는 최소한의 요소를 갖춘 단순 형태의 질의 문장이다. 또한 제안 시스템은 생성된 질의문이 유한 해답을 도출할 수 있는 의미있는 질의문을 선별하는 과정을 포함한다. 본 논문에서 제안한 방식이 사용자에게 의미있는 질의문을 제시하여주고 사용자가 원하는 질의문을 선택하게 함으로써 검색의 시간단축과 자연어문장 질의어 자체에 대한 고민을 해소시킬 수 있다. 또한 이는 자연어 문장처리의 한계를 극복할 수 있는 시스템을 구현할 수 있는 기반을 마련한 것이다.
-
분산되어 있는 여러 운영계 시스템에서 대용량의 교통자료를 가져와 교통정보 이력자료를 분석할 수 있는 단일 통합 교통 데이터베이스를 구축한다. 품질 평가, 오류 판단, 결측보정과 평활화 등의 자료처리 과정을 거친 교통자료는 자료의 신뢰도를 판단하고 활용도를 높일 수 있게 해주며 이용자에게 고속도로 통행료 수납자료, 고속도로 전자통행료 수납자료, 차량검지장치자료, 도로전광표지자료, 돌발상황자료, 기상자료, 차량번호인식장치자료 등에 대한 검색 및 자료 처리 기능을 제공한다.
-
Meang, Bo-Yeon;Choi, Ok-Ju;Lee, Yoon-Kyung;Lee, Min-Soo;Yoon, Kyong-Oh;Choi, Hye-Yeon;Kim, Dae-Hyun;Lee, Keun-Il 60
바이오칩을 이용하여 유전자를 분석하는데 이때 바이오 칩 분석 시스템을 이용한다. 바이오 칩은 유전자와 실험의 두 축으로 이루어져 있으며 바이오 칩 분석 시스템을 사용하여 바이오 칩에서 자료를 추출하고 필요한 정보를 얻기 위해 데이터를 분석하는 시스템이다. 데이터를 분석하는 기법 중 클러스터링을 사용하는데 유사한 유전자들을 찾아 내어 정해놓은 클러스터로 정의한다. 같은 클러스터 안에 있는 유전자들은 서로 비슷한 성질을 가지고 있기 때문에 사용자들은 이 바이오 칩 으로부터 나온 정보를 효율적이게 사용할 수 있다. 더욱 효율적으로 사용하기 위해 본 논문에서는 방대한 양의 데이터의 최적화에 효율적인 생태계 모방 알고리즘 Particle Swarm Optimization을 이용하여 데이터들을 클러스터링을 하여 분류하는 시스템을 기술하고 있다. -
Choi, Ok-Ju;Meang, Bo-Yeon;Lee, Yoon-Kyung;Lee, Min-Soo;Yoon, Kyong-Oh;Choi, Hye-Yeon;Kim, Dae-Hyun;Lee, Keun-Il 64
DNA Chip을 이용한 실험은 그 결과에 대하여 대용량의 정보를 쏟아내고 있다. 이러한 데이터를 분석하는 다양한 기법 중, 미리 정해진 클래스에 데이터를 해당하는 클래스로 분류하는 기법인 분류화를 수행하여 의도한 목표를 위한 규칙을 찾아내고자 한다. 본 논문에서는 이를 위해 DNA Chip과 같은 방대한 양의 정보 분석에 대하여 적합한 생태계 모방 알고리즘인 PSO Algorithm을 사용하여 분류 규칙을 발견하여 이를 데이터에 적용, 분류하는 연구를 기술하고 있다. -
전자 메일의 사용이 급증함에 따라 스팸메일의 양도 함께 증가하고 있다. 증가되는 스팸으로 인한 피해를 줄이기 위하여 여러 가지 기법들이 사용되고 있지만, 지능화되어가는 스패머들의 기술에 완전한 스팸메일의 차단은 불가능하며, 수신된 메일에 대해 사용자는 자신만의 기준으로 스팸메일 여부를 판단하고 있다. 본 논문에서는 스팸메일임에도 불구하고 수신되는 메일(FN)에 대해, 사용자의 반응 패턴을 통하여 이를 판단하고자 한다. 수신된 메일의 송신자와 제목, 보관 편지함 등에서 형태소 추출을 하고 이를 PN_DB(Positive형태소와 Negative형태소로 구성된 DB, 이하 PN_DB)로 구축한 뒤, Negative 형태소들을 Balcklist로 사용하여 FN 메일을 판단한다. FN 메일로 판단된 경우에 PN_DB에서 계산된 각각의 가중치 값을 적용하여 사용자의 과거 스팸 판단 성향이 반영된 FN_value를 시각적으로 표현함으로써 사용자의 판단을 용이하게 하는 시스템을 제안한다.
-
최근 사용자들의 참여, 개방, 공유가 주요 이슈로 떠오르면서 전문적이고 정확한 정보를 웹에서 찾고자 하는 사용자의 요구가 증가하고 있다. 그러나 정보의 범람으로 사용자가 원하는 정보를 찾기 어려우며, 찾는다 해도 그 정보에 대한 신뢰성을 판단하기가 어렵다. 본 논문에서는 신뢰성이 결여되기 쉬운 정보원에서 특정 정보에 대한 신뢰성과 검색의 효율성을 높이기 위해 새로운 랭크 매트릭을 제안하고, 이러한 제안에 기반을 두고 민간의학 정보에 대한 웹 사이트를 구현하였다. 제안하는 매트릭은 사용자 레벨에 기반하여, 레벨에 따른 평가 가중치(weight)를 차등화하여 글의 점수를 부여하는 방법이다. 이러한 방법은 참여자의 심리적 요소를 반영하여 글의 신뢰도를 높이는 방법으로 신뢰성이 결여되기 쉬운 정보의 신뢰도를 높일 수 있는 방안으로 사용될 수 있다.
-
DSMS는 USN과 같은 환경으로부터 스트림데이터를 실시간으로 입력 받아 등록된 연속질의를 처리하는 시스템이다. DSMS는 등록된 연속질의 처리를 위해 필요한 데이터를 버퍼에 관리하며, 스트림데이터의 저장기법에 따라 연속질의 처리 성능 및 버퍼 저장비용이 개선될 수 있으며, DSMS에서 연속질의는 특정 스트림데이터에 대해 일정한 기간 동안의 평균 값, 최대 소 값, 누적 값 등의 집계 연산을 요구하는 경우가 많다. 기존의 DSMS에서는 이러한 집계 연산이 필요한 연속질의의 효율적인 처리를 위해 LINT, BINT등의 자원 공유 집계 처리기법이 제안 되었다. 하지만 기존의 자원공유 집계 기법들은 위치 값을 포함하는 GeoSensing 데이터에 대한 고려를 하지 않았다. 본 논문에서는 공간 DSMS에서 공간영역질의 기반의 연속질의를 효율적으로 처리하기 위한 R-tree기반의 집계기법을 제안한다. 이는 각각의 연속질의에 포함된 공간 영역을 R-tree 인덱스로 구성하고, 연속질의에 필요한 공간 스트림데이터에 대한 집계값을 저장하여 연속질의를 처리하는 것이다. 제안기법은 공간 DSMS에서 공간영역 기반의 연속질의 처리 성능을 개선할 수 있으며, R-tree 기반으로 해당 영역에 대한 데이터 만을 버퍼에 관리하여 저장비용을 줄일 수 있다.
-
최근 유클리드 공간 상에서 효율적인 연속 k-최근접(k-Nearest Neighbors) 질의 처리를 위해 그리드 구조 기반의 많은 색인 기법들이 연구되었다. 하지만 기존 기법들은 k-최근접 객체들을 연산하기 위해 불필요한 셀을 접근하여 연산 자원을 낭비하거나 근접한 셀을 알아내는데 너무 큰 연산 비용을 초래한다. 그래서 본 논문에서는 한 셀과 주변 셀과의 거리 관계 패턴을 이용하여 k-최근접 질의 처리시 적은 연산비용과 적은 저장 공간을 사용하는 새로운 k-최근접 질의 처리 기법을 제안한다. 제안하는 기법은 k-최근접 질의 처리 시 거리 값을 기준으로 정렬된 거리 관계 패턴의 상대좌표를 순차적으로 적용하여 근접한 셀을 알아내기 때문에 O(n)의 셀 검색 비용이 요구된다. 또한 본 논문에서는 CPM[1]과 성능을 비교하여 제안하는 기법의 우수성을 입증한다.
-
정보 기술의 발전으로 인해 이용할 수 있는 정보가 기하급수적으로 늘어남에 따라, 사용자는 원하는 정보를 얻는 데 어려움을 겪게 되고, 양질의 정보를 찾기 위해 많은 시간을 들이고 있다. 이에 사용자의 의도를 정확하고 명백하게 드러내는 태그 정보에 기반한 협력적 필터링 기법을 이용하여 사용자가 원하는 적절한 음악을 추천하는 시스템을 제안하며, 태그의 확장을 통한 협력적 필터링 기법의 성능 향상을 제안한다.
-
유비쿼터스 환경에서 사용자는 개인용 디바이스를 이용하여 보이지 않는 수많은 자원들과 서로 연결하여 원하는 서비스를 제공 받기를 원한다. 이러한 요구사항을 만족시키기 위하여 유비쿼터스 지능 공간에 존재하는 자원들 사이의 공유가 필요하며 이를 효율적으로 수행하기 위한 연구는 새로운 연구 주제이다. 그러나 동일한 환경이라 할 지라도 각 사용자들의 상황은 서로 다르며 개인적인 성향 역시 다양하다. 그러므로 동일한 공간에서 동일한 서비스를 원하는 사용자들이라 할 지라도 현재의 상황과 사용자 개개인의 개성에 따라 필요로 하는 자원이 다른 것이 현실이다. 그러므로 본 논문에서는 사용자의 상황을 인지하여 맞춤형 자원을 추천하는 시스템을 개발한다. 추천 시스템은 사용자의 상황을 인지하기 위한 방법으로 온톨로지 기반 추론을 수행하고, 개인화 추천 서비스를 제공하기 위하여 규칙들 이용한 규칙 기반 추론 방법을 수행한다.
-
교육용 소프트웨어 산업이 급속히 발전하면서 온라인 게임을 플랫폼으로 하는 다양한 교육용 게임이 개발되고 있다. 현재 대부분 교육용 게임 시스템은 온라인 게임의 학습도구와 웹을 기반으로 하는 부가적 교육 학습도구로 이중화 되어 개발되고 있다. 하지만 온라인 게임의 학습 데이터 결과와 웹의 학습 데이터 결과가 일치화 되지 않아 학습자에게 올바른 학습 결과를 줄 수 없을 뿐만 아니라 게임 시스템의 학습과정에 따른 레벨 시스템을 적용하기가 어렵다. 본 논문에서는 이러한 비동기적 데이터 처리방식을 온라인 게임 시스템과 웹의 학습과정의 분기 조건에 필요한 학습결과 데이터만을 동기화 처리하는 학습 데이터 동기화 처리 방식을 구현하였다. 이러한 학습결과 데이터 동기화 처리는 위와 같은 문제점으로 다양한 학습 콘텐츠들이 온라인화 하지 못했던 문제점을 해결하고, 향후 통합 교육용 시스템과 다중 교육용 게임 시스템으로 개발 될 때 좀 더 효과적인 학습 시스템으로 개발될 수 있는 학습 데이터 처리 방식이 될 것이다.
-
최근 모바일 기술의 발달로 GIS분야에서도 모바일 기술을 이용한 다양한 서비스가 이루어지고 있다. 수치데이터나 이미지데이터를 기반으로 하는 모바일GIS는 최근에 XML기반의 표준화 된 GML데이터의 사용을 연구 하고 있다. 하지만 모바일 환경에서의 데이터 처리는 유선환경에서 보다 좀더 많은 데이터 처리비용을 요구 하고 있다. 본 논문에서는 모바일 GIS에서 표준화 된 GML을 사용 할 때 무선영역에서의 변환을 통해 좀더 경제적인 무선데이터 처리를 제안하고자 한다. 아울러 제안하는 데이터의 효율성의 평가하기 위해 데이터의 양을 측정하였다.
-
DBMS에서는 날짜를 저장할 수 있는 자료형을 일반적인 자료형과 별도로 구현하고 있다. 하지만 복잡한 역법과 다른 자료형에 비한 상대적으로 적은 빈도의 사용으로 대부분의 DBMS에서 소홀히 하고 있는 실정이다. 시스템 호출을 이용하여 간단히 구현하거나 정확한 역법에 따라 구현하지 못하여 기능적, 성능적으로 다른 자료형에 비해 많이 뒤쳐져 있다. 이에 본고는 정확한 역법을 집어보고 상용화되어 널리 쓰이고 있는 Hybrid DBMS인 Altibase에서의 Date 연산을 개선한 내용에 대해 다루고 있다. 이로 인하여 기능적으로 연산 범위가 확장되었으며, 성능적으로 dir 8배의 개선을 이루었다.
-
유비쿼터스 컴퓨팅에서의 플랫폼 기술은 상황인지(context-awareness) 기술과 재구성형 네트워킹(reconfiguration networking) 기술이 융합되어 가면서 병행하여 발전되고 있으며 최근에는 이종간의 다른 리소스를 가지고 있는 모바일 플랫폼간의 자율적인 공유를 통한 보다 큰 개념의 유비쿼토스 서비스가 제공 되고 있다. 본 논문은 사용자의 선호도를 고려한 서비스 기술과 서비스 추론 기술을 제안한다. 특히 본 논문에서는 데이터마이닝 기법을 이용하여 사용자 선호도에 기반한 서비스를 제공한다. 본 논문은 상황인지 시스템에서 온톨로지를 활용한 고도화된 서비스 추론 엔진과 함께 데이터마이닝기법을 이용하여 사용자의 과거 이력 분석을 통해 최적의 서비스등 다른 분야의 방법들을 함께 결합시킴으로서 상황 인지 시스템에서의 새로운 사용자 선호도 기반 서비스 패러다임을 제공하는 것을 목적으로한다.
-
한 도메인 내의 통합검색시스템에서 메타데이터를 이용하여 분산되어있는 데이터를 공유하고 표준화하여 정보를 통합검색 할 수 있다. 하지만 메타데이터를 특정 도메인에 맞게 설계하여 메타데이터 레포지스토리로 구축되어진 조직 간에 데이터요소 의미, 구조, 형식상의 이질적인 문제들이 발생하여 통합 검색하기 어렵다. 따라서 본 눈문에서는 XMDR(eXtended Metadata Registry)을 이용한 멀티데이터베이스 통합 검색 시스템을 제안한다. 제안된 시스템은 레거시 데이터 시스템들 간의 협업에 필요한 데이터를 공유 및 교환하는데 실시간으로 변화하는 데이터를 일관성 있게 유지할 수 있으며 통합 검색시 단일 인터페이스를 제공하여 각 시스템의 독립성을 유지하면서 데이터의 투명성과 가용성을 향상 시킬 수 있다.
-
관계형 DBMS의 보급이 확대되면서 대형 운영시스템 구축 시에 인덱스를 사용하는 관계형 DB의 사용이 증가하고 있다. 이에 따라 Sort의 용도가 대폭 축소되고 DB에서 직접 대형 결산작업이 주로 처리되게 되었다. 그러나 대형 결산 작업 처리시 사용되는 대용량의 데이터의 경우 ETL(Extract Transformation Loading) 작업 시에는 오히려 파일 시스템을 사용하는 경우보다 성능이 저하되는 문제가 발생하기 시작했다. 본 논문에서는 ETL 작업 시 DBMS에 존재하는 대용량 데이터 처리하는 경우에 파일 시스템 상에서 flat 파일을 이용하여 처리 속도를 향상 시키고, 이와 동시에 리소스부하 문제를 해결할 수 있는 방안을 제시했다. 보다 세부적으로 DBMS에서 사용되는 sort, Join, Merge, Summary, 각종 사용자 함수 등의 다양한 기능들을 flat 파일에 적용하는 방법을 제시하였다. 또한 실험을 통해 ETL 작업 시 제안하는 기법이 처리 속도 개선과 리소스 활용성을 향상 시킴을 증명하였다.
-
최근 들어, 기업의 내재 가치를 평가하여 투자에 활용하는 이른바 가치투자에 대한 많은 분석과 전략들이 나오고 있다. 그러나 현존하는 대부분의 투자 지원 툴들은, 단기적으로 등락을 반복하는 주가에 매매 조건을 제시하여 차액을 얻는 방식인 기술적 분석 툴로서 기업의 내재 가치를 평가하여 투자를 지원하기 에는 제한이 있다. 때문에 가치 투자자들은 기업의 가치를 체계적이고 객관적으로 판단하기 보다는, 몇몇의 공시된 자료들을 보고 개인의 판단에 따라 평가하는 경우가 대부분이다. 따라서 감정과 선입견을 배제한 기존의 기술적 분석 툴과 같이 기업의 가치를 정량적으로 추정하여 다양한 전략개발을 할 수 있는 툴이 필요한 실정이다. 본 논문에서는 기업의 가치를 정량화하여 가치투자 전략을 개발할 수 있는 가치투자 시스템(이하 KPU-VISS)의 설계 및 구현 내용을 기술한다. 즉, 본 시스템은 주식가격을 포함한 기업의 다양한 정보와 경기 지표 등을 이용하여 기업의 가치 모델 개발을 지원하고, 이 모델에 근거하여 저평가된 종목을 검색하는 전략 개발을 지원한다. 또한, 개발된 전략을 과거의 특정 시점에 반영시킨 투자 시뮬레이션을 통하여, 전략의 실효성을 검증하는 기능도 지원한다. 본 논문에서 제안한 가치투자 지원시스템은 최초로 가치투자전략의 개발과 검증을 지원하는 시스템으로, 향후 가치투자 시스템 개발을 위한 선도적인 방향을 제시할 것으로 예상한다.
-
RFID 기술은 기존의 바코드 기술보다 발전된 무선의 비접촉 인식 기술로서, 유비쿼터스 컴퓨팅의 핵심기술로 간주되고 있다. RFID 태그는 기존의 단순한 사물의 인식 기능 중심에서 사물의 상태 및 환경 정보를 감지할 수 있는 센서 태그로의 발전으로 물류 프로세스의 양적, 질적 향상을 도모할 수 있게 되었다. 센서 태그는 환경 정보를 센싱하기 위하여 배터리를 내장하고 있으며, RF Transceiver의 내장 유무에 따라 자체적으로 신호를 보낼 수 있는 active 센서 태그와 리더로부터의 신호를 사용하는 semi-passive 센서 태그로 구분된다. Semi-passive 센서 태그는 배터리를 부착함으로써 passive 태그에 비해 인식률과 인식거리가 향상되었고 active 태그에 비해 단가가 매우 저렴하여 센서 태그가 부착된 물품의 상태를 모니터링하고 환경을 감시하는 다양한 응용에 사용될 수 있다. 이러한 응용의 요구에 따라 Edge Manager는 기존의 passive 태그는 물론 센서 태그를 지원함으로써 상위 응용에게 정제된 결과를 전달할 필요성이 있다. 본 논문에서는 특히 semi-passive 센서 태그를 지원하는 Edge Manager의 설계를 위하여, 센서를 사용한 또 다른 활용 분야인 센서 네트워크에서의 질의 유형을 분석하고, semi-passive 센서 태그의 특징을 고려한 요구사항을 분석한다. Semi-passive 센서 태그는 센서 네트워크의 센서 노드와는 달리 태그 레벨에서 필터링과 병합을 수행할 수 없으므로 Edge Manager에서 이러한 기능이 제공되어야 한다. 본 논문에서는 Edge Manager에서의 센서 태그 데이터에 대한 질의를 위한 방법으로 EPCglobal ALE 표준명세의 ECSpec을 확장하는 방법을 제안하고, 센서 태그 데이터의 특성을 고려한 필터링 기법과 병합(aggregation) 기법을 적용한 질의 처리가 가능한 Edge Manager의 구조를 제시한다.
-
저장장치 전용 네트워크의 발전으로 인해 효율적인 저장장치 시스템의 요구가 증가하고 있으며, 대규모 웹 시스템의 멀티미디어 데이터의 빠른 확산으로 인해 컴퓨팅 중심의 저장장치에서 데이터 중심적인 저장장치 시스템으로 패러다임이 변하고 있다. 또한 사용자 제공 컨텐츠와 같은 웹 2.0의 수요 증가와 함께 멀티미디어 데이터 서비스의 요구와 네트워크 기반 시스템의 발전으로 인해 인터넷 기반 응용 시스템들이 요구하는 데이터의 종류가 다양해지면서 대용량의 데이터 처리 요구를 수용할 수 있는 클러스터 파일 시스템의 요구가 급증하고 있다. 본 논문은 클러스터 파일 시스템의 기본 구조와 각 구성요소의 설계 내용을 기술하고, 클러스터 파일 시스템의 독립적 지역 파일 시스템 및 기존 분산 파일 시스템에 대한 성능평가를 보인다. 본 성능 평가를 위해 각 파일 시스템 상에 상용 데이터베이스 시스템을 설치하고 표준 DBMS 벤치마크 테스트를 수행하여 데이터 집중적인 저장장치 접근에 대한 성능평가를 보인다.
-
네트워크 환경과 컴퓨팅 기술이 발전하고 모바일 디바이스의 수가 증가함에 따라 상황 인식 서비스(Context-Aware Service)의 중요성이 부각되고 있다. 최근 몇 년 동안, 상황 인식 서비스(Context-Aware Service)를 실현하기 위한 여러 연구가 진행되었지만, 해결해야 할 문제점들이 남아있다. 기존의 접근 방법들은 상황에 적합한 서비스나 추천 알고리즘을 도입함에 있어서 특정 응용(Application)이나 영역(Domain)에 종속적이고 유연성이 떨어진다는 문제가 있다. 또한 온톨로지 추론 엔진에 서비스 제공을 위한 대부분의 정보 표현과 추론을 전가하기 때문에 실제 서비스에 활용할 수 있는 정도의 성능을 기대하기 어려우며 확장성(Scalability)이 떨어진다. 본 논문에서는 서비스 요청과 서비스 처리 계층으로 계층을 분리하고 두 계층에서의 온톨로지 추론 엔진과 관계형 데이터베이스의 역할을 명확히 정의함으로써 이와 같은 문제점들을 해결하는 실용적(Practical)인 상황 인식 서비스 전달 프레임워크(Context-Aware Service Delivery Framework)를 제시하고. 시나리오를 통해 서비스 프로세스를 설명한다. 제시된 프레임워크는 현재 프로토타입의 개발을 진행 중이다.
-
시간이 지날수록 처리해야 하는 정보가 점점 늘어나고 있어서 각 분야에서는 온톨로지를 구축하여 그것을 기반으로 보다 정확한 결과를 얻으려는 시도를 하고 있다. 한의학 분야에서도 온톨로지를 이용한 약재 정보 관리를 시도하고 있다. 하지만 한의학 약재 온톨로지에서는 약재 사이의 연관성 파악이 중요하지만, 기존의 검색은 키워드 기반의 검색으로 약재 사이의 연관성을 확인하게 어려움이 있다. 온톨로지의 구조적 내용을 파악하기 위한 기존의 온톨로지 뷰어들이 존재하지만 약재 온톨로지가 가지는 계층구조 위주의 탐색이 어렵고, 다양한 속성이 속성에 관계없이 그래프 상에 고르게 분포하기 때문에 속성에 따른 약재의 구분이 어렵다는 문제점이 존재한다. 따라서 기존의 뷰어를 수정 및 보완하여 한의학 약재 온톨로지에서 계층구조 파악 및 속성 별 약재 분류를 파악할 수 있는 뷰어를 개발하였다. 이러한 뷰어시스템을 통해 향후 한의학 전반적인 분야의 자원을 단계별로 체계화하여 관리함으로써 사용자 중심의 통합되고 현대화된 전통 의학 정보의 서비스의 기초시스템으로 활용될 수 있을 것이다.
-
최근 많이 주목을 받고 있는 웹 2.0은 사용자의 참여, 개방, 네트워크 효과에 기반하여 누구나 데이터를 생산하고 공유할 수 있는 사용자 중심의 인터넷 환경이다. openAPI는 웹 2.0의 근본 개념인 데이터의 개방 및 공유를 구현할 수 있는 핵심 기술로 포털은 자신의 서비스를 공개한다. 하지만 기존의 웹서비스와 openAPI 검색은 효율적인 검색 방법을 제공하지 않았다. 본 논문에서는 Lee[1]의 논문에서 제공하는 효율적인 웹서비스 검색 방법을 이용하여 검색 엔진을 개발하였다. 하지만 이 연구는 웹서비스와 유사한 구조를 가지는 openAPI를 수용하지 못한다. 따라서 본 논문에서는 openAPI의 정의 및 사용법이 웹서비스와 유사하다는 점을 활용하여 openAPI의 효과적인 검색을 위한 검색기법을 개발하였다. 이러한 검색기법은 사용자가 키워드를 입력하여 키워드 기반 검색을 통해 원하는 서비스를 찾아주고, 매쉬업 서비스나 다른 openAPI와의 조합(Composition)을 위해 템플릿 기반 검색을 통해 효과적인 검색을 제공해준다.
-
다양한 분야에서 ISO/IEC 11179를 기반으로 MDR(Metadata Registry)시스템들이 개발되었다. 그러나 현재 구축된 메타데이타 관리 시스템들은 표준을 따라서 생성되지 않아 메타데이타 간 불일치가 발생하는 문제가 있다. 그리고 메타데이타를 공유하고 교환할 수 있는 표준화된 접근방법을 제공하지 않아 MDR 시스템마다 상이한 방법을 이용하여 개발되는 문제점을 야기한다. 이러한 문제점들을 해결하기 위해 SQL/MDR이 제안되었다. SQL/MDR은 MDR에 대한 사용하기 쉬운 표준 인터페이스를 제공함으로써 반복적인 메타데이터 레지스트리 접근연산 개발 시 메타데이터 레지스트리 간 데이터 불일치를 개선할 수 있게 한다. 그러나 SQL/MDR은 검색을 위한 연산만을 지원할 뿐, MDR 구축 시 접근제어를 위한 연산은 제공하지 않아 정확하고 표준화된 MDR 구축 및 안전한 접근제어를 보장하지 못한다. 이 논문에서는 앞서 언급한 SQL/MDR문제점 중에서 안전한 접근제어를 보장할 수 있는 방법으로 MCL(Metadata Control Language)을 제안한다. MCL은 ISO/IEC 11179 Part 6에서 제안하는 사용자 그룹의 역할과 권한을 미리 정의하여 사용자를 사용자 그룹으로 할당하는 간단한 연산자를 사용함으로써 사용상의 편이성과 보안성을 증대시킨다. 또한 시스템 관리자가 쉽고 정확하게 MDR에 대한 접근제어 규칙을 쉽게 정의할 수 있게 하여 시스템 관리 시간 및 비용을 감소시킨다.
-
웹 상에 존재하는 정보의 량이 방대해 질수록 사용자가 원하는 정보를 찾는데 더 많은 노력이 필요하게 되었다. 따라서 사람들은 인터넷상에서 원하는 정보를 보다 효율적으로 검색하기 위해 많은 검색 알고리즘들을 개발하였다. 하지만 지금까지 개발된 알고리즘들은 웹 검색자들의 검색의도, 즉 관심사를 파악하는데 어려움이 있다. 따라서 검색자들의 의도에 맞는 정보를 보다 정확하고 효율적으로 검색하기에는 많은 제한사항들이 있다. 본 논문에서는 사용자의 검색 질의와 가장 유사한 커뮤니티를 검색하고 검색된 커뮤니티를 기반으로 보다 효율적인 검색 결과를 획득하기 위한 시스템을 제안한다.
-
본 논문은 도로 네트워크에서 연속적으로 발생하는 이동객체의 위치정보를 효율적으로 보고, 저장하는 방법을 제안한다. 또한 저장된 위치정보를 기반으로, 과거의 궤적정보를 정확히 추정하고, 추정된 이동객체의 궤적을 사용하여, 과거 임의의 시점에서 이동객체의 위치를 추정하는 방법을 제안한다. 이를 위해, 도로 네트워크에서의 이동객체 및 도로 네트워크의 데이터 모델을 정의하고, 이동객체의 위치정보 저장 및 추정을 위한 전체적인 프레임워크를 제안한다. 제안한 프레임워크 하에서 Dijkstra의 최단경로 알고리즘을 이용하여 위치 정보를 효율적으로 저장 및 추정하는 방법을 제안한다.
-
연속적이고 무한히 발생되는 데이터 스트림을 관리하는 데이터 스트림 관리시스템(DSMS)은 연속질의를 이용하여 스트림을 처리한다. 연속질의는 질의 별로 독립적인 큐를 유지하기 때문에 질의 개수가 증가함에 따라서 메모리 비용이 증가되며, 잦은 메모리 할당으로 인한 시스템의 성능 저하를 갖는다. 이러한 문제점을 해결하기 위한 기존의 연구로 메모리 풀을 이용한 메모리 관리 기법이 있다. 하지만 페이지의 크기가 고정되어 있기 때문에 각 질의마다 필요로 하는 데이터 스트림의 최적의 크기에 적합하게 할당되지 못하여 메모리를 낭비하는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 연속질의 처리를 위한 큐 메모리 관리 기법을 제안한다. 제안기법은 큐 관리 테이블에서 관리하는 각각의 큐 메모리들을 타임스탬프를 가지고 일정한 기간을 주기로 큐 메모리의 사용량을 분석한다. 분석된 큐 메모리들은 이전의 큐 메모리의 사용량과 현재 사용된 큐 메모리의 사용량을 비교함으로써 상한 값과 하한 값을 구함으로써 현재 큐 메모리에서 가지고 있는 사용량을 추가할 것인지, 줄일 것인지를 판단하여, 메모리의 사용량을 최적화 함으로써 시스템의 메모리 가용성을 향상한다. 제안 기법은 성능평가를 통해 메모리의 가용성이 기존의 방식에 비하여 향상된 성능을 보인다.
-
최근 국내 디지털 병원들이 점차 기업화 되면서 각 지역별 분산 및 독립 운영되는 의료통계 정보 활용의 중요성이 증대되고 있다. 또한 각종 연구목적 및 의료 서비스 경쟁력 향상 등을 위해 신속 정확한 의사결정지원 시스템인 데이터 웨어하우스(DW; Data Warehouse) 구축의 필요성이 대두되고 있다. 본 논문에서는 단일 병원 내의 데이터 웨어하우스가 아닌, 전국적으로 분산 운영되고 있는 병원의 다양한 의료정보를 통합하고자 한다. 따라서 Staging 영역을 활용한 분산된 의료정보시스템 통합 방안을 제시한다.
-
블로그는 개인의 생각을 온라인상의 문서인 포스트로 남기는 일종의 개인 홈페이지이다. 웹 문서와 포스트는 다른 특징을 가지고 있기 때문에 웹 문서 랭킹 알고리즘을 포스트에 적용하기에는 문제점이 존재한다. 본 논문에서는 포스트의 랭킹을 위한 포스트-블로거 그래프를 정의하고, 기존의 웹 문서 랭킹 알고리즘을 포스트-블로거 그래프에 적합하게 변형한 포스트 랭킹 알고리즘을 제안한다. 그리고 실제 블로그 데이터를 통하여 포스트 랭킹 알고리즘의 성능을 분석하고, 이를 바탕으로 블로그에 적합한 포스트 랭킹 알고리즘을 선별한다.
-
생물학자들은 기능이 밝혀진 단백질들로부터 치환된 몇몇의 잔기를 이용해 새로운 유용한 단백질들을 만든다. 만들어진 단백질은 높은 서열 유사성을 가지는데 우리는 이런 유사한 서열들로 구성되어 있는 클러스터를 서열 클러스터라고 정의한다. 이 논문에서는 서열정렬방법을 이용하여 서열들의 클러스터에 새로운 요약적 표현방법을 제안한다. 먼저 클러스터 안의 모든 서열들 각각의 거리에서 최소거리를 갖는 서열을 대표로 선택한다. 이 서열거리는 계산된 정렬스코어에 의해 얻을 수 있고 서열정렬의 결과에서 변환된 서열을 Edit-Script라고 불리는 보존정보에 저장한다. 대표로 선택된 서열과 각 클러스터의 Edit-Script가 데이터베이스에 저장되고 이 정보로 각 클러스터의 서열들이 보다 쉽게 만들어진다. 본 연구의 결과에서 Edit-Script의 정보를 이용하면 클러스터안의 서열들의 유사도이 55% 넘었을 때 사이즈가 감소된 것을 알 수 있다. 또한 데이터베이스에서 검색하려는 서열과 관련된 서열들을 검색할 때 데이터베이스 있는 대표서열들을 먼저 비교해 본 후 가장 거리가 가까운 대표서열을 선택하여 그 안의 클러스터 구성서열들과 검색하기 때문에 검색 시간을 단축시킬 수 있다.
-
Cho, Chi-Young;Park, Soo-Hyun;Kim, Dae-Soo;Ha, Hong-Seok;Ahn, Kung;Kim, Heui-Soo;Cho, Hwan-Gue 198
많은 양의 유전자 정보가 유전공학의 발전과 Genome 프로젝트의 결과로 축적되고 있으며, 이러한 유전자 정보를 체계적으로 관리하고 가시화하기 위한 생물정보학 분야의 연구가 진행되고 있다. 기존의 많은 Genome Browser들이 완성된 형태의 툴로 서비스되고 있다. 이러한 툴들은 다목적의 많은 기능을 포함하고 있어 특정연구를 진행해야하는 연구자들은 너무 많은 정보로부터 원하는 것을 찾기 위해 시간과 노력이 필요하게 된다. 본 논문에서는 특정한 목적의 Gene 가시화 툴을 제작할 수 있는 Component Ware를 제안하고 이를 이용한 진화분석용 가시화 툴을 소개한다. -
본 논문에서는 의료기관의 검사코드인 LOCAL 코드(Local Code)를 LOINC 코드(Local Laboratory Result Code)와 매핑하기 위한 알고리즘을 구현하고, 이를 기반으로, LOCAL 코드의 매핑 및 입력을 지원하는 새로운 시스템을 제안한다. 이를 위해, 먼저, LOCAL 코드를 변환하여 LOINC의 여섯 가지 속성을 추출한 대응 코드로 생성한다. 추출한 대응코드는 LOINC 코드와 매핑하는 키 값이 된다. 대응코드와 LOINC 코드의 매핑은 각 속성을 우선순위에 따라 비교하는 과정을 포함하며, 매핑 결과 수에 따라 자동 매핑되거나, 상 하위 개념을 조합 또는 System 코드를 재검색하는 결과 최소화 단계를 수행한다. 본 연구에서는 매핑 알고리즘을 기반으로 LOINC 코드로 매핑 하고, 새로운 LOCAL 코드를 LOINC 코드로 입력할 수 있는 새로운 시스템을 구축하였다. 본 연구의 목표는 LOINC를 활용하여 방대한 진단검사 결과데이터를 표준화하고, 이를 통해 의료 기관 간 EMR을 실현하고 구축하는 기반요소를 마련하는데 있다. 본 연구를 통해, 국내 의료기관 간 검사 결과의 통합과 호환이 가능하게 할 것이며, 검사코드의 표준화를 위한 기반요소를 마련할 수 있을 것으로 기대한다.
-
최근 유전체 단위 반복 변이(CNV)의 중요성이 부각되고 있다. CNV란 DNA가 복제될 때 일부가 만들어지지 않거나 혹은 많이 만들어져 그 양이 차이가 나게 되는 것으로, 인간의 질병이나 형질과 밀접한 관련을 가진다고 알려져 있다. 이에 따라 CNV와 관련된 연구가 활발히 진행되었으며, CNV를 찾기 위한 다양한 방법들이 나오게 되었다. 본 논문에서는 CNV를 찾아내는 대표적인 기법 중 하나인 SW-ARRAY에 대해서 알아보고, 여기에 페널티 값과 점수에 따른 가변 임계값을 적용하여 보정함으로써 기존 SW-ARRAY의 문제점을 해결하는 방법을 제안한다. 이를 실제 Array-CGH 데이터에 적용한 결과 긍정 오류 값이 줄어들어 기존의 방식에 비해 정확한 값을 얻게 되었다.
-
기존의 알려진 데이터에 기반하여 분류 알고리즘을 통해 새로운 생물학적인 사실을 예측하는 것은 생물학 연구에 매우 유용하다. 하지만 생물학 데이터 분류 문제에서 positive 데이터만 존재할 뿐, negative 데이터는 존재하지 않는 경우가 많다. 이와 같은 상황에서는 많은 경우에 임의로 negative data를 구성하여 사용하게 된다. 하지만, negative 데이터는 실제로 negative임이 보장된 것이 아니고, 임의로 생성된 데이터의 특성에 따라 분류 성능 및 모델의 특성에 많은 차이를 보일 수 있다. 따라서 본 논문에서는 단일 클래스 분류 알고리즘 중 하나인 support vector data description(SVDD) 방법을 이용하여 실제 microRNA target 예측 문제에서 positive 데이터만을 이용하여 학습하고 분류를 수행하였다. 이를 통해 일반적인 이진 분류 방법에 비해 이와 같은 방법이 실제 생물학 문제에 보다 적합하게 적용될 수 있음을 확인한다.
-
생명공학 기술의 발달로 지놈 프로젝트를 통해 인간 초파리 등 여러 종의 유전체 정보가 밝혀 졌다. 그러나 Post-Genome 연구에 있어서 매우 중요한 생물체인 멍게(Ciona intestinalis)와 성게(Strongylocentrotus purpuratus)의 유전체 서열은 현재 공개되어 있으나 염기서열의 연속성(continuity)에는 심각한 문제점이 존재하고 있다. 이들은 염기서열에 변이가 많은 다염기변이 유전체(polymorphic genomes)로 그 특성이 반영되지 않은 전통적인 Whole Genome Shotgun Sequencing(WGSS)방법을 사용였기 때문이다. 이와 같은 다염기변이 유전체 서열 분석은 시스템 생물학이나 비교 유전체학 등의 후발 연구에 기초가 되므로 매우 중요하다. 본 논문에서는 다염기변이 유전체에 대해 알아보고 서열 조립 알고리즘의 기본이 되는 서열 정렬 툴들 중 가장 많이 사용되는 FASTA, BLAST, BLAT에 대해 분석하여 봄으로써 다염기변이 유전체에 적합한 서열 조립 전략 수립을 위해 고려해야 하는 사항들을 논의해 본다.
-
신경계에서 뉴런은 다른 한 뉴런에 두 개 이상의 시냅스를 통해 연결되곤 한다. 이런 다중 시냅스 연결은 시냅스 가중치를 높이는 것과 마찬가지라고 보는 것이 일반적이다. 본 논문에서는 다른 가능성을 제시한다. 두 뉴런 사이의 다중 시냅스 연결이 시냅스전 (presynaptic) 뉴런으로부터 스파이크 (spike) 입력을 받는 한 시냅스후 (postsynaptic) 뉴런의 반응에 어떤 영향을 주는지 살펴보았다. 다중 시냅스 연결이 있는 경우, 단일 시냅스 연결만 있는 경우와는 다른 입력 패턴에 대해서 시냅스 후 뉴런이 반응했다. 다중 시냅스를 포함하는 경우끼리도 뉴런 상의 연결 위치가 달라지면 또 다른 입력 패턴에 대해서만 반응했다. 이 결과들은 다중 시냅스 연결이 가중치 증가와 다른 역할을 하고, 다중 시냅스 연결을 이루는 각 시냅스의 위치에 따라 신경망의 정보 처리 특성이 달라질 수도 있음을 암시한다.
-
방위 선택성(orientation selectivity)은 일차 시각 피질에 존재하는 심플 셀(simple cell)의 중요한 특성이다. 이 특성이 어떻게 구현되는가는 아직까지 정확하게 알려지지 않았다. 대표적인 기존 심플 셀의 이론 모델은 시각 자극의 인자마다 대응되는 끌개(attractor)를 가지는 순환 신경망(recurrent neural networks) 모델이 있다. 하지만 자극을 결정하는 인자의 범위는 무한대이므로 끌개 또한 무한대여야 한다는 문제점을 가지고 있다. 본 연구에서는 끌개를 가지지 않는 순환 신경망 모델을 이용하여 심플 셀의 특성을 보임으로서 기존 Recurrent 모델의 문제점을 해결하고 새로운 연구 방향을 제시하고자 한다.
-
생명정보 대량 획득기술의 하나인 마이크로어레이(microarray)는 DNA와 각종 유적자 연구에 사용되는 도구로서 확립되면서, 생명정보학(bioinformatics)분야의 발전에 크게 기여하였다. 그러나 마이크로어레이는 생명정보학분야의 핵심기술 중 하나로 발전하였음에도 불구하고 마이크로어레이 실험으로 생성되는 데이터는 형태가 다양하고 매우 복잡한 형태를 갖기 때문에 데이터의 공유나 저장에서 많은 어려움을 겪는 것이 사실이다. 따라서 마이크로어레이 실험결과 분석을 위한 최소한의 컨텐츠가 정의되고 표준화 되었다. MIAME 데이터, MAGE-OM/ML과 같은 표준화된 공개 저장소는 전문 생물학 연구단체에게 과거부터 지금까지 주요 관심사가 되어왔다. 하지만 많은 공개저장소의 설립되었지만 마이크로어레이 데이터의 구조적 특징을 고려하여 효과적인 설계를 하지 않은 것이 사실이다. 본 논문은 표준을 따르는 동시에 마이크로어레이 데이터의 구조적 빈발 패턴이 반복되는 계층적 특징을 반영하는 전략을 제안한다. 이를 통하여 복잡한 데이터의 구조를 객체들의 빈발 패턴을 파악하여 그 계층을 줄임으로서 복잡도를 줄일 수 있었다. 이 과정에서 관계형 데이터베이스 기반의 공개저장소의 성능에 영향을 주는 관계 테이블(join-table)의 숫자는 줄어든다. 이에 따라, 성능은 개선된다. 이 전략을 통하여 생성된 테이블의 숫자는 원본 데이터를 단순 매핑시켜 저장하는 방법에 비하여 약 31%줄어든다. 결국 MAGE-ML 데이터의 저장과 로딩 시간은 이 논문에서 제시하는 전략을 적용하지 않은 방법에 비해 60%에서 65%를 줄일 수 있었다.
-
본 논문은 표현 패턴(expression patterns)을 이용한 한국어-영어 기계 번역 방법에 대하여 논의한다. 표현 패턴은 한국어-영어 기계 번역을 위하여 의미적이고 표현적인 관점에서 한국어 표현에 적합한 영어 표현을 대응하여 정의하였다. 그리고 새로운 한국어 파싱 방법을 개발할 것을 제안하였다. 한국어 파싱 방법은 한국어의 교착어로서의 특징, 표현 패턴 개념, 문장 분할 개념, 그리고 파싱 과정에 의미 구조를 포함하는 개념 등을 포함하여 개발할 것을 주장하였다. 논문의 마지막 부분에는 간단한 한국어 문법을 정의하여 새로운 한국어 구문 분석 방법의 가능성을 제시하였다.
-
본 논문은 하위범주화에 의한 한국어 파싱의 설계를 논의한다. 우선, 기계 번역에 중요한 영향을 끼치는 한국어 문법구성 요소인 통사 범주, 조사, 어미, 통사적 접사, 의존 명사 등을 논의하고 하위 범주화와 표현 패턴을 논의한다. 다음에 간단한 한국어 파서의 기본 골격을 제시한다. 첫 번째 과정은 입력 단계로서 문장을 스캐닝(scanning) 하고 관사, 명사, 수사, 통사적 접사, 조사, 의존 명사, 어미활용, 형용사, 부사, 조동사 들을 처리한다. 두 번째 과정에서는 하위범주화 패턴과 표현 패턴을 처리한다. 세 번째 단계에서는 절을 처리하고, 네 번째 단계에서는 SEA(Sentence Ending+Auxiliary)를 처리한다.
-
문서 표절이 사회적으로 이슈가 됨에 따라 표절 문서를 판별할 수 있는 시스템의 필요성이 대두되었다. 문서 표절 검사 시스템에서 가장 중요한 이슈는 성능과 속도인데 이 두 가지를 모두 만족시키기 위해서는 표절을 상세하게 검사하기 전에 표절 의심 문서에 대한 비교 문서군이 크기를 최적화하여 표절 검사 범위를 최대한 작게 만들어야 한다. 비교 문서군의 크기를 최적화하기 위해서는 표절 의심 문서와 상관이 없는 문서를 필터링 하는 작업이 필요하다. 이 논문에서는 문서를 빠르게 필터링 하기 위해서 웹 문서 검색에 사용되는 Inverted Index을 이용하여 적당한 시간 안에 비교 문서군의 크기를 최적화 하는 방법들을 알아보고 각각의 방법들의 성능을 비교 분석하는 방법을 제시하며 그 방법들을 바탕으로 성능을 분석하여 최적화된 문서 필터링 방법을 알아본다.
-
본 연구에서는 Active Learning의 학습과정을 변형하여 학습노력을 줄이고 성능향상을 이루는 방법에 대해서 기술한다. Active Learning을 사용하는 이유는 학습 코퍼스의 량을 줄이면서도 우수한 성능을 얻기 위해서이다. 우리는 학습량을 줄이기 위해서 다양성과 대표성이 높은 학습 데이터를 추가한다. 높은 다양성을 얻기 위해서 기 학습된 코퍼스와 가장 관련이 없는 데이터를 추가하고 높은 대표성을 얻기 위해 예제 군집화를 통해 대표적인 예제를 추가할 수 있도록 하였다. 제안된 방법의 효용성을 검사하기 위해서 고정키어구 추출 문제에 적용하였다. 실험결과를 보면 지도학습을 이용한 실험결과보다 우수하였으며, 학습량을 83%정도 줄일 수 있었다.
-
규칙 기반의 영한 기계번역에서는 영어의 문법 규칙을 구축하고 이를 이용하여 영어의 구문 분석을 수행한다. 그러나 쉼표를 포함한 문장이나 특수한 형식의 문장들은 문법에 의해 분석하기 어렵다. 이를 문법에 의해 분석하기 위해서는 문법이 복잡해지고 문법의 수가 많아지게 되어 분석의 복잡도를 증가시키게 된다. 이러한 문제를 해결하기 위해 이미 존재하는 규칙에 의해 분석할 수 있는 형태로 문장을 바꾸는 문장 다시 쓰기를 제안한다. 문장 다시 쓰기를 위해 쉼표를 포함한 문장에 대해서 다시 쓰기가 필요한 패턴을 구축하였으며 이에 대해 문장 다시 쓰기를 실험하였다. 문장 다시 쓰기를 통해 입력 문장을 변형함으로써 규칙의 추가 없이 구문 분석이 가능하며 제안한 방법은 특수한 형식을 가진 문장 및 쉼표에 의해 연결되는 문장들에 대해 보다 정확한 분석과 번역을 위한 새로운 방법으로서 의의가 있다.
-
본 논문에서는 문서 내에서 동시에 출현하는 단어 쌍을 자질 추출 단위로 하는 문서 범주화 시스템에 대하여 기술한다. 자질 추출 단위를 단어 쌍으로 정의한 것은 문서에서 빈번하게 동시에 출현하는 단어들은 서로 연관관계가 높으며, 단어 하나보다는 연관관계가 높은 단어들의 쌍이 특정 범주의 문서에서만 나타날 확률이 높아지므로 문서 분류 능력을 높이는데 좋은 요인으로 작용할 수 있을 것이라는 가정 때문이다. 그리고 문서 요약 분야에서 제안된 Log-likelihood Ratio를 기반으로 하는 Topic Signature Term Extraction 방법을 사용하여 자질 추출을 하고, Naive Bayes 분류기를 이용하여 문서를 분류한다. 본 연구는 Reuters-21578 문서 집합을 이용한 성능평가에서 좋은 결과를 보였으며, 이는 앞으로의 연구에도 기여할 수 있을 것이라 기대한다.
-
의견(Opinion) 분석은 도전적인 분야로 언어 자원 구축, 문서의 Sentiment 분류, 문장 내의 의견 어구 추출 등의 다양한 문제를 다룬다. 이 중 의견 어구 추출문제는 단순히 문장이나 문서 단위로 분류하는 수준을 뛰어 넘는 문장 내 의견 어구를 추출하는 문제로 최근 많은 관심을 받고 있는 연구 주제이다. 그러나 의견 어구 추출에 대한 기존 연구는 문장 내 의견 어구부분이 태깅(tagging)된 학습 데이터와 의견 어휘 자원을 이용한 지도(Supervised)학습을 이용한 접근이 대부분으로 실제 적용 상의 한계를 갖는다. 본 논문은 문장 내 의견 어구 부분이 태깅된 학습 데이터와 의견 어휘 자원이 없는 환경에서도 문장단위의 극성 정보를 이용하여 의견 어구를 추출하는 부분 지도(Semi-Supervised)학습 장법을 제안한다. 본 논문의 방법은 Baseline에 비하여 정확률(Precision)은 33%, F-Measure는 14% 가량 높은 성능을 냈다.
-
인터넷 사용의 증가로 인터넷이 사용자의 의견 표출의 장이 되었다. 이에 따라 사용자의 견해나 의견을 자동으로 인식 및 추출하는 방법들이 연구되어 오고 있다. 의견 분석 (opinion analysis)은 한국어에서는 아직 연구가 활발히 되지 않는 분야로 의견 분석에 필요한 자원 및 도구들이 미비하다. 본 논문은 다른 언어권에서 구축된 주관성 어휘를 사전을 이용해 번역하는 방법을 제시하고 문제점 및 개선방법과 향후 연구방향에 관하여 논의한다.
-
본 연구에서는 어절패턴을 이용하는 새로운 방식의 한국어 형태소 분석기 KGuru-MA에 대해서 설명한다. KGuru-MA는 품사 부착 말뭉치에서 개방어를 생략하여 어절 패턴을 반자동으로 학습하여 어절 패턴 사전과 형태소 확률 정보 사전을 구성한 후, 이 사전을 이용하여 형태소를 분석한다. 본 형태소 분석기는 어절패턴을 사용하여 형태소 분석하기 때문에 기존 형태소 분석기에 존재하는 접속검사 과정이 생략된다. 또한, 형태소 분석 과정이 기존의 형태소 분석기에 비해 단순하여 기초 자연언어 처리 시스템이 가지는 강건성을 보장한다. 본 연구는 "21세기 세종기획 3차년도 말뭉치"를 이용한 실험 결과, 기존 형태소 분석기 못지 않은 성능을 보였다.
-
최근의 구문분석 연구는 컴퓨터 성능 향상과 사용 가능한 대량의 구문분석 말뭉치 증가, 견고한 기계학습 기법 개발 등에 힘입어 통계적인 모델 연구가 꾸준히 증가하고 있다. 본 논문에서는 기존에 개발된 다양한 기계학습 기법 중 ME(Maximum Entropy) 모델과 SVM(Support vector machine) 모델을 이용한 한국어 구문분석 방법을 제안한다. 국어정보베이스(KIBS) 구문분석 말뭉치를 가지고 실험한 결과 SVM 모델을 이용한 한국어 구문분석기가 기존의 확률 기반 통계적 한국어 구문분석기의 성능보다도 최대 1.84% 높은 87.46%의 의존관계 결정 정확률을 보였다. 추후 언어지식을 반영한 다양한 자질들을 이용할 경우 성능 향상이 기대된다.
-
어떤 자연언어 문서가 전달하려는 의미는 그 텍스트의 성격에 따라 아주 명확할 수도(예: 뉴스 문서), 아주 불분명할 수도 있다(예: 시). 이 연구는 이러한 '의미의 명확성(semantic transparency)'을 정량적으로 측정할 수 있다고 가정하고, 이 의미의 명확성을 판단하는 데에 단어들의 연쇄(word association)의 확률통계적 성질들이 어떻게 기능하는지에 대해 논한다. 이를 위해 특정 단어가 연쇄체를 형성하면서 발생하는 neighboring frequency와 degeneracy를 중심으로 Markov chain Monte Carlo scheme을 적용하여 의미망('Semantic Hypernetwork')으로 학습시킨 후 문서의 구성 단어들과 그 집합들 간의 연결 상태를 파악하였다. 우리는 의미적으로 그 표상이 분명하게 나뉘는 문서들(뉴스와 시)을 대상으로 이 모델이 어떻게 이들의 의미적 명확성을 분류하는지 분석하였다. Neighboring frequency와 degeneracy, 이 두 속성이 언어구조에서의 의미망 기억과 학습 탐색 기제에 유의한 기질로서 제안될 수 있다. 본 연구의 주요 결과로 1) 텍스트의 의미론적 투명성을 구별하는 통계적 증거와, 2) 문서의 의미구조에 대한 새로운 기질 발견, 3) 기존의 문서의 카테고리 별 분류와는 다른 방식의 분류 방식 제안을 들 수 있다.
-
본 논문에서는 물리엔진 기반으로 지능형 주행 시스템을 구현하여 사용자에게 쾌적한 주행 환경을 제공하여 사용자가 즐거움을 느낄 수 있도록 하는 것에 목적을 두고 있다. 이를 위해 시스템 환경 내에서 사용자의 위치 및 회전각을 추출한 다음 유한 상태 머신과 베이즈 이론에 입각하여 구현된 모듈에 입력하여서 분석을 한다. 그리고 모듈에서 나온 분석 결과를 장애물이나 커브 구역에서 제공 함으로서 사용자가 현 위치에 따른 환경을 인지하여 좀 더 나은 주행을 할 수 있도록 하였다. 또한 시스템 내부적으로 분석된 자료가 주행 시스템에 피드백 과정을 통해 입력되어 자동적으로 환경에 적응하여 주행 시간을 단축하는 시스템을 설계 하였고, 일부 기능에 대한 구현을 완료하였다.
-
웹 기반 자료들이 폭발적으로 증가함에 따라 적합한 자료들에 보다 효과적으로 접근할 수 있는 방법이 요구되고 있다. 이러한 새로운 방법들 중의 하나로 제한 검색이 점보 검색 분야에서 제시되었다. 제한 검색은 현재 입력한 검색어의 검색결과를 줄이고자 할 때 이용하는 검색방식으로 전체 문장을 포함하는 자료나 출판 년도, 특정 저널로 제한하여 검색할 수 있으며 일반적인 검색어로 검색할 경우 제한을 주어 결과물을 최대한 줄일 수 있도록 지원하고 있다. 하지만 이러한 검색 방법은 검색의 범위를 URL에 의해 명시되는 사이트 또는 도메인들로만 제한할 수 있을 뿐이며 의미적으로 관련된 사이트들로 제한할 수 없다. 본 논문에서는 정보의 공유를 목적으로 하는 커뮤니티를 시맨틱 웹 서비스(Semantic Web Services) 기술을 이용하여 플랫폼에 상관없이 사용자 검색 질의와 가장 유사한 커뮤니티를 의미적으로 식별해 내고 커뮤니티 내의 정보 중 질의와 관련된 정보를 검색결과로 도출할 수 있는 구조를 제안한다.
-
기존의 온톨로지 구축에 관한 연구들을 살펴보면 개념의 상 하위 관계와 관련한 연구 또는 기구축된 도메인에 특화된 지식베이스에 기반한 도메인 온톨로지 구축 연구가 주를 이룬다. 그러나 개념과 개념간의 관계는 상 하위 구조와 같은 단순한 계층적 구조로는 그 다양한 특성을 표현할 수 없으며, 도메인 온톨로지를 구축하는 경우에 기구축된 데이터베이스와 같은 개념간 관계가 잘 정의된 데이터는 반드시 필요하였다. 예를 들면, 다양한 지식이 구축되어 있는 데이터베이스나 특정 도메인에 관한 전문 사이트(예 : 의학정보, 약학정보 사이트) 등이 있어야 개념간의 다양한 관계가 표현되어 있는 온톨로지를 구축할 수 있었다. 본 연구에서는 도메인 온톨로지를 구축함에 있어서 이러한 제약을 극복하기 위하여 도메인에 특화된 문서들을 웹 검색을 통하여 수집하였고, 수집된 문서 데이터를 이용하여 자동으로 도메인에 특화된 개념들을 추출하고 이들 개념들을 클러스터링함으로써 개념들간의 다양한 관계를 표현할 수 있는 도메인 온톨로지의 자동 구축 가능성을 제시한다.
-
오늘날 온톨로지의 활용이 높아짐에 따라서 점점 더 방대한 양의 온톨로지가 구축이 되어가고 있다. 그러나 각 분야에 따라서 온톨로지의 분야와 분류가 다르고 내부에서 처리하는 데 걸리는 시간도 다르기 마련이다. 이러한 문제로 방대한 양의 온톨로지로 구성된 온톨로지 저장소는 검색 및 저장의 효율성이 떨어질 수 밖에 없다. 본 논문에서는 이러한 상황의 온톨로지 검색과 저장의 효율성을 높이고자 온톨로지 저장소는 분산되어져야 함을 실제 사례를 들어 보이고 분산 온톨로지 저장소 사용의 필요성을 보여준다.
-
인터넷 환경은 놀랄만한 속도로 발전하고 있다. 사용자의 수가 늘어나고 그와 동시에 자료의 양도 폭발적으로 늘어나고 있음에 따라, 정확한 정보를 찾고 불필요한 정보를 필터링 하는 기술이 요구되기 시작하였다. 그 대표적인 기술이 시맨틱 웹(Semantic Web)[1] 으로 시맨틱 웹은 웹상의 정보에 메타데이터를 추가로 정의하여 사람 뿐 아니라 컴퓨터가 그 정보의 의미를 파악 할 수 있도록 하는 것이다. 이러한 시맨틱 웹을 위해서는 기계가 의미를 이해할 수 있도록 온톨로지(Ontology)를 먼저 구축해야만 한다. 온톨로지는 자원과 개념의 관계를 정의해 놓은 일종의 사전으로 이를 기술하기 위한 언어로는 RDF, OWL등이 있다. 온톨로지 데이터가 증가함에 따라 온톨로지 저장소의 크기가 증가하게 되면 성능을 위해 지역적으로 온톨로지 저장소를 분산해야 한다. 이에 따라 본고는 분산 환경에서의 통합된 질의에 대한 연구를 바탕으로 확장 가능하고 유연한 구조의 분산 온톨로지 모델을 제시한다.
-
웹 검색 결과 중, 어느 경우에나 첫 번째로 나타나는 결과 페이지가 모든 사용자에게 필요한 웹 페이지를 제공하지는 않는다. 그러한 경우, 사용자는 자신이 원하는 웹 페이지를 찾기 위해 질의를 수정하거나 다음 페이지로 넘기는 수고를 해야만 한다. 이러한 경우, 하위에 랭크 된 웹 페이지가 사용자에게 원하는 정보를 줄 수가 있는데, 본 논문에서는 하위 랭크이지만 사용자에게 원하는 정보를 제공할 수 있는 웹 페이지(Low-Ranked But, Potent Pages)를 효율적으로 찾을 수 있는 웹 검색 결과의 단계별 시각화를 제시한다. 실험에서는, 여러 질의를 통해 본 논문에서 제안하는 단계별 시각화 웹 검색을 평가한다.
-
전자우편(email)은 인터넷의 급격한 보급으로 인하여 사용자들이 많이 사용하게 된 통신 메커니즘이다. 그러나 이러한 전자우편의 대중성을 상업적인 목적으로 이용한 스팸메일의 출현으로, 사용자들은 정신적 피해, 업무 방해, 메일서버의 트래픽 과부화로 인한 유지보수 비용 증가와 같은 문제점들을 접하게 되었다. 특히, 최근에는 광고성 이미지들을 첨부하는 등의 새로운 기법이 적용된 스팸메일의 발생으로 기존의 텍스트 기반의 스팸메일 필터링 기법들이 무의미하게 되었으며, 따라서 그로 인한 피해가 증가하는 추세이다. 이러한 이미지 기반의 스팸메일들의 필터링을 위하여 Support Vector Machine과 같은 기계학습 기법을 이용한 기법들이 제안되고 있으나, 여전히 그 성능은 만족스럽지 못하다. 본 논문은 전자우편으로부터 텍스트 및 시각적 의미를 분석하여 전자우편 온톨로지에 기술하고 스팸메일 판단을 위한 의미추론규칙을 적용함으로써 광고성 이미지가 첨부되어 있는 스팸메일을 효과적으로 필터링 하기 위한 시스템을 제안한다.
-
시맨틱 웹은 정보의 의미를 개념으로 정의하고 개념들 간의 관계성을 표현함으로써, 문서들 간의 단순 연결이 아닌 의미 연결을 통해서 보다 정확하고 효율적인 정보 검색이 가능하게 된다. 이러한 시맨틱 웹의 비전이 구체화되기 위해서는 웹 온톨로지(Web Ontology)를 기반으로 의미 정보로 구성된 시맨틱 문서들에 대한 추론을 통해서 웹상에 존재하는 엄청난 정보들 간의 관련성을 파악하고 사용자가 요구하는 정보를 보다 효율적으로 검색할 수 있는 시스템이 필수적이다. W3C에서 제안한 OWL은 대표적인 온톨로지 언어이다. 시맨틱 웹 상에서 OWL 데이타를 효율적으로 검색하기 위해서는 잘 구성되어진 저장 스키마를 구축해야 한다. 본 논문에서는 Jena2의 경우, 단일 테이블에 문서의 정보를 저장하기 때문에 단순 선택 연산 (Simple Selection), 조인 연산이 요구되는 질의에 대한 성능이 저하되고 대용량의 OWL데이터의 처리에 있어 성능이 저하되는 문제를 해결하기 위하여 본 논문에서는 OWL 문서의 의미를 Class, Property, Individual로 분류하여 각각의 데이터 정보들을 테이블에 저장하기 위한 다중 변환기와 OWL 변환기 기능을 가진 시멘텍 검색 엔진을 설계 및 구현하였다. 본 검색 엔진을 테스트한 결과, 단순정보검색 질의 시 Jena2에서 비정규화된 테이블 구조로 저장할 때보다 질의 응답 속도를 향상 시킬 수 있었고, 조인 연산 시 두 테이블의 크기로 인한 조인비용이 발생하는 문제점을 해결함으로써 빠른 검색 및 질의 속도를 보장할 수 있었다.
-
유비쿼터스 지능공간은 개인이 원하는 서비스를 능동적이며 효율적으로 제공하는 공간이다. 그러한 환경을 제공하기 위해서 올바른 온톨로지의 모델링과 적절한 추론이 필요하다. 온톨로지 모델링의 어려움을 생각하며 그 방법을 모색한다. 또한 온톨로지 추론 엔진 중 RacerPro와 JESS의 특징을 이용하여 온톨로지의 보다 효율적인 활용방안을 찾는다.
-
유비쿼터스 컴퓨팅 환경에서 서비스는 환경 정보를 감지하고 그 정보를 바탕으로 대상 사용자에게 서비스를 제공해준다. 이때, 수행되는 서비스는 사용자로부터 명시적인 요청을 받아 수행되는 것이 아니라, 주어진 상황을 기반으로 자동으로 수행되는 것이기 때문에, 이 서비스가 사용자가 정말 원하는 서비스인가를 판단하는 것은 서비스를 수행하는 시스템에 대한 신뢰도 평가에 중요한 기준이 된다. 이에 본 논문에서는 사용자의 의도에 맞는 서비스 수행을 보장하기 위해, 서비스에 대한 사용자의 만족도를 평가하는 방법을 제안한다. 제안된 방법은 OCC 감정 모델을 기반으로 사용자의 서비스 만족도를 계산하고, 이 결과를 통해 사용자의 의도와 서비스의 수행 조건을 일치시킨다. 만족도 계산 작업의 자동화를 통해 서비스의 수행 조건은 사용자의 의도 변화에 따라 동적으로 변경 가능하고, 이를 통해 사용자는 시스템에 대한 하위수준의 조정 작업 없이 자신의 행동 변화만으로 서비스의 실행 조건을 변경시킬 수 있다.
-
본 논문은 가정 내 센서 환경에서 주기적인 약복용 지원용 알림 서비스 실시를 위한 상황 인지 기술에 관한 것이다. 적절한 복약 서비스 컨텐츠의 생성을 위해 복약 상황의 모델링 및 관리, 상황 판별을 위한 상황 인지 기술이 요구된다. 본 연구는 Jess 기반의 상황 인지 모듈을 구현하여 복약 상황 인지 및 서비스를 추론할 수 있는 추론 모듈을 제안한다. 그리고, 상황 추론 시 발생할 수 있는 상황 충돌 문제의 해결을 위한 우선순위 기반의 충돌 해소 방법을 제안한다.
-
이미지의 사용이 증가함에 따라 이미지 중 사용자가 원하는 이미지를 효율적으로 검색하기 위한 방법들이 연구되어 왔다. 본 논문에서는 질의 이미지를 분석하여 이미지 특징(feature)을 추출한 후 이미지 특징에 대한 유사도 평가를 통한 이미지 검색 및 온톨로지를 기반으로 검색된 이미지들과 유사하다고 판단된 이미지와 그러한 이미지들의 의미적 정보를 추출하는 방법을 제안한다. 제안된 시스템은 질의 이미지에서 색상, 질감, 모양 등의 특징을 추출하여 유사도 평가를 통해 검색된 이미지를 제공하고, 내용기반 이미지 검색 방식을 통해 이미지를 검색하고, 온톨로지를 이용해 이미지의 의미적 정보를 추출하여 사용자에게 이미지와 관련된 의미적 정보를 제공한다.
-
스마트 홈의 목적은 가정 혹은 사무실에서 사용자에게 보다 양질의 삶을 위한 서비스를 제공하는데 있다. 스마트 홈의 구성요소로는 여러 종류의 장치와 사용자 편의를 위해 제공되는 서비스가 있으며, 스마트 홈의 목적에 부합하여 서비스는 계속 증가할 것으로 전망된다. 스마트 홈에서 제공하는 서비스의 확대로 인하여 서비스가 이행되지 못하거나 장치와 서비스 간의 상충된 기능 수행으로 발생 되는 오류 또한 증가할 것으로 예상됨에 따라 보다 안정된 스마트 홈 서비스 제공을 위해 오류 복구 시스템 개발이 요구된다. 기존의 모델 기반의 스마트 홈 오류 복구 시스템은 스마트 홈에 새로운 장치가 동적으로 추가되거나 서비스가 변경 되는 경우와 같은 상황에서 발생하는 오류를 해결하지 못한다. 본 논문에서는 동적인 상황에서도 이러한 오류를 해결 하기 위하여 모델 기반이 아닌 상황인지 기반의 오류 복구 시스템을 제안한다. 스마트 홈은 가정에 오류가 발생했을 지라도 제안된 오류 복구 시스템을 이용하여 스마트 홈 상황에 적절한 서비스를 사용자에게 제공할 수 있다.
-
인터넷 중독이란 인터넷의 게임, 음란물, 커뮤니티, 쇼핑 등을 무절제하게 과다하게 사용하므로 자율적인 통제가 불가능한 증세를 의미하며 최근 성인은 물론이고 청소년 계층의 인터넷 중독 인구가 증가되고 있다. 기존 인터넷 진단 도구는 설문조사를 이용한 것으로 설문 응답자의 주관적 판단이나 고의적인 거짓 등으로 응답오차가 생기며, 이로 인한 진단 결과 및 분석 결과의 신뢰성이 낮다. 본 연구에서는 사용자의 인터넷 사용 데이터를 바탕으로 인터넷 중독을 진단하는 데이터 마이닝을 이용한 인터넷 중독 진단기법을 개발하고, 시뮬레이션 데이터를 이용하여 성능평가를 수행하였다. 성능평가 결과 인터넷 중독 분류 및 중독 점수 예측 모두 MLP를 이용한 경우가 우수한 성능을 보였다.
-
본 논문에서는 개미 집단 최적화(Ant Colony Optimization, ACO)의 시간적 공간적 효율성을 향상시키기 위해 ACO에 엘리트 콤팩트 유전 알고리즘(Elitist compact Genetic Algorithms, elitist cGAs)의 아이디어를 적용한 콤팩트 개미 최적화(Compact elitist Ant Optimization, CAO)를 제안한다. CAO는 elitist cGAs에서 각 세대마다 염색체의 수를 둘로 고정하고 우월한 염색체를 유지하여 최적의 해를 찾는 방식을 적용하여 개미의 수를 하나로 고정하고 전이 확률식과 페로몬 갱신 규칙을 변형하고 특정 문제에 적용할 수 있는 타부 규칙을 추가한 알고리즘이다. 이 알고리즘의 공간 효율성이 ACO보다 좋다는 것을 증명하고 스테이너 트리 문제(Steiner Tree Problem)에 적용하여 제안된 알고리즘의 시간 효율성이 ACO보다 좋다는 것을 보인다.
-
예제 기반 학습(instance-based learning) 방법 중 하나인 k-최근접 이웃(k-nearest reighbor, k-NN) 학습은 간단하고 예측 정확도가 비교적 높아 분류 및 회귀 문제 해결을 위한 기반 방법론으로 널리 적용되고 있다. k-NN 학습을 위한 알고리즘은 기본적으로 유클리드 거리 혹은 2-놈(norm)에 기반하여 학습예제들 사이의 거리를 계산한다. 본 논문에서는 유클리드 거리를 일반화한 개념인 p-놈의 사용이 k-NN 학습의 성능에 어떠한 영향을 미치는지 연구하였다. 구체적으로 합성데이터와 다수의 기계학습 벤치마크 문제 및 실제 데이터에 다양한 p-놈을 적용하여 그 일반화 성능을 경험적으로 조사하였다. 실험 결과, 데이터에 잡음이 많이 존재하거나 문제가 어려운 경우에 p의 값을 작게 하는 것이 성능을 향상시킬 수 있었다.
-
사회의 복잡화와 인터넷의 성장으로 폭발적으로 늘어나고 있는 정보들을 사용자가 모두 검토한 후 여과하기는 어려운 일이다. 이러한 문제를 보완하기 위해서 자동화된 정보 여과 기술이 사용되는데, k-최근접 이웃(k-nearest neighbor) 알고리즘은 그 구현이 간단하며 비교적 정확하여 가장 널리 쓰이고 있는 알고리즘 중 하나이다. k 개의 최근접 이웃들로부터 평가값을 계산하는 데 흔히 쓰이는 방법은 상관계수를 이용한 가중치에 기반하는 것이다. 본 논문에서는 이를 보완하여 대규모 데이터에 대해서도 속도는 크게 저하되지 않으며 정확도는 대폭 향상시킬 수 있는 방법을 적용하였다. 또한, 최근접 이웃을 구하는 거리함수로 다양한 방법을 시도하였다. 영화추천을 위한 실제 데이터에 대한 실험 결과, 속도의 저하는 미미하였으나 정확도에 있어서는 크게 향상된 결과를 가져올 수 있었다.
-
전장환경에서 헬기는 헬기생존체계의 다양한 센서를 통하여 수집한 데이터를 기반으로 헬기에 대한 위협을 식별한다. 헬기의 성공적인 임무 수행 및 생존을 위하여 헬기에 대한 위협을 반복적으로 확인할 수 있는 시뮬레이터의 구현은 필수적이다. 본 논문에서는 (1) 헬기의 센서가 수신하는 위협요소를 정의하는 온톨로지 생성기, (2) 전장환경과 유사한 위협을 다양한 분포로 생성하는 위협자료 생성기 및 (3) 다양한 전장 시나리오에서 센서들이 수집한 데이터를 통합하여 위협의 방향과 정도를 사용자에게 실시간으로 보여주는 그래픽 화면표시기를 개발한다. 구현한 헬기의 다중센서 위협 시뮬레이터는 다양한 위협을 생성하는 자동 시나리오 생성기를 이용하여 위협 개체의 탐지 및 분류를 반복적으로 수행한다. 위협 시뮬레이터를 활용한 실험에서 동일한 위협에 대한 통합 정확도를 측정하였다.
-
본 논문에서는 교구용 소형 로봇으로 구현한 군집로봇 시스템을 소개한다. 각 로봇에 내장된 블루투스 무선통신으로 군집로봇 네트워크를 구성하였다. 실험에 사용한 로봇은
$LEGO^{(R)}$ $MINDSTORMS^{(R)}$ NXT이다. 여러 로봇이 라인으로 표현한 대형 미로를 동시에 탐사하는 환경을 가정하였다. 이런 상황에서 각 로봇은 주어진 임무를 수행하면서 센서로 주변 환경 정보를 측정해서 대표 로봇에게 보낸다. 여기에 필요한 메시지 구조를 군집로봇에 적절하도록 설계하였다. 이렇게 군집로봇을 구현하고 실험한 결과, 그룹 대표로봇이 통신을 중계하는 방법으로 통신거리 제약을 해소할 수 있었다. -
유비쿼터스 컴퓨팅의 목표 중 하나는 사용자의 직접적이거나 은연중에 내포된 요청에 따라 적절한 서비스를 제공하는 것이다. 최근에는 사용자의 다양한 요청에 보다 유연하게 대응할 수 있는 연구가 이루어지고 있으며 그 중 단일서비스의 조합을 통해 복합서비스를 제공할 수 있는 서비스 컴포지션(Service Composition)이 주목을 받고 있다. 하지만 기존 연구들은 늦은 처리속도로 인해 실시간 상황인식 서비스에서 빠른 응답을 바라는 사용자의 요구사항을 만족시키기 어렵다. 또한 사례기반추론은 사례기저에 쌓인 사례의 수가 늘어감에 따라 속도가 저하되는 단점이 있다. 이러한 단점을 최소화 하기 위하여 클러스터링 기법이 사용되고 있다. 그러나 클러스터링 기법은 사례기저의 수를 줄여가면서 속도를 유지하기 때문에 기존의 사례가 다시 발생하였을 경우에도 새로운 문제로 인식하게 되는 문제를 가지고 있다. 이러한 문제점을 해결하기 위해서 본 논문에서는 사례기저의 수를 유지하면서 사례기저의 수치화 및 트리구조 관리를 이용하여 기존방법보다 빠른 서비스 컴포지션을 구현하는 방법을 제안한다. 그리고 기존의 서비스 컴포지션 기법과 비교 분석을 통하여 제안하는 기법의 유효함을 확인하였다.
-
추천시스템은 일반적으로 협동적 필터링이라는 정보 필터링 기술을 사용한다. 협동적 필터링은 유사한 성향을 갖는 다른 고객들이 상품에 대해서 매긴 평가에 기반하기 때문에 고객에게 가장 적합한 유사 이웃들을 적절히 선정해 내는 것이 추천시스템의 예측의 질 향상을 위해서 필요하다. 본 논문에서는 다중 속성 정보를 기반으로 한 다단계 클러스터링을 통한 이웃선정 방법을 제안한다. 이 방법은 대규모 데이터 셋에서 탐색 공간을 줄이기 위해 클러스터링을 수행하여 적절한 이웃 고객들의 집합을 검색하여 추출한다. 이 때, 다중 속성 정보에 따라 단계적으로 클러스터링을 수행함으로써 보다 정제된 고객 집합을 구성할 수 있도록 한다. 본 논문에서는 고객 선호도와 위치 정보 및 아이템의 선호도와 위치 정보를 대표적인 속성 정보로 사용함으로써 모바일 환경에서 보다 정확한 추천이 이루어질 수 있도록 한다.
-
근육과 같은 움직임을 갖는 금속을 이용한 스티키토는 동작 방식이 실린더나 모터를 사용할 때와 많이 다르다. 고려할 내용이 많이 모양을 결정하는 것이 쉽지 않고, 사용 목적에 따라 구성도 달리 해야 한다. 이 논문에서는 근육처럼 반응하는 니티놀을 이용하는 스티키토의 구성 문제를 해결하기 위해 유전알고리즘을 이용하였다. 유전알고리즘을 이용하여 구성 최적화 한 개체들과 기존의 개체와 비교한 결과 약 5배 멀리 갈 수 있었고, 전류도 효율적으로 사용하였다.
-
인터넷을 비롯한 통신 네트워크의 발전으로 개개인의 콘텐츠 수요가 증가함에 따라 다양한 콘텐츠 욕구를 충족시키기 위한 추천 시스템이 대두되고 있으며, 이러한 추천 시스템의 기반 기술로써 내용 기반 검색 기술의 필요가 증가하고 있다. 본 논문에서는 대표적인 멀티미디어 콘텐츠의 하나인 음악의 무드를 내용 기반으로 분류하기 위해, 음악 비트 검출에 기반한 프레임화를 적용하였으며, 스펙트럼의 고조파를 좀더 강조하기 위한 HDS(Harmonic Distribution Spectrum)을 제안하였다. 또한 다양한 차원 감쇄 기법과 분류기를 이용한 실험을 통해 무드 분류 시스템의 성능 비교를 진행하였다.
-
매일 쏟아져 나오는 방대한 양의 기상자료는 현재의 대기상태를 대표하기도 하지만 그 지역의 지형적 특성을 나타내고 있다. 이번 연구는 수원지역의 일일 기상자료를 토대로 지형적 특성과 그에 따른 기상현상(바람, 안개)알고자 한다. K-means를 이용 특정 기상현상끼리 군집화하여 지형적 특성과 비교하였다.
-
모바일 상의 단문메시지 서비스는 등장한 이례 꾸준히 사용량이 증가하는 추세이며, 현재 세계적으로 가장 많이 사용되는 모바일 서비스이다. 모바일 기기에서 단문 메시지 작성의 불편함을 개선하기 위한 기술로 하드웨어적인 입력 방법 개선과 소프트웨어적인 입력보조 기능이 꾸준히 개발되었다. 소프트웨어적인 방법은 범용성이 넓고 적용이 쉽다는 장점이 있지만 제한된 자원에서 구현상의 어려움이 있어 연구가 미비한 분야이다. 본 논문은 소프트웨어적으로 단문 메시지의 작성을 보조하는 방법을 제시한다. 일상 생활의 반복성에 초점을 맞추어 반복 작성될 메시지에 대해 기존의 메시지를 제시해 자동적으로 응답하도록 하는 방법을 제안한다. 자동적으로 응답 메시지를 선택하기 위한 비교사 학습과 추론 기술로 "메시지 네트워크"를 제안하고, 실험을 통해 고안한 방법의 가능성을 보였다. 실험 결과로부터 반복적인 메시지의 작성에 제시한 방법이 유용함을 알 수 있었다.
-
최근 문서 저작권에 대한 관심과 중요도가 높아지고 있고 문서 표절에 관한 연구도 지속적으로 이루어지고 있다. 최근 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있다. 현재까지의 문서 표절 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수 많은 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 자동으로 탐지해 내는 시스템을 제안한다. 제안하는 시스템은 하나의 원본 기사에서 5개의 문장을 랜덤으로 추출하고 각각의 문장을 검색어(query)로 사용해 연동된 OpenAPI를 사용하여 웹에서 기사를 검색한다. 또한 5번의 검색에서 추출되는 URL의 검색 빈도를 계산하여 해당 기사의 표절 가능성을 사용자가 쉽게 예측 할 수 있도록 하였다.
-
모바일기기에 탑재되어있는 디지털 카메라의 성능이 향상됨에 따라 이를 이용한 사진의 촬영 및 수집이 용이해졌으며, 따라서 사용자 로그정보를 이용하여 방대한 양의 사진을 분석하거나 브라우징해주는 방법들이 연구되고 있다. 본 논문에서는 모바일기기의 불확실한 로그정보와 사진 주석정보를 베이지안 네트워크로 모델링하여 사용자가 겪은 이벤트들을 추론하고 사용자의 일과를 요약해주는 방법을 제안한다. 우선 사진들을 시간과 위치정보에 따라 분할하여 사진그룹목록을 생성하고, 이를 모바일기기에 입력되어있는 사용자의 일정목록과 합하여 임시이벤트목록을 생성한다. 그 뒤 베이지안 네트워크를 이용하여 각 이벤트를 인식하고 이를 가장 잘 나타내는 사진을 선택한다. 제안하는 방법은 선택된 사진들을 나열하여 사진다이어리형식으로 사용자의 일과를 요약하여주며, 이때 특정 이벤트와 매치되는 사진이 없을 경우 미리 정의되어있는 만화 컷을 대신 사용하여 내용이 매끄럽게 이어지도록 하였다.
-
원하는 정보를 보다 빠르게 찾기 위해서 활용하는 방법 중에 하나가 군집화이다. 군집화를 보다 효과적으로 할 수 있다면, 군집화내에서 원하는 정보를 보다 쉽게 얻을 수가 있다. 따라서, 본 논문에서는 군집화하기 위한 여러 가지 방법 중에서 TSP(Traveling Salesman Problem)을 이용해서 문서를 보다 정교하게 군집화하는 알고리즘을 제안하고, 제한된 알고리즘을 온톨로지 기반으로 실험하여 그 효율성을 입증하였다.
-
본 논문은 기업 온톨로지를 기반으로 하는 비즈니스 프로세스 컨설턴트 시스템(BUPCO)의 설계를 기술한다. BUPCO 시스템은 사용자 인터페이스, 프로세스 표현 도구, 프로세스 평가 도구, 프로세스 분석 도구, 워크플로우 영향분석 도구, 프로세스 시각화 도구로 구성된다. 그 기반에 기업의 프로세스 지식을 표현하기 위해 기업 온톨로지를 구축하고 온톨로지 추론을 위한 프롤로그 추론기를 개발하였다. BUPCO 시스템은 기업 업무 환경의 변화에 빠르게 적응할 수 있는 최적의 프로세스 개선안을 제공하는 것을 목적으로 한다. 이 시스템을 통해 기업은 내부의 각종 비효율성을 제거하고 프로세스와 자원을 최적화함으로써 기업의 경쟁력을 제고시킬 수 있을 것이다.
-
본 논문은 한영 혼용 문서에서의 문자 분할을 위한 효율적인 언어 인식기를 고안하였다. 한영 혼용 문서를 스캔한 후, OCR(광학 문자 판독, Optical Character Recognition)을 할 때, 문자 분할의 중요성은 상당히 크다. 인식 없이 문자를 분할하는 external segmentation 방법에서는, 인식할 언어가 한글 혹은 영어인가에 따라 문자 분할 방법이 달라진다. 그러므로, 한영 혼용 이미지를 인식하기 위해서 문자 분할을 하기 전에 언어를 미리 결정해야 한다. 본 논문에서는 문자 분할 방법을 효율적으로 하기 위한 언어 인식기를 제안하고 그 방법을 적용하였다. 그 결과 한영 혼용된 책 이미지에서 94.09%의 문자 분할 성공률을 보였다.
-
개인과 공공의 안전에 대한 요구가 증가함에 따라 카메라를 이용한 영상 감시 시스템이 점차적으로 증가하고 있다. 보안의 필요성에 따라 한 지역에 여러 대의 카메라를 설치하여 FOV(Field Of View)를 겹치는 경우도 있다. 이처럼 FOV의 중첩 영역에서 다중 카메라들로부터 얻은 영상을 처리하여 객체의 위치를 파악하고 추적하는 연구가 활발히 이루어지고 있다. 본 논문에서는 다수의 카메라를 이용해 감시 영역이 중첩되는 지역에서의 겹침이 발생해도 객체를 계속적으로 추적하는 방법을 제안한다. 이 방법으로 단일 카메라 상에서의 외형 식별자를 이용하여 추적하고 다중 카메라 간의 호모그래픽 매트릭스를 이용하여 노이즈에 강건한 시스템을 구현하였다.
-
다시점 비디오는 여러 개의 시점(view-point)을 이용하여 현장감과 몰입감을 제공하는 새로운 형태의 멀티미디어 서비스이다. 시점의 개수가 증가함에 따라 방대한 양의 영상 데이터로 인한 영상 획득, 저장 전송 및 재현 시 문제가 발생한다. 또한 현재의 다시점 비디오에 관한 연구는 고정된 카메라로 환경이 제한되어 있다. 본 논문에서는 유동적인 카메라 환경에서 최적의 상관관계를 가지는 영상을 획득하기 위한 방법을 제안한다. 제안하는 방법은 영상의 일부분만을 선택하여 중복성을 먼저 측정하고, 중복성의 척도에 따라 사용자와의 상호작용을 통하여 높은 상관관계를 가지는 다시점 영상을 획득할 수 있다. 또한 영상 획득 시 카메라간의 조명 차이에 의해 발생되는 부정확성을 감소시키기 위해 영상 마스킹을 적용한다. 마스킹된 영상에 에지 검출 방법을 적용하여 변위 추정을 함으로써 계산 복잡도를 줄였다.
-
클래스별 원형상(prototype)의 분포가 선형분리 불가능하고 동시에 분산이 서로 다르고 희박한 분포의 원형상에 있어서 입력패턴에 대한 고정밀도의 식별을 행하기 위해 클래스별 최근방 원형상과 그 k 근방 원형상에 있어서 노름(norm) 평균에 기초한 최근방 결정법에 의한 패턴식별방법을 제안한다. 제안하는 방법의 유효성을 평가하기위해 인공적인 패턴과 실제 패턴에 대해 일반적인 k-NN법, 매해라노비스 거리(maharanobis distance), CAP, kCAP, SVM의 각각에 기초한 방법과 제안하는 방법을 적용하여 식별률에 의한 평가를 행하였다. 그 결과 특히, 원형상의 분포가 희박한 경우 제안하는 방법이 다른 방법들에 비해 높은 식별률을 나타냈다.
-
최근 웹 2.0 시대 참여, 공유, 개방 정신이 확대 되고, 다양한 디지털 저작물들이 대량 제작되어 활용되고 있다. 그리고 디지털 저작물의 특징상 누구나 손쉽게 무제한으로 복제와 유통이 가능함으로 디지털 저작물이 양은 기하급수적으로 증가하고 있다. 증가하는 이미지를 효과적으로 관리하고 검색하기 위해 색상, 질감, 모양 등을 이용한 내용기반 이미지 검색에 대한 연구가 활발히 진행되고 있다. 색상을 이용한 이미지 검색방법의 하나로 색상 히스토그램을 이용한 검색 방법이 있다. 그러나 이는 공간적인 상호관계를 적절히 표현하지 못한다는 단점이 있다. 따라서 본 논문에서는 이미지에 나타나는 주요 색상 및 불변 모멘트 값과 이미지의 중앙을 중심으로 한 영역별 유사도 검사를 통한 내용기반 이미지 검색 시스템을 제안한다. 첫 번째 유사성 검사 단계에서는 이미지의 영역별로 가중치를 부여하여 추출한 대표색상 정보를 사용하여, 유사하지 않은 이미지를 제거하여 검색대상의 수를 줄인다. 두 번째 유사성 검사 단계에서는 이미지를 영역으로 나누고, 이미지의 중심 영역부터 영역을 확장하며 영역마다 구축된 인덱스 검색을 통해 영역기반 유사 이미지 검색을 수행 한다. 세 번 단계에서는 이미지의 변형에 불변한 값인 불변 모멘트를 사용하여, 영역별 검사에서 제외된 유사이미지를 재검사한다. 제안한 이미지 검색 방법은 10000개의 다양한 이미지로 구성된 이미지 데이터베이스에서 검색을 실험을 통해 검색의 정확도 및 회수율을 측정하였다.
-
이 논문은 응급상황을 인식하기 위하여 어안렌즈를 통해 획득된 영상을 이용하여 기절 동작을 인식하는 방법을 제안한다. 거실의 천장 중앙에 위치한 어안렌즈(fish-eye lens)를 장착한 카메라로부터 화각이 170인 RGB 컬러 모델의 어안 영상을 입력 받은 뒤, 가우시안 혼합 모델 기반의 적응적 배경 모델링 방법을 이용하여 동적으로 배경 영상을 갱신한다. 입력 영상의 평균 밝기를 구하고 평균 밝기가 급격하게 변화하지 않도록 영상 픽셀을 보정한 뒤, 입력 영상과 배경 영상과 차이가 큰 픽셀을 찾음으로써 움직이는 객체를 추출하였다. 그리고 연결되어 있는 전경 픽셀 영역들의 외곽점들을 추적하여 타원으로 매핑하고 움직이는 객체 영역의 형태를 단순화하였다. 이 타원을 추적하면서 어안 렌즈 영상을 투시 영상으로 변환한 다음 타원의 크기 변화, 위치 변화, 이동 속도 정보를 추출하여 이동과 정지 및 움직임이 기절동작과 유사한지를 판단하도록 하였다. 본 논문에서는 실험자로 하여금 기절동작, 걷기 동작, 앉기 동작 등 여러 동작을 취하게 하고 기절 동작 인식을 실험하였다. 실험 결과 어안 렌즈 영상을 그대로 사용하는 것보다 투시 영상으로 변환하여 타원의 크기변화, 위치변화, 이동속도 정보를 이용하는 것이 높은 인식률을 보였다.
-
본 논문에서는 은닉 마르코프 모델(HMM)을 기반한 대용량의 필기 한자 인식의 문제점인 시스템 리소스의 한계와 인식에 소요되는 많은 시간을 단축하기 위해 구조코드와 HMM에 최적화 된 클러스터링 알고리즘을 제안한다. 제안하는 클러스터링 알고리즘의 기본 개념은 훈련된 HMM를 대상으로 하고, HMM의 파라미터 수가 동일한 클래스에 대해서 클러스터를 구성하는 것이다. 또한 인식에 소요되는 시간을 줄이기 위해 2단계 클러스터모델 구조를 사용한다. 총 98,639 종류의 일본 한자를 대상으로 한 실험에서 평균 0.92 sec/char 인식 속도와 30순위 후보인식률 96.03%를 보임으로서 대용량 필기 한자 인식을 위한 좋은 방안이 될 것이라 기대한다.
-
기존 핑거 트래킹(Finger Tracking)을 수행하는데 있어 핑거팁(Finger-tip)을 구하는 방법 중 가장 일반적인 방법은 먼저 피부색 정보(Skin Color)를 추출한다. 그 다음 블럽(Blob) 함수의 블럽 컬러링(Blob Coloring) 알고리즘을 통하여 피부 윤곽선(Skin Contour)를 구하고, 그 중 가장 최상위 점을 핑거팁으로 정한다. 그러나 이 방법은 밴딩 핑거(Bending Finger) 상태에서 핑거팁 위치를 측정할 때 실제 손가락 끝이 아닌 잘못된 위치를 잡는 문제점을 가지고 있다. 본 논문에서 제안하는 방법은 밴딩 핑거 상태에서의 핑거 트래킹시 잘못된 핑거팁을 측정하는 문제점을 사용자들의 성향을 통해 미리 예상하고 보정함으로써 성능을 향상시키고자 한다.
-
본 논문에서는 하드 디스크 드라이브(Hard Disk Drive, HDD) 생산 공정 과정에서 발생할 수 있는 불량 HDD의 결함 분포에 대해서 패턴을 자동으로 분류해주는 기법을 제시한다. 이를 위해서 표준 패턴 클래스로 분류되어 있는 불량 HDD의 각 클래스의 확률 모델을 GMM(Gaussian Mixture Model)로 가정한다. 실험은 전문가에 의해 분류된 실제 HDD 결함 분포로부터 5가지의 특징 값들을 추출한 후, 결함 분포의 클래스를 표현할 수 있는 GMM의 파라미터(Parameter)를 학습한다. 각 모델의 파라미터를 추정하기 위해 EM(Expectation Maximization) 알고리즘을 사용한다. 학습된 GMM의 분류 테스트는 학습에 사용되지 않은 HDD 결함 분포에서 5가지의 특징 값을 입력 값으로 추정된 모델들의 파라미터 값에 의해 사후 확률을 구한다. 계산된 확률 값 중 가장 큰 값을 갖는 모델의 클래스를 표준 패턴 클래스로 분류한다. 그 결과 제시된 GMM을 이용한 HDD의 패턴 분류의 결과 96.1%의 정답률을 보여준다.
-
카메라로부터 얻어지는 화상정보를 처리하여 사람을 검지하는 기술은 많은 분야에 적용될 수 있다. 실제로 많은 어플리케이션에 적용되고 있다. 현재 Tracking 기술에 관련한 다양한 논문과 방법들이 존재한다. 본 논문에서는 스테레오비전이 아닌 2-D조건에서 움직이는 물체와 움직이지 않는 물체를 구분하여, 구분된 영역에서 탬플릿 매칭을 통하여 사람 검지여부를 결정하는 알고리즘을 제안한다.
-
최근 모바일 장치의 사용 영역 확대와 더불어 기기장치 내의 다양한 영상 데이터에 대한 효율적인 관리와 검색에 관한 기술 연구가 요구되고 있다. 그러나 모바일 장치의 낮은 CPU성능과 한정적인 메모리를 극복하기 위해 저 용량 그리고 고속의 검색 엔진 개발이 요구된다. 이 문제를 해결하기 위하여, 본 논문에서는 RGB 색상 공간에서 HSV 색상 공간 상의 36개의 특징 값으로 변환하는 검색 테이블 방법을 제안한다. 제안하는 방법에 의해, 입력 영상은 검색 테이블에 기반하여 빠르게 색상과 위치에 대한 두개의 특징 히스토그램으로 변환된다. 여기서, 특징추출에 필요한 연산은 본 논문의 실험 결과에서 보는 바와 같이 매우 낮다. 제안하는 방법을 이용하여, 우리는 영상, 색상 그리고 블랍에 의한 질의가 가능한 모바일 기반 영상 검색 시스템을 구현하였다. 본 논문에서 제시하는 실험결과는 제안하는 방법이 충분히 모바일에서 운용 가능한 가볍고 빠른 방법임을 알 수 있다.
-
본 논문에서는 스케치 보정을 위한 계층적 지식 기반 잡음 제거 방법을 제안한다. 제안하는 잡음 제거 방법은 방향 정보, 후보 영역간의 내적, 갈고리 잡음영역 검출이라는 세 개의 계층적 휴리스틱(heuristic) 방법으로 구성된다. 첫 번째 단계에서 방향정보를 이용하여 특징점 후보들이 검출되고, 두 번째 단계에서는 각 후보들 사이의 벡터 간 내적을 이용하여 부적절한 후보들이 제거되며, 세 번째 단계에서는 갈고리모양의 잡음영역을 검출하여 근거리에 모여있는 특징점들을 병합한다. 실험을 통해 제안하는 방법이 잡음에 민감한 실제 응용 환경에 적합하며 효율적임을 보였다.
-
기존 논문에서 CCD 카메라를 이용해 3차원 데이터를 획득하는 시스템을 소개했었다. 하지만, 정확도에서는 기존에 개발한 다른 PSD카메라를 이용한 시스템과 큰 차이를 보이지 않았다. 본 논문에서는 정확도를 개선하기 위한 여러 가지 실험을 했으며, 결과를 통해 상당히 향상되었음을 알 수 있다. 제안된 방법은 왜곡제거, z축 보정 등이며, 각 방법의 비교실험을 통해 얼마나 개선되었는지 살펴본다.
-
컴퓨터 비전을 기반으로 한 영상처리 및 제스처인식 기술을 이용하여 편리하게 응용프로그램을 제어 할 수 있는 인터페이스를 구성하였다. 카메라로 얻어진 영상을 HSV 색상계로 변환 후 색상 정보를 이용하여 손 영역을 추출한다. 추출된 손 영역의 무게중심과 크기 변화를 추적하여 제스처를 인식한다. 인식한 제스처는 응용프로그램의 동작을 제어하거나 마우스의 입력을 대체하는데 사용된다. 이는 별도의 입력장치 없이 컴퓨터 비전 기술만으로 제스처를 인식하여 응용프로그램을 실행할 수 있어 자연스러우며 사용자 친화적인 인터페이스 환경을 제공한다.
-
복수의 영상들 간에 존재하는 변형을 빠른 속도로 파악할 수 있는 영상 등록 방법을 제안한다. 제안하는 방법은 문자인식 및 얼굴인식 분야에서 많이 사용되는 N-tuple 방법을 영상 등록에 적용함으로써 영상간 회전 및 이동 상태를 고속으로 파악한다. 또한 특정 특징을 이용하지 않아 영상의 종류에 무관하게 적용할 수 있으며 소수점 화소 단위의 변형도 파악할 수 있다. 실험을 통해 영상 패치를 이용한 영상 등록 방법과 속도 및 정확도를 비교한 결과, 제안하는 방법이 속도와 정확도 면에서 우수함을 보였다.
-
HMM의 약점인 상태 지속 분포를 개선하는 새로운 개념의 확률적 전역+지역 시간 지속 분포 segment 모델(GL-STDM)을 제안한다. 즉, 시계열 신호의 전역적 시간 정보를 표현하고, 각 상태 별 duration 모델과 각 상태의 duration 정보 사이의 상관관계를 표현하는 global pattern (shape 또는 long-term dependency)을 제안한다. 그러나 제안 모델은, Markov 가정을 깨뜨리기 때문에 dynamic programming이 자랑하는 단순함, 효율성을 유지하지는 못한다. 하지만 최근 부각되는 방법인 Monte Carlo 표본 기법을 이용하여 효과적으로 문제를 해결하는 방법을 제시하였다. 본 논문에서는 제안 모델 GL-STDM의 개념과 정의, 그리고 추론 방법과 모델 평가 방법을 기술하였다.
-
모션 캡쳐 장비는 사람의 자연스러운 행동이나 동작 정보를 정밀하게 얻기 위해 널리 사용되며, 영화나 게임과 같은 콘텐츠에서 자주 활용되고 있다. 하지만 모션 캡쳐 장비가 고가이기 때문에 한번 입력받은 데이터를 모션별로 분할하고 상황에 맞게 재결합하여 사용할 필요가 있으며, 입력 데이터를 모션별로 분할하는 것은 대부분 수동으로 이루어진다. 이 때문에 캡쳐된 데이터를 자동으로 분할하기 위한 연구들이 다양하게 시도되고 있다. 기존의 연구들은 크게 전역적 특성에 대한 고려없이 이웃하는 프레임만을 고려하는 온라인 방식과 데이터를 전역적으로 고려하나 이웃하는 프레임 사이의 관계를 고려하지 않는 오프라인 방식으로 나누어진다. 본 논문에서는 온라인과 오프라인 방식을 병합한 그래프 기반의 모션 분할 방법을 제안한다. 분할을 위해 먼저 모션데이터를 기반으로 그래프를 생성하며, 그래프는 이웃하는 각 프레임사이의 유사도뿐만 아니라 시간축을 기반으로 일정시간내의 프레임들의 유사도를 모두 고려하였다. 이렇게 생성된 그래프를 분할하기 위해 분할된 모션내의 유사도 합을 최소화하고 각 모션간의 유사도는 최대화할 수 있는 normalized cuts을 이용하였다. 실험에서 제안된 방법은 기존의 오프라인 방식 중 하나인 GMM과 온라인 방식 중 하나인 국부최소값 분할 방법보다 좋은 결과를 보였으며, 이는 각 프레임 사이의 유사도뿐만 아니라 일정시간내의 유사도를 전역적으로 고려하기 때문이다.
-
자막은 영상과 관련이 있는 정보를 포함한다. 이러한 영상의 정보를 이용하기 위해서 자막을 추출하는 연구가 진행되고 있다. 기존의 자막 추출 연구는 언어 독립적인 특징으로 자막을 이루는 획의 에지는 일정한 간격을 유지하거나 수평라인으로 존재하는 글자의 분포를 이용한 방법을 제안하였다. 이러한 방법들은 획의 간격이 일정한 자막이나 하나의 글자가 하나의 획으로 이루어진 글자에서만 정상적인 동작을 보장하였다. 본 논문에서는 한글 자막 특징을 고려한 자막 추출 방법을 제안한다. 먼저, 한글 자막의 특징인 가로 획의 다수 분포를 고려한 적응형 에지 이진화를 수행하여 에지 영상을 생성하고 에지 연결 객체를 생성한다. 그 후에 생성한 연결 객체를 특징을 추출하여 사전에 생성한 의사결정 트리로 연결 객체를 자막과 비자막 연결객체로 분류한다. 의사결정 트리를 생성하기 위해서 사용한 연결 객체는 뉴스, 다큐멘터리 프로그램에서 획득하였으며, 성능 평가를 위해서 뉴스, 다큐멘터리, 스포츠 프로그램과 같은 대중 방송에서 획득한 영상에서 자막을 추출하였다. 평가 방법은 찾아진 연결 객체 중에 자막 연결 객체의 비율과 전체 자막 중에서 찾아진 자막 연결 객체의 비율로 분석하였다. 실험 결과에서는 제안한 방법이 한글 자막의 추출에 적용 가능함을 보여준다.
-
본 논문에서는 GPU의 성능을 이용하여 다시점 거리 영상을 실시간으로 정합하는 3차원 온라인 시스템을 제안한다. 제안한 시스템은 거리영상의 정교한 정합을 위해 IPP 알고리즘을 사용하였으며, 최신 GPU 프로그래밍 기법으로 각광받고 있는 CUDA를 이용하여 정합 알고리즘의 연산비용이 큰 부분에 해당하는 투영과 변환의 반복 부분을 수행하였다. 스테레오 기반 휴대용 거리센서에서
$320{\times}240$ 거리영상을 획득하여 정합 알고리즘을 수행한 결과, 초당 5장의 거리영상을 정합할 수 있었다. 제안한 온라인 시스템은 실시간 3차원 모델 복원 기술이 필요한 로봇위치 인식, 주행용 비전 기술, 문화재 원형 복원 등의 분야에서 활용될 수 있을 것이다. -
이 논문에서 크기의 변화에 강인한 인공물 축출 알고리듬을 제안한다. 인공물은 크기 및 카메라 센서의 특성에 따라 영상에 다양한 크기로 나타난다. 이 논문은 이러한 크기 변화에 강인한 인공물 축출 방법을 제안한다. 우선 LoG(Laplacian of Gaussian)를 이용하여 최적의 크기를 찾아낸다. 이를 이용하여 우리는 이웃한 정보를 포함할 수 있는 MAP-MRF(Maximum A Posterior-Markov Random Field) 레이블링(Labeling) 방법을 기반으로 인공물 축출을 위한 비용함수를 제안하였다. 인공물은 서로 근처에 존재하기 때문이다. 여기서 정보 비용함수(Data cost function)는 방향 히스토그램(Orientation histogram)을 이용하여 정의하였고, 스무딩 비용함수(Smoothing cost function)는 ICM(Iterated Conditional Modes)을 이용하여 정의한다. 최종적으로 이 알고리듬을 위성영상에 적용하여 알고리듬의 성능을 증명한다.
-
건강과 미용에 대한 관심은 IT 기술의 발전과 결합하여 유-헬스케어 산업의 부흥을 이끌고 있다. 특히, 향상된 디지털 영상 장비를 통한 각종 신체 정보 분석이 가능해짐에 따라 피부 자가 진단 시스템 등에 대한 연구 및 제품 출시가 활발히 이루어지고 있다. 본 논문에서는 이진 영상의 각 축에 대한 밀도 분석을 통해 특징점을 검출하는 방법을 소개하고 이를 토대로 자외선 광으로 촬영한 피부 현미경 영상에서 피지 부위를 자동 검출하는 기법을 제안하며 실험을 통하여 성능을 분석한다.
-
도시와 같은 광범위한 영역에 대한 지형, 지물의 기하 정보를 추출 또는 복원하는 기술은 공간 영상정보 시스템을 비롯한 다양한 응용분야에서 사용되고 있으며, 이러한 필요에 따라 중요성이 더욱 커지고 있다. 본 논문은 위성 영상에서 건물의 footprint와 rooftop, 그림자 정보를 이용하여 건물을 반 자동으로 모델링하고, 이를 지형에 정합하는 시스템을 제안한다. 제안하는 시스템은 사용자의 직접적인 조작과 자동으로 이루어는 부분을 조합하여, 최소한의 사용자 조작으로 건물을 모델링하고, 지형에 의한 요소를 고려하여 건물의 실제 위치를 보정하여 지형과 정합을 수행한다.
-
두 장의 2차원 영상을 가지고 3차원을 재구성하기 위해서는 스테레오 정합을 이용한다. 이러한 이유로 그 동안에 많은 스테레오 정합에 대한 연구가 진행되었다. 스테레오 정합은 컴퓨터 기술의 발전과 더불어 좀 더 빠르고 높은 정확성을 보이고 있다. 하지만 속도와 정확성을 동시에 만족시키면서 대형영상에서도 동작할 수 있게 메모리을 적게 사용하는 방법은 많지가 않다. 본 논문에서는 이런 요구 조건을 만족시키기 위하여 새로운 스테레오 정합방법을 제시한다. 우리가 제시하는 새로운 방법은 다중 방향성 Greedy 알고리즘과 RANSAC을 반복적으로 사용하여 영상전체에 대한 스테레오 정합을 시도하는 방법이다. 우선 Greedy 알고리즘을 이용하여 여러 방향의 scan-line을 따라 깊이값 영상을 구한다. 그리고 이 여러 장의 깊이값 영상들의 분포를 RANSAC을 이용하여 신뢰영역을 찾아낸다. 구해진 신뢰영역을 바탕으로 Greedy 알고리즘과 RANSAC을 수 차례 반복하여 신뢰영역을 확장해 나가면 최종 깊이값 영상을 얻는다. 우리가 제안하는 알고리즘은 적은 메모리로도 큰 영상의 정합이 가능하고, 속도와 정확도 측면에서도 우수한 결과를 보인다.
-
본 논문에서는 감성을 기반으로 텍스타일 영상을 자동으로 분류할 수 있는 시스템을 제안한다. 이 때, 사용된 감성 그룹은 고바야시의 10가지 감성 키워드 - {romantic, clear, natural, casual, elegant, chic, dynamic, classic, dandy, modern} - 를 이용한다. 제안된 시스템은 특징 추출과 분류로 구성된다. 특징 추출 단계에서는 텍스타일을 구성하는 대표 컬러를 추출하기 위해서 양자화 기법을 이용하고, 패턴정보를 표현하기 위해서는 웨이블릿 변환 후의 통계적인 정보를 이용한다. 신경망 기반의 분류기는 추출된 특징들을 입력으로 받아 입력 텍스타일 영상을 분류한다. 제안된 감성인식 방법의 효율성을 증명하기 위해서 220장의 텍스타일 영상에서 실험한 결과 제안된 방법은 99%의 정확도를 보였다. 이러한 실험 결과는 제안된 방법이 다양한 텍스타일 영상에 대해 일반화되어 사용될 수 있음을 보여주었다.
-
본 논문은 RGB 24bit 컬러 영상으로 전달되는 카메라 원영상에 대해 사람의 얼굴을 안정적으로 감지할 수 있는 알고리즘을 제시한다. RGB 입력영상을 HSI 기반의 컬러모델로 변환하여 피부 색상을 추출하고 그리드 영상을 기반으로 CCL (Connected-Component Labeling) 알고리즘을 적용하여 피부 블럽을 검출한 뒤, 아다부스트 알고리즘을 이용하여 얼굴 영역과 얼굴이 아닌 다른 피부 영역을 구분한다. 제안방법은 일반적으로 얼굴 감지를 위하여 폭넓게 사용되고 있는 아다부스트 알고리즘만을 적용하였을 때보다 얼굴감지 오류를 줄일 수 있다.
-
패턴인식 문제를 다루는 연구에서 인식 성능을 향상시키고자 베이스 에러율의 상한인 조건부 엔트로피를 응용하는 시도가 있었다. 본 논문에서는 다수의 인식기로 구성된 다수 인식기 시스템이 우수한 성능을 보이도록 인식기의 집합을 결정하는 문제에서 이러한 조건부 엔트로피의 최소화를 통하여 시도한 방법과 다른 방법들을 간단하고 분명한 예제를 통하여 비교, 분석해 보았다. 다수 인식기의 결합 방법으로 대표적인 투표 기법과 조건부 독립 가정의 베이지안 기법을 사용하였으며, 조건부 엔트로피의 최소화를 통하여 인식기의 집합을 결정하는 방법에 대한 유용성을 확인할 수 있었다.