• 제목/요약/키워드: Data Mining Technique

검색결과 637건 처리시간 0.025초

네트워크에 기반한 MT자료의 처리기술 개발 연구 (Development of Network Based MT Data Processing System)

  • 이희순;권병두;정호준;오석훈
    • 지구물리와물리탐사
    • /
    • 제3권2호
    • /
    • pp.53-60
    • /
    • 2000
  • 본 연구에서는 급격히 증가하는 인터넷망 및 분산(distribution) 컴퓨팅 환경을 이용한 서버/클라이언트(server/client) MT자료 처리 시스템의 구축을 위한 여러 가지 기술적 사항에 대해 논의하였다. 이러한 시스템은 표준적인 처리 방식의 도입과 인증된 자료 처리 서버에서의 해석 수행을 통해 일관성과 안정성을 동시에 제공할 수 있을 것이다. 또한 인터넷망을 이용하여 현장에서의 자료해석이 가능해지므로 탐사 시간, 경비의 감소 및 추가 탐사 계획 수립에도 도움을 줄 것이다. 각종 자바 기술(pure java와 enterprised java)은 네트워크 프로그램을 손쉽게 개발할 수 있는 많은 방법들을 제공한다. 본 연구에서는 이를 이용하여 웹(web)에 의한 서버/클라이언트 모델과, 소켓(Socket) 및 원격 함수 호출(RMI: Remote Method Invocation) 에 의한 처리 기법을 MT자료의 해석에 적용하기 위한 방법에 대해 논하였다. 또한 MT자료의 특성상, 그 해석은 고성능의 컴퓨터를 이용하였을 때에도 상당한 시간을 필요로 하므로 이를 극복하기 위해 서버 프로그램에 MPI(Message Passing Interface) 병렬처리 기술을 적용하고자 한다. 이는 고가의 병렬 처리 컴퓨터를 대체할 수 있으며, 표준적인 코딩이 제시되었으므로 관리 및 유지, 보수에 있어 효율성을 제공할 것이다.

  • PDF

빅데이터 분석을 활용한 메타버스 플랫폼 연구 동향 분석 (A Study on Research Trends in Metaverse Platform Using Big Data Analysis)

  • 홍진욱;한정완
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.627-635
    • /
    • 2022
  • 본 최근 코로나19로 인해 비대면 상황이 장기간 지속화됨에 따라 사회 전반에 걸쳐 IOT, AR, VR, 빅데이터와 같은 4차 산업 혁명의 기반 기술이 메타버스 플랫폼에 전반적으로 영향을 미치고 있다. 이러한 사회, 문화 등 외부 환경의 변화는 학문의 발전에 영향을 미칠 수 있으며, 변화에 대비하여 기존 성과물을 체계적으로 정리하는 일은 매우 중요하다. 한국 교육학술정보원(RISS)에서 키워드에 '메타버스 플랫폼'을 포함하는 자료를 수집하여 빅데이터 분석 중 하나인 텍스트 마이닝 기법을 사용하였다. 수집된 데이터 자료를 워드 클라우드 빈도 분석, 키워드 간 연결강도, 구조등위성 분석을 하여 메타버스 플랫폼 연구 동향을 살펴보았다. 연구결과 워드 클라우드 분석에서는 '활용', '디지털', '기술', '교육' 순으로 키워드가 나타났다. 키워드 간 연결강도(N-gram) 분석 결과 '에듀→테크'의 연결강도가 가장 높게 나타났으며, 워드 연쇄 군집 수의 총 3개의 군집이 도출되었다. 세부 연구영역은 '디지털 기술'을 포함 다섯 영역으로 분류되었다. 종합적으로 고려했을 때 메타버스 플랫폼 분야의 학문적 연구 주제 범위는 그리 넓지 않았으며, 장기 지향적 관점에서 보다 적극적인 연구 주제의 발굴 및 논의가 필요해 보인다.

확장된 사용자 유사도를 이용한 CF-기반 건강기능식품 추천 시스템 (A CF-based Health Functional Recommender System using Extended User Similarity Measure)

  • 홍세인;정의주;김재경
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.1-17
    • /
    • 2023
  • 정보통신기술의 발전과 디지털 기기의 대중화로 인해, 온라인 시장의 규모가 커지고 있다. 그 결과 고객들은 상품을 선택하는데 많은 시간과 비용이 소요되는 정보 과부하(Information Overload) 문제에 직면하고 있다. 따라서 고객이 선호할만한 상품을 추천해 주는 추천 시스템은 필수적인 도구가 되었으며 협업 필터링(Collaborative Filtering) 기법은 가장 널리 쓰이는 추천 방법이다. 전통적인 추천 시스템은 평점과 같은 정량적인 데이터만을 사용하기 때문에 추천의 정확도는 높지 않다. 이와 같은 문제를 해결하기 위해 요즘에는 사용자 리뷰와 같은 정성적 데이터를 반영하는 연구가 활발히 진행되고 있다. 협업 필터링의 일반적인 절차는 사용자-상품 행렬 생성, 이웃 집단 탐색, 추천 목록 생성 3단계로 구성되며 코사인 같은 사용자 유사도를 사용하여 목표 고객의 이웃을 탐색하며, 추천 상품 목록을 생성한다. 본 연구에서는 이웃 집단 탐색 및 추천 목록 생성 단계에서 사용하는 사용자 간의 유사도를 기존의 사용자 평점을 이용한 유사도에 고객의 리뷰 데이터를 사용하는 확장된 사용자 유사도를 제시한다. 리뷰를 정량화 하기 위해 본 연구에서는 텍스트 마이닝을 활용한다. 즉, 리뷰 데이터에 TF-IDF, Word2Vec, 그리고 Doc2Vec 기법을 사용하여 두 사용자 간의 리뷰 유사도를 구한 후 사용자 평점을 사용한 유사도와 리뷰 유사도를 결합한 확장된 유사도를 생성하는 것이다. 이를 검증하기 위해 전자상거래 사이트인 Amazon의 'Health and Personal Care'의 사용자 평점과 리뷰 데이터를 사용하였다. 실험 결과, 사용자 간 유사도를 산출할 때 기존의 평점에 기반한 유사도만을 사용하는 것보다, 사용자 리뷰의 유사도를 추가로 반영한 확장된 유사도를 사용하면 추천의 정확도가 높아진다는 것을 확인했다. 또한, 여러 텍스트 마이닝 기법 중에서 TF-IDF 기법을 사용한 확장된 유사도를 이웃 집단 탐색 및 추천 목록 생성단계에서 사용할 때의 성능이 가장 좋게 나타났다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

신용카드 불법현금융통 적발을 위한 축소된 앙상블 모형 (Illegal Cash Accommodation Detection Modeling Using Ensemble Size Reduction)

  • 이화경;한상범;지원철
    • 지능정보연구
    • /
    • 제16권1호
    • /
    • pp.93-116
    • /
    • 2010
  • 불법현금융통 적발모형 개발에 앙상블 접근방법을 사용하였다. 불법현금융통은 국내 신용카드사의 손익에 영향을 미치며 최근 국제화되고 있음에도 불구하고 학문적인 접근이 이루어지지 않았다. 부정행위 적발모형(Fraud Detection Model, FDM)은 데이터 불균형 문제로 인하여 좋은 성능을 얻기 어려운데, 다수의 모형을 결합하는 앙상블이 대안으로 제시되어 왔다. 앙상블에 포함된 모형들의 다양성이 보장된다면 단일모형에 비해 더 좋은 성능을 보인다는 점은 이미 인정되고 있으며, 최근 연구 결과는 학습된 모든 기본모형들을 사용하는 것보다 적절한 기본모형들만 선택하여 앙상블에 포함시키는 것이 바람직하다는 것이다. 본 논문에서는 효과적인 불법현금융통 적발을 위하여 축소된 앙상블 기법을 사용하는데, 정확성과 다양성 척도를 사용하여 앙상블에 참여할 기본모형을 선택하는 것이다. 다양성은 앙상블을 구성하는 기본모형들 사이의 불일치 (Disagreement or Ambiguity)를 의미하는데, FDM에 내재된 데이터 불균형문제를 고려하여 두 가지 측면에 중점을 두었다. 첫째, 학습 자료의 추출 과정에서 다양성을 확보하기 위한 소수 범주의 과잉추출 방법과 적절한 훈련 방법에 대해 설명하였다. 둘째, 소수범주에 초점을 맞추어 기존의 다양성 척도를 효과적인 척도로 변형시키고, 전진추가법과 후진소거법의 동적 다양성 계산법을 도입하여 앙상블에 참여할 기본모형을 평가하였다. 실험에 사용된 학습 알고리즘은 신경망, 의사결정수와 로짓 회귀분석이었으며, 동질적 앙상블과 이질적 앙상블을 구성하여 성능평가를 하였다. 실험결과 불법현금융통 적발모형에 있어 축소된 앙상블은 모든 기본모형이 포함된 앙상블과 성능 차이가 없었다. 축소된 앙상블은 앙상블 구성의 복잡성을 감소시키고 구현을 용이하게 한다는 점에서 FDM에서도 유력한 모형 수립 접근방법이 될 수 있음을 보였다.

인공신경망 기반 온실 외부 온도 예측을 통한 난방부하 추정 (Outside Temperature Prediction Based on Artificial Neural Network for Estimating the Heating Load in Greenhouse)

  • 김상엽;박경섭;류근호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권4호
    • /
    • pp.129-134
    • /
    • 2018
  • 최근, 인공신경망 모델은 예측, 수치제어, 로봇제어, 패턴인식 등의 분야에서 촉망되는 기술이다. 본 연구에서는 인공신경망 모델을 이용하여 온실 외부 온도를 예측하고 이를 온실제어에 활용하는데 목적이 있다. 예측 모델의 성능 평가를 위해 다중회귀모델과 SVM 모델과의 비교분석을 수행하였다. 평가 방법으로는 10-Fold Cross Validation을 사용하였으며, 예측 성능 향상을 위해 상관관계분석 통해 데이터 축소를 수행하였고, 측정 데이터로부터 새로운 Factor 추출하여 데이터의 신뢰성을 확보하였다. 인공신경망 구축을 위해 Backpropagation algorithm을 사용하였으며, 다중회귀모델은 M5 method로 구축하였고, SVM 모델을 epsilon-SVM으로 구축하였다. 각 모델의 비교분석 결과 각각 0.9256, 1.8503과 7.5521로 나타났다. 또한 예측모델을 온실 난방부하 계산에 적용함으로써 온실에 사용되는 에너지 비용 절감을 통한 수입증대에 기여할 수 있다. 실험한 온실의 난방부하는 3326.4kcal/h이며, 총 난방시간이 $10000^{\circ}C/h$일 때 연료소비량은 453.8L로 예측된다. 아울러 데이터 마이닝 기술 중 하나인 인공신경망을 정밀온실제어, 재배기법, 수확예측 등 다양한 농업 분야에 적용함으로써 스마트 농업으로의 발전에 기여할 수 있다.

시뮬레이션을 이용한 외래프로세스 개선방안에 관한 연구 (A Study on the Improvement of Outpatient Process Using Simulation)

  • 최현숙;지은희;강성홍
    • 디지털융복합연구
    • /
    • 제12권8호
    • /
    • pp.377-387
    • /
    • 2014
  • 본 연구는 시뮬레이션을 이용하여 외래프로세스를 개선하여 기관 운영의 효율성을 높이고자 수행되었다. 3가지의 시나리오를 설정하여 시뮬레이션 분석을 수행하였으며 외래환자 전체 체류시간, 대기시간, 이동시간, 진료시간, 직원 활용도 지표를 비교하여 시나리오에 따른 외래프로세스의 효율성을 평가하였다. 병원의 진료자료를 수집하여 통계도구와 프로세스 마이닝 도구를 이용하여 분석하였다. 그리고 시뮬레이션 툴인 PIOS를 이용하여 모형의 타당성은 t-test로 검증하였다. 시뮬레이션 분석 결과, 센터제로 운영하는 경우의 외래프로세스가 가장 효율성이 높은 것으로 나타났다. 이를 볼 때 외래환자에 대해서는 센터제 형태로 운영되는 것이 기관의 효율성을 높이는 방안이라는 것을 확인할 수 있었다. 본 연구를 통하여 시뮬레이션이 최적의 외래프로세스를 선정하는데 활용될 수 있는 방법이라는 것을 확인할 수 있었다. 시뮬레이션을 이용하면 과거 경험, 감정, 직관에 의존하는 기존의 보건의료 관리 기법에 비해 효율적인 의사 결정을 지원하는 방법이라는 것을 알 수 있다. 따라서 본 연구에서 제시한 연구 모델은 보건 의료 시스템 상에 다양한 활용이 가능할 것으로 보인다.

동해 한국대륙주변부 정동진 연안 지층의 지음향 모델 (Geoacoustic Model of Coastal Bottom Strata at Jeongdongjin in the Korean Continental Margin of the East Sea)

  • 양우헌;김성필;김대철;한주영
    • 한국지구과학회지
    • /
    • 제37권4호
    • /
    • pp.200-210
    • /
    • 2016
  • 지음향 모델링은 퇴적층과 기반암의 해저 지층을 통해 전파되는 음파 특성을 예측하기 위해 사용된다. 이 연구는 동해 한국대륙주변부의 정동진 해역에서 50 m 퇴적층 심도의 4개 지음향 모델을 구성하였다. 지층 모델은 고해상 에어건 탄성파 자료, SBP 자료, 퇴적물 코어에 근거한다. P파 속도는 신호투과법에 의해 측정되었고, 압전기 트랜스듀서의 공진 중심 주파수는 1 MHz를 유지하였다. 42개 P파 속도와 41개 음감쇠 측정이 세 개 코어 퇴적물에서 수행되었다. 실제 모델링을 위해, 모델의 P파 속도는 Hamilton 방법을 이용하여 해저면 아래 현장 심도 속도로 보정하였다. 연안 지층의 이 지음향 모델은 동해 정동진 해역에서 지음향 특성의 수직/수평 변화를 반영하는 지음향/수중음향 실험을 위해 활용될 것이다.

사물인터넷(IoT)발전을 위한 소스프로그램 보호방안 연구: 프로그램의 보호와 유사표절 연구 (A Study of protective measures of the source program for the development of the Internet of Things (IoT): Protection of the program as well as plagiarism research)

  • 이종식
    • 한국융합학회논문지
    • /
    • 제9권4호
    • /
    • pp.31-45
    • /
    • 2018
  • 최근 인터넷 기술이 급격히 발전하면서 컴퓨터 관련 기술이 함께 발달하면서 컴퓨터와 스마트 디바이스를 둘러싼 소프트웨어 분쟁이 심화 되고 있고 또한 각국의 정책적으로 소프트웨어 개발에 소리 없는 전쟁이 진행되고 있는 상태이다. 특히 최근 빅데이터와 사물인터넷 IoT (Internet of Things) 인터넷 기반의 관련 산업이 급격히 발전하고 있으며 여기에 사용된 java 와 C 언어,xcode의 오픈소스 기반의 소스프로그램을 만들고 개발하기 위하여 수많은 시간을 투자하여 개발이 이루어지고 있다. 기본적으로 소프트웨어의 침해를 방지하고자 보안 방법이 존재 하지만 생각보다 쉽게 복제되는 것이 현실이다. 이런 상황일수록 소스프로그램의 라이센스에 대한 원천 권리자의 권리보호 매우 중요한 사항이다. 물론 제작자의 원천기술을 당연히 보호되어야 함이 마땅하나 너무 지나친 보호는 프로그램으로 인한 산업발전과 문화발전에 저해 될 수 있는 소지가 존재한다. 따라서 본 연구는 IoT 응용프로그램에 대한 유사표절을 데이터 마이닝 기법으로 연구하였으며 이는 프로그램 복제로 인한 창작자의 프로그램을 보호하고 나아가 프로그램으로 인한 개인정보유출과 침해에 대한 방안을 제안하였다.

Semi Automatic Ontology Generation about XML Documents

  • Gu Mi Sug;Hwang Jeong Hee;Ryu Keun Ho;Jung Doo Yeong;Lee Keum Woo
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2004년도 Proceedings of ISRS 2004
    • /
    • pp.730-733
    • /
    • 2004
  • Recently XML (eXtensible Markup Language) is becoming the standard for exchanging the documents on the web. And as the amount of information is increasing because of the development of the technique in the Internet, semantic web is becoming to appear for more exact result of information retrieval than the existing one on the web. Ontology which is the basis of the semantic web provides the basic knowledge system to express a particular knowledge. So it can show the exact result of the information retrieval. Ontology defines the particular concepts and the relationships between the concepts about specific domain and it has the hierarchy similar to the taxonomy. In this paper, we propose the generation of semi-automatic ontology based on XML documents that are interesting to many researchers as the means of knowledge expression. To construct the ontology in a particular domain, we suggest the algorithm to determine the domain. So we determined that the domain of ontology is to extract the information of movie on the web. And we used the generalized association rules, one of data mining methods, to generate the ontology, using the tag and contents of XML documents. And XTM (XML Topic Maps), ISO Standard, is used to construct the ontology as an ontology language. The advantage of this method is that because we construct the ontology based on the terms frequently used documents related in the domain, it is useful to query and retrieve the related domain.

  • PDF