• Title/Summary/Keyword: 텍스트 수집

Search Result 692, Processing Time 0.04 seconds

Application Development for Text Mining: KoALA (텍스트 마이닝 통합 애플리케이션 개발: KoALA)

  • Byeong-Jin Jeon;Yoon-Jin Choi;Hee-Woong Kim
    • Information Systems Review
    • /
    • v.21 no.2
    • /
    • pp.117-137
    • /
    • 2019
  • In the Big Data era, data science has become popular with the production of numerous data in various domains, and the power of data has become a competitive power. There is a growing interest in unstructured data, which accounts for more than 80% of the world's data. Along with the everyday use of social media, most of the unstructured data is in the form of text data and plays an important role in various areas such as marketing, finance, and distribution. However, text mining using social media is difficult to access and difficult to use compared to data mining using numerical data. Thus, this study aims to develop Korean Natural Language Application (KoALA) as an integrated application for easy and handy social media text mining without relying on programming language or high-level hardware or solution. KoALA is a specialized application for social media text mining. It is an integrated application that can analyze both Korean and English. KoALA handles the entire process from data collection to preprocessing, analysis and visualization. This paper describes the process of designing, implementing, and applying KoALA applications using the design science methodology. Lastly, we will discuss practical use of KoALA through a block-chain business case. Through this paper, we hope to popularize social media text mining and utilize it for practical and academic use in various domains.

Design of Gamer's Behavior Analysis System using Packet Mining (Packet Mining을 이용한 Gamer의 행위분석시스템)

  • Lee, Mi-Ran;Cho, Dong-Sub
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2467-2470
    • /
    • 2002
  • 사용자의 필요를 충족시켜 줄 수 있도록 사용자에 대한 연구가 인터넷 비즈니스에서 활발히 이루어지고 있다. 인터넷 비즈니스와 마찬가지로 컴퓨터 게임 산업 분야에서도 이러한 연구가 필요하다. 하지만 컴퓨터 게임의 특성상 기존의 인터넷 비즈니스 방식과 같은 방법으로는 게이머(Gamer)의 행동을 알기 어렵다. 이러한 문제점을 해결하고자 본 논문에서는 패킷 마이닝(Packet Mining)을 이용한 게이머의 행위 분석 시스템을 제안하고자 한다. 이 시스템은 게이머들과 시스템 사이에 전달된 패킷을 수집하여 프로토콜별 텍스트 형태로 저장하고, 일정 시간이 흐르면 텍스트 형태로 저장된 패킷을 데이터베이스로 생성한다. 게이머 행위 분석 시스템은 이렇게 생성된 데이터베이스를 분석하고, 다양한 정보를 추출해내어 게이머의 행위를 분석한다.

  • PDF

Real Time Recognition of Unknown Words based on the Analysis of Similar Words with an Extended Definition (확장 정의된 유사어절의 분석에 근거한 실시간 미등록어 인식)

  • Park, Bong-Rae;Hwang, Young-Sook;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.222-228
    • /
    • 1996
  • 기존의 미등록어 추정 방법은 대부분 단일 어절 접근 방법으로 단일 어절에서 추출할 수 있는 추정 정보가 부족하여 과분석과 오분석의 가능성이 높았다. 그래서 동일 미등록어를 가진 어절들을 동시에 분석하는 유사 어절 접근 방법이 제시되었다. 그러나 이 방법도 유사 어절의 범위를 조사나 어미만 다른 어절로 정의함으로써 수집될 수 있는 유사 어절의 수가 제한되어 대략의 텍스트에서만 적용이 가능하였다. 이에 본 논문은 유사어절을 동일 음절열을 공유하는 어절들로 확장 정의하여 작은 크기 N의 텍스트 윈도우에서 유사 어절의 발견 가능성을 높임으로써 실시간으로 미등록어를 추정할 수 있게 하는 방법을 제시한다. N을 100으로 한 실험결과는 미등록어 추정 정확도가 99.3%였고 재현율은 약 32%였다.

  • PDF

Extracting Significant Information from Social Text using Machine Learning (기계학습을 활용한 소셜 텍스트의 주요 정보 추출 기법)

  • Kim, So-Hyeon;Kim, Han-joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.742-745
    • /
    • 2016
  • 빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 데이터로부터 유용한 데이터를 추출하는 작업은 매우 중요하다. 이에 본 논문은 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한 뒤 태그의 깊이 특징을 이용하여 주요 본문을 찾는 방법을 제안한다. 직접 수집한 데이터를 이용한 실험에서 태그 분류 정확도가 0.990, 본문을 찾아낸 문서의 비율이 80.5%로 나왔다.

Developing a Model for Quality Evaluation of Text Database Contents (데이터베이스 품질 평가를 위한 모형 개발-텍스트 데이터베이스 내용을 중심으로-)

  • 장혜란
    • Journal of the Korean Society for information Management
    • /
    • v.17 no.4
    • /
    • pp.83-97
    • /
    • 2000
  • Bascd on thc ~esuhs of previous cvalnation cfforts, a database qualily evaluation model. applicable to text databases, is developed. Focusing on dalahase contents. 5 evaluation criteria consisting of 16 clanmts a e delined. For each clcmcnt, data collcctioll method along u,ilh measuing process is eslablished. h d an evalualion scales ale also provided. The concludn~g section suggests several areas for impleinenlalion and h u e development.

  • PDF

A Service of Map Information based on Android (안드로이드 기반 지도 정보 서비스)

  • Song, Myeongjin;Kim, Sangwook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.355-358
    • /
    • 2010
  • 모바일 환경이 발전하고 보편화됨에 따라 사용자의 상황정보를 인식하고 추론하여 서비스를 제공하는 상황인식 서비스에 대해 관심이 높아지고 있다. 상황인식 서비스는 사용자 및 주변 환경의 상황을 알아내고 공유하여 그에 맞는 서비스를 제공한다. 이를 위한 상황정보는 사용자의 요구와 주변 상황이 수시로 변화하는 이동통신 환경에서 중요하게 활용된다. 본 논문에서는 컨텍스트의 수집과 공유를 위해 안드로이드 기반의 컨텍스트폰 플랫폼과 컨텍스트 서버를 구현하여 사용자 상황 정보를 시각화 하고 서로 공유할 수 있게 하였다. 상황인식에 대한 연구에는 주로 위치 및 이동에 관한 연구가 많은 부분을 차지하고 있는데, 위치정보는 상황인식을 위해 반드시 필요한 정보이며 이를 통해 사용자의 현재 상황을 파악할 수 있는 중요한 정보로 활용되고 있다. 안드로이드 기반의 컨텍스트폰 플랫폼과 컨텍스트 서버, GPS를 이용하여 사용자의 위치를 추적하거나 찾아내어 실시간으로 상대방의 위치 정보와 사용자 간의 거리를 알아내어 공유하고 맵을 통해 사용자 위치를 파악하여 위치와 관련된 서비스를 제공하려 한다.

Tutorial user interface analysis in virtual reality games (가상현실 게임에서의 튜토리얼 사용자 인터페이스 분석)

  • LEE, Yuryeon;Kim, Guyeop;KIM, Hyun K.;Lee, Danbi;Kim, Gayoung;Lee, Juwan;Park, Sunyoung
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.54-56
    • /
    • 2021
  • 본 연구는 교육용 가상현실 게임 튜토리얼 인터페이스 구성 요소와 고려사항을 파악하여 튜토리얼 인터페이스를 디자인하는 것을 목적으로 한다. 현재 개발 중인 가상현실 교육용 게임 콘텐츠를 기반으로 튜토리얼이 제공되어야 하는 사용자 과업을 도출하였다. 그 후 상용화된 가상현실 게임을 직접 사용해 봄으로써 가상현실 게임 튜토리얼의 구성 요소를 파악하였다. 대부분의 가상현실 게임 튜토리얼은 텍스트 형태의 게임 방식과 컨트롤러 그림 기반의 인터페이스 설명으로 구성되어 있었다. 문헌조사를 통해 가상현실 게임에서 튜토리얼 인터페이스 설계 시 고려되어야 하는 디자인 요소를 분석하였고, 중앙으로부터 콘텐츠를 편안하게 볼 수 있는 범위는 좌우 약 -77도 ~ 77도에 위치되어야 함을 확인하였다. 또한, 텍스트, 버튼, 색상 요소에 관한 가상현실 인터페이스 디자인 원칙도 함께 수집하여 정리함으로써, 최종적으로 사용자 과업에 따른 가상현실 게임 튜토리얼 인터페이스를 디자인하였다. 본 연구는 추후 가상현실 게임 튜토리얼 인터페이스 제작 시 유용할 것으로 기대된다.

  • PDF

Text Data Mining to build a Dataset for Clothing Recommendation System (옷 추천 시스템 데이터 셋 구축을 위한 텍스트 데이터 마이닝)

  • Lee, Ju-Sang;Chung, Sun-Tae;Cha, Jun-Yup
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.393-396
    • /
    • 2020
  • 추천시스템은 대량의 정보를 이용하여 특정 사용자가 선호할만한 상품의 리스트를 추천하는 것이다. 현재 추천시스템으로 유명한 Netflix, Amazon, Youtube 등은 기업내의 상품 및 사용자 데이터를 토대로 이루어 졌으나 스타트 업 및 소규모 기업이 추천 시스템을 구축하기 위해선 기반이 될 데이터셋 자체가 없으며 데이터 수집에도 한계가 있다. 본 논문에서는 옷 추천 시스템 구축을 위해 특정 기업만이 아닌 모든 의류매장들이 사용할 수 있는 데이터 셋 구축 방법에 대해 제안하며, 고객 데이터 셋 구축을 위한 텍스트 데이터 마이닝 처리 과정과 결과에 대해 기술한다.

Regarding the illegal transaction of overseas direct purchase Monitoring service design and analysis (해외직구 물품 불법 거래에 관한 모니터링 서비스 설계와 해석)

  • Shin, Yong-Hun;Kim, Jeong-Ho;Jo, Jin-Pyo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.508-511
    • /
    • 2021
  • 관세법에서는 해외직구물품이 일정금액(미화 150불, 단 미국은 미화 200불)이하 또는 자기사용 물품으로 인정되는 경우에 제세를 면제토록 규정하고 있으며 관련규정을 어길시 관세법상 무신고 밀수입죄에 해당된다. 본 논문은 해외직구 리셀러(되팔이)가 증가하고 해당 사항이 사회적 이슈로 대두되기에 해외직구 물품 불법거래에 관한 모니터링시스템을 설계하고 해석하였다. 온라인 중고 사이트(e-commerce)에서 거래되고 있는 거래 내용을 크롤링을 통하여 데이터를 수집·전처리를 통해 구조화하고 데이터 정제, 텍스트 범주화, 텍스트 마이닝 등 관계 예측을 해석하였다.

Keyword Extraction Technique for Attractions using Online Reviews - Topic Modeling and Markov Chain (온라인 리뷰를 활용한 관광지 키워드 추출 기법 - 토픽 모델링과 Markov Chain)

  • Kim, MyeongSeon;Lee, KangWoo;Lim, JiWon;Hong, Soon-Goo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.521-523
    • /
    • 2021
  • 관광 분야에서 온라인 리뷰의 중요성이 커지고 있다. 온라인 리뷰의 텍스트 데이터는 파악이 어렵다. 이에 본 연구에서는 특정 관광지에 대한 온라인 리뷰 텍스트 데이터가 나타내는 전반적인 의견을 직관적으로 도출하는 방법에 대해 알아보고자, 토픽 모델링과 Markov Chain을 시행했다. '해운대'에 대한 온라인 리뷰를 수집한 후, LDA와 BTM을 활용하여 주제를 도출하고, Markov Chain을 시각화하여 키워드 간의 관계와 전체적인 평가 내용을 확인했다. 사용된 기법은 각자 특징적인 결과를 제시했기 때문에 다양한 기법을 상보적으로 이용하기를 제안하였다.