• Title/Summary/Keyword: 텍스트 수집

Search Result 704, Processing Time 0.029 seconds

Design of Twitter data collection system for regional sentiment analysis (지역별 감성 분석을 위한 트위터 데이터 수집 시스템 설계)

  • Choi, Kiwon;Kim, Hee-Cheol
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.506-509
    • /
    • 2017
  • Opinion mining is a way to analyze the emotions in the text and is used to identify the emotional state of the author and to find out the opinions of the public. As you can analyze individual emotions through opinion mining, if you analyze the text by region, you can find out the emotional state you have in each region. The regional sentiment analysis can obtain information that could not be obtained from personal sentiment analysis, and if a certain area has emotions, it can understand the cause. For regional sentiment analysis, we need text data created by region, so we need to collect data through Twitter crawling. Therefore, this paper designs a Twitter data collection system for regional sentiment analysis. The client requests the tweet data of the specific region and time, and the server collects and transmits the requested tweet data from the client. Through the latitude and longitude values of the region, it collects the tweet data of the area, and it can manage the text by region and time through collected data. We expect efficient data collection and management for emotional analysis through the design of this system.

  • PDF

Development of ChatGPT-based Medical Text Augmentation Tool for Synthetic Text Generation (합성 텍스트 생성을 위한 ChatGPT 기반 의료 텍스트 증강 도구 개발)

  • Jin-Woo Kong;Gi-Youn Kim;Yu-Seop Kim;Byoung-Doo Oh
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.3-4
    • /
    • 2023
  • 자연어처리는 수많은 정보가 수집된 전자의무기록의 비정형 데이터에서 유의미한 정보나 패턴 등을 추출해 의료진의 의사결정을 지원하고, 환자에게 더 나은 진단이나 치료 등을 지원할 수 있어 큰 잠재력을 가지고 있다. 그러나 전자의무기록은 개인정보와 같은 민감한 정보가 다수 포함되어 있어 접근하기 어렵고, 이로 인해 충분한 양의 데이터를 확보하기 어렵다. 따라서 본 논문에서는 신뢰할 수 있는 의료 합성 텍스트를 생성하기 위해 ChatGPT 기반 의료 텍스트 증강 도구를 개발하였다. 이는 사용자가 입력한 실제 의료 텍스트로 의료 합성 데이터를 생성한다. 이를 위해, 적합한 프롬프트와 의료 텍스트에 대한 전처리 방법을 탐색하였다. ChatGPT 기반 의료 텍스트 증강 도구는 입력 텍스트의 핵심 키워드를 잘 유지하였고, 사실에 기반한 의료 합성 텍스트를 생성할 수 있다는 것을 확인할 수 있었다.

  • PDF

A Study on Automatic Data Tagging for Text-based Training Data Construction (텍스트 기반의 훈련 데이터 구축을 위한 자동 데이터 태깅 작업에 대한 연구)

  • Kim, NaYun;So, Hyeryung;Park, Joonho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.1008-1009
    • /
    • 2020
  • 텍스트 기반의 훈련 데이터는 데이터를 수집한 이후에 각 문자별로 태깅 작업이 필요하다. 말뭉치(Corpus)는 언어학에서 주로 이루고 있는 텍스트 집합이다. 말뭉치는 각 단어의 품사 표기에 대한 정보가 태그 형태로 되어 있다. 본 연구에서는 한국어 기반의 태깅 작업을 연구했으며, 기본 한국어 말뭉치가 아닌 기업이나 연구 기관에서 데이터를 수집하여 말뭉치나 별도 학습 데이터를 구축하기 위한 자동 태깅 방법에 대해 알아본다.

Analysis of Text Mining of Consumer's Personality Implication Words in Review of Used Transaction Application (중고거래 어플리케이션 <당근마켓> 리뷰텍스트에 나타난 소비자의 인성 함축단어 텍스트마이닝 분석)

  • Jung, Yea-Rin;Ju, Young-Ae
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.11
    • /
    • pp.1-10
    • /
    • 2021
  • This study analyzes the use and meaning of consumer personality implication words in the review text of the Used Transaction Application . From of May 2021, the data were collected for the past six months by our Web crawler in Seoul and Gyeonggi Province, and a total of 1368 cases were collected first by random sampling, and finally 570 cases were preprocessed. The results are as follows. First, 48.2% of review texts were related to the personality of consumers even though it was a commercial platform of products. Second, the review text is mainly positive, which formed a text network structure based on the keyword 'gratitude'. Third, the review text, which implies consumer character, was divided into two groups: 'extrovert personality' and 'introvert personality' of consumers. And the individuality of the two groups worked together on the platform. In conclusion, we would like to suggest that consumer personality plays an important role in the platform transaction process, that consumer personality will play a role in the services of the platform in the future, and that consumer personality should be studied from various perspectives.

Some considerations for construction of spontaneous speech/text corpus (자유발화음성 및 텍스트코퍼스 구축에 관한 검토)

  • 이용주
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.303-309
    • /
    • 1994
  • 최근의 음성연구의 관신은 낭독음성에서 자유발화음성으로 옮겨가고 있다. 본고에서는 자유발화음성을 대상으로한 음성번역 및 대화시스템의 연구동향과 함께 자유발화의 음성 및 텍스트코퍼스 구축을 위한 몇몇 사항들을 살펴보고, 필자들이 현재 수집중인 코퍼스의 예를 소개한다.

  • PDF

A Content based Web Image Retrieval System using MPEG-7 Visual Descriptors and Textual Information (MPEG-7 시각 정보 기술자와 텍스트 정보를 이용한 내용 기반 웹 이미지 검색 시스템)

  • Park Joo-Hyoun;Nang Jong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.232-234
    • /
    • 2006
  • 인터넷 기술의 발달과 디지털 카메라와 같은 디지털 미디어 생산 장비의 발달로 WWW에 이미지 데이터의 양이 급격하게 늘어나면서 웹 이미지에 대한 효율적인 검색에 대한 요구가 증가하고 있다. 본 논문에서는 사용자의 다양한 검색 요구를 만족시킬 수 있도록 기존의 텍스트 기반의 검색과 시각 정보 기반의 검색을 병합하여 수행할 수 있는 웹 이미지 검색 시스템을 설계하고 구현한다. 제안한 웹 이미지 검색 시스템은 웹 이미지 수집 및 검색정보 추출 도구. 검색 서버. 그리고 검색 클라이언트로 구성된다. 웹 이미지 수집 및 검색 정보 추출 도구는 웹에서 이미지를 수집하여 이미지가 속해있는 웹 문서 구조를 이용하여 적절한 키워드를 선택하며 시각 정보 기반의 검색을 지원하기 위해 MPEG-7 시각 정보 기술자(1)를 추출한다. 빠른 검색을 위해 추출된 텍스트 정보는 상용 데이터베이스에 저장되며 MPEG-7 시각 정보 기술자는 고차원 데이터 색인 방법인 HBI (Hierarchical Bitmap Index)(2)를 사용하여 색인 정보를 만들어 사용한다. 검색 클라이언트는 사용자가 각 검색 요소에 가중치를 부여하여 검색 할 수 있도록 하며 원하는 검색 결과를 얻을 때까지 반복하여 검색할 수 있는 연관 피드백 과정도 포함한다.

  • PDF

Analysis of Signboard Characteristics and Dictionary Construction for Text Recognition in Signboard Images (간판영상의 텍스트 인식을 위한 영상데이터 특성 분석 및 사전 구축)

  • Lee, Myung-Hun;Yang, Hyung-Jeong;Kim, Soo-Hyung;Lee, Guee-Sang;Oh, Sang-Wook;Kim, Sun-Hee
    • The Journal of the Korea Contents Association
    • /
    • v.8 no.11
    • /
    • pp.10-17
    • /
    • 2008
  • The sign recognition and translation offer information and support decision making for foreigners or city tourist. Collecting sign images and building words in signs are essential to train machine recognizers and to evaluate systems. In this paper, we analyze the characteristics of sign images. The collected sign images are about 1000 captured from difference conditions and locations. We also build a dictionary of words in 100,000 sign names.

An Analysis of Flood Vulnerability by Administrative Region through Big Data Analysis (빅데이터 분석을 통한 행정구역별 홍수 취약성 분석)

  • Yu, Yeong UK;Seong, Yeon Jeong;Park, Tae Gyeong;Jung, Young Hun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.193-193
    • /
    • 2021
  • 전 세계적으로 기후변화가 지속되면서 그에 따른 자연재난의 강도와 발생 빈도가 증가하고 있다. 자연재난의 발생 유형 중 집중호우와 태풍으로 인한 수문학적 재난이 대부분을 차지하고 있으며, 홍수피해는 지역적 수문학적 특성에 따라 피해의 규모와 범위가 달라지는 경향을 보인다. 이러한 이질적인 피해를 관리하기 위해서는 많은 홍수피해 정보를 수집하는 것이 필연적이다. 정보화 시대인 요즘 방대한 양의 데이터가 발생하면서 '빅데이터', '머신러닝', '인공지능'과 같은 말들이 다양한 분야에서 주목을 받고 있다. 홍수피해 정보에 대해서도 과거 국가에서 발간하는 정보외에 인터넷에는 뉴스기사나 SNS 등 미디어를 통하여 수많은 정보들이 생성되고 있다. 이러한 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원이 될 것이며, 홍수대비책으로 활용될 소중한 정보가 될 수 있다. 본 연구는 인터넷기반으로 한 홍수피해 현상 조사를 통해 홍수피해 규모에 따라 발생하는 홍수피해 현상을 파악하고자 하였다. 이를 위해 과거에 발생한 홍수피해 사례를 조사하여 강우량, 홍수피해 현상 등 홍수피해 관련 정보를 조사하였다. 홍수피해 현상은 뉴스기사나 보고서 등 미디어 정보를 활용하여 수집하였으며, 수집된 비정형 형태의 텍스트 데이터를 '텍스트 마이닝(Text Mining)' 기법을 이용하여 데이터를 정형화 및 주요 홍수피해 현상 키워드를 추출하여 데이터를 수치화하여 표현하였다.

  • PDF

A Context-aware Platform based on Android (안드로이드 기반 상황 인지 플랫폼)

  • Kim, Baul;Kim, Kyungdeok;Kim, Sangwook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.222-225
    • /
    • 2010
  • 휴대전화는 다양한 기술들이 융합되고 유비쿼터스 환경과 결합되면서 진화하고 있다. 이런 모바일 환경으로 인해 사용자의 상황을 인식하는 상황인식 기반 서비스들의 수요가 증가하고 있으며 사용자들은 그 상황을 실시간으로 공유하고 보기를 원한다. 따라서 본 연구에서는 모바일 사용자의 주변 상황을 인지하고 그 상황 정보를 공유할 수 있는 컨텍스트폰 플랫폼을 제안한다. 제안하는 플랫폼은 안드로이드 플랫폼을 기반으로 하여 사용자의 주변 상황을 실시간으로 수집하며 사용자간 자동 상황 공유 메커니즘을 지원한다. 또한 사용자 연락처의 상황 수집과 컨텍스트폰 플랫폼간 논리적인 연결을 위해 컨텍스트 서버를 구축하였으며 서버는 사용자간 동시다발적으로 발생하는 상황정보를 저장하고 사용자간 상황 정보를 전달해 준다. 또한 플랫폼이 수집하는 상황정보를 시각적으로 표현하기 위해서 컨텍스트 뷰어 어플리케이션을 구현하였으며 모바일 스크린에 시각화하였다.

A Study on Tools for Agent System Development (안드로이드 기반의 소설을 읽기 위한 실용적인 Text Viewer Application 개발)

  • Lee, Myung-Suk;Park, Sun-Uk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.302-305
    • /
    • 2014
  • 본 연구는 기존의 텍스트뷰의 리뷰들을 수집하여 불편한 점을 해결하고 최적화된 기능을 적용하여 텍스트뷰 앱을 개발하였다. 텍스튜뷰에 있는 광고는 텍스트의 내용보다 광고에 시선이 자주 가므로 소설을 읽는데 집중하기 어려운 불편한 점과 광고 때문에 로딩시간이 느려지는 점을 개선하여 광고를 없애 내용에 집중되도록 하였으며, 스레드를 사용하여 3페이지 분량의 텍스트가 미리 로딩이 되어 우선 화면에 띄어주어 출력을 빠르게 하였다. 또한 페이지를 넘길 때 터치나 스크롤에 의해 페이지를 넘기는 형식의 불편한 점은 슬라이드 방식으로 처리하여 기존의 책장을 넘길때와 같은 느낌의 UX를 적용하였다. 텍스트를 단어단위로 줄바꿈 처리를 하면 지저분한 느낌을 주므로 문자 단위의 줄바꿈을 적용하여 깔끔한 줄바꿈 처리로 구현하여 불편한 점들을 해결하고 최적화 앱을 구현 하였다.