• 제목/요약/키워드: Web Text Analysis

검색결과 279건 처리시간 0.027초

Color Recommendation for Text Based on Colors Associated with Words

  • Liba, Saki;Nakamura, Tetsuaki;Sakamoto, Maki
    • 한국산업정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.21-29
    • /
    • 2012
  • In this paper, we propose a new method to select colors representing the meaning of text contents based on the cognitive relation between words and colors, Our method is designed on the previous study revealing the existence of crucial words to estimate the colors associated with the meaning of text contents, Using the associative probability of each color with a given word and the strength of color association of the word, we estimate the probability of colors associated with a given text. The goal of this study is to propose a system to recommend the cognitively plausible colors for the meaning of the input text. To build a versatile and efficient database used by our system, two psychological experiments were conducted by using news site articles. In experiment 1, we collected 498 words which were chosen by the participants as having the strong association with color. Subsequently, we investigated which color was associated with each word in experiment 2. In addition to those data, we employed the estimated values of the strength of color association and the colors associated with the words included in a very large corpus of newspapers (approximately 130,000 words) based on the similarity between the words obtained by Latent Semantic Analysis (LSA). Therefore our method allows us to select colors for a large variety of words or sentences. Finally, we verified that our system cognitively succeeded in proposing the colors associated with the meaning of the input text, comparing the correct colors answered by participants with the estimated colors by our method. Our system is expected to be of use in various types of situations such as the data visualization, the information retrieval, the art or web pages design, and so on.

빅데이터 분석을 이용한 패션 플랫폼과 패션 스마트 팩토리에 대한 인식 연구 (A Study on the Perception of Fashion Platforms and Fashion Smart Factories using Big Data Analysis)

  • 송은영
    • 한국의류산업학회지
    • /
    • 제23권6호
    • /
    • pp.799-809
    • /
    • 2021
  • This study aimed to grasp the perceptions and trends in fashion platforms and fashion smart factories using big data analysis. As a research method, big data analysis, fashion platform, and smart factory were identified through literature and prior studies, and text mining analysis and network analysis were performed after collecting text from the web environment between April 2019 and April 2021. After data purification with Textom, the words of fashion platform (1,0591 pieces) and fashion smart factory (9750 pieces) were used for analysis. Key words were derived, the frequency of appearance was calculated, and the results were visualized in word cloud and N-gram. The top 70 words by frequency of appearance were used to generate a matrix, structural equivalence analysis was performed, and the results were displayed using network visualization and dendrograms. The collected data revealed that smart factory had high social issues, but consumer interest and academic research were insufficient, and the amount and frequency of related words on the fashion platform were both high. As a result of structural equalization analysis, it was found that fashion platforms with strong connectivity between clusters are creating new competitiveness with service platforms that add sharing, manufacturing, and curation functions, and fashion smart factories can expect future value to grow together, according to digital technology innovation and platforms. This study can serve as a foundation for future research topics related to fashion platforms and smart factories.

A Study of Comparison between Cruise Tours in China and U.S.A through Big Data Analytics

  • Shuting, Tao;Kim, Hak-Seon
    • 한국조리학회지
    • /
    • 제23권6호
    • /
    • pp.1-11
    • /
    • 2017
  • The purpose of this study was to compare the cruise tours between China and U.S.A. through the semantic network analysis of big data by collecting online data with SCTM (Smart crawling & Text mining), a data collecting and processing program. The data analysis period was from January $1^{st}$, 2015 to August $15^{th}$, 2017, meanwhile, "cruise tour, china", "cruise tour, usa" were conducted to be as keywords to collet related data and packaged Netdraw along with UCINET 6.0 were utilized for data analysis. Currently, Chinese cruisers concern on the cruising destinations while American cruisers pay more attention on the onboard experience and cruising expenditure. After performing CONCOR (convergence of iterated correlation) analysis, for Chinese cruise tour, there were three clusters created with domestic destinations, international destinations and hospitality tourism. As for American cruise tour, four groups have been segmented with cruise expenditure, onboard experience, cruise brand and destinations. Since the cruise tourism of America was greatly developed, this study also was supposed to provide significant and social network-oriented suggestions for Chinese cruise tourism.

빅데이터 기반의 정성 정보를 활용한 부도 예측 모형 구축 (Bankruptcy Prediction Modeling Using Qualitative Information Based on Big Data Analytics)

  • 조남옥;신경식
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.33-56
    • /
    • 2016
  • 대부분의 부도 예측에 관한 연구는 재무 변수를 중심으로 통계적 방법 또는 인공지능 기법을 적용하여 부도 예측 모형을 구축하였다. 그러나 재무비율과 같은 회계 정보를 이용한 부도 예측 모형은 재무 제표 결산 시점과 신용평가 시점 간 시차를 고려하지 않을 뿐만 아니라 해당 산업의 경제적 상황과 같은 외부 환경적인 요소를 반영하기 어렵다는 한계점이 존재하였다. 기업의 부도 여부를 예측하기 위해 정량 정보인 재무 변수만을 이용하는 것에 한계가 있음에도 불구하고 정성 정보를 부도 예측 모형에 반영한 연구는 아직 미흡한 실정이다. 본 연구에서는 재무 변수를 이용하는 기존 부도 예측 모형의 성과를 개선하기 위해 빅데이터 기반의 정성 정보를 추가적인 입력 변수로 활용하는 부도 예측 모형을 제안하였다. 제안 모형의 성과 향상은 정성 정보를 예측 모형에 통합시키기에 적합한 형태로 정보의 유형을 변환시킬 수 있는가에 따라 달려있다. 이에 본 연구에서는 정성 정보 처리를 위한 방법으로 빅데이터 분석 기법 중 하나인 텍스트 마이닝(Text Mining)을 활용하였다. 해당 산업과 관련된 경제 뉴스 데이터로부터 경제 상황에 대한 감성 정보를 추출하기 위해 도메인 중심의 감성 어휘 사전을 구축하고, 구축된 어휘 사전을 기반으로 감성 분석(Sentiment Analysis)을 수행하였다. 형태소 분석 등을 포함한 텍스트 전처리 과정을 거쳐 감성 어휘를 추출하고, 각 어휘에 대한 극성 및 감성 점수를 부여하였다. 분석 결과, 전통적 부도 예측 모형에 경제 뉴스 데이터에서 도출한 정성 정보를 반영하는 것은 모형의 성과를 개선하는 것으로 나타났다. 특히, 경제 상황에 대한 부정적 감정이 기업의 부도 여부를 예측하는 데 더욱 효과적임을 알 수 있었다.

공통기술표현포맷에 기반한 다매체자료의 검색효율 향상에 관한 연구 (A Study on the Improvement of Retrieval Efficiency Based on the CRFMD)

  • 박일종;정기태
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.5-21
    • /
    • 2006
  • 최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

디지털텍스트의 시각적 변형에 관한 연구 동향 및 실태 분석 (Current Research Trends and Present Conditions on Visual Transformation of Digital Text)

  • 진성희
    • 한국콘텐츠학회논문지
    • /
    • 제10권1호
    • /
    • pp.486-497
    • /
    • 2010
  • 연구의 목적은 디지털텍스트의 시각적 변형에 관한 연구 동향을 탐색하고 현재 학습 자료로 사용되고 있는 디지털텍스트의 시각적 변형 실태를 분석하는 것이다. 종합적 메타분석법에 따라 시각적 변형에 관한 선행연구들을 종합적으로 고찰하여 분석함으로써 디지털텍스트의 시각적 변형에 관한 연구 동향을 정리하였다. 총 167편의 선행문헌을 분석한 결과 기능주의적 시각적 변형, 역동적 시각적 변형, 상호작용적 시각적 변형 관련 연구로 구분할 수 있었고 각 연구주제별 문헌유형과 연구방법이 분석되었다. 그리고 사례분석법에 의해 디지털텍스트의 시각적 변형 실태가 분석되었다. 우수한 학습 자료로 판단할 수 있는 콘텐츠 12개를 선정하여 연구 동향 결과를 근거로 하여 마련한 분석틀에 따라 각 항목별로 조사하였다. 그 결과 드러난 문제점으로는 첫째, 타이포그래피 관련 기본적인 설계 원칙들이 충실히 반영되지 않은 경우들이 있었다. 둘째, 텍스트의 이해를 증진시킬 수 있는 시각적 설계에 대한 깊은 고려 없이 학습단계별로 내용을 전달하는데 초점을 두고 있었다. 셋째, 웹 테크놀로지가 충분히 활용되지 못하고 있었다.

국내 사이버대학 콘텐츠의 웹 접근성 평가 (Web Accessibility Evaluation of Cyber Universities' Contents in Korea)

  • 이병수;이지선
    • 한국콘텐츠학회논문지
    • /
    • 제7권4호
    • /
    • pp.224-233
    • /
    • 2007
  • 본 연구는 최근 급격하게 증가되고 있는 사이버대학의 원격 교육이 웹 접근성 준수 기준에 근거하여 서비스를 제공하고 있는지 측정 및 분석하고, 정보격차의 해소를 위한 방향을 제시하는데 목적을 두었다. 연구 방법으로는 정부인가 사이버대학 10곳을 선정하고, 기술적으로 평가가 가능한 요소를 중심으로 웹 접근성 평가 분석 도구인 'A-Prompt'를 사용하여 웹 접근성 적용 상태를 분석하였다. 또한 2006년 수행 하였던 '사이버대학의 원격 교육 웹 접근성 측정 결과'와 비교하여 '웹 콘텐츠 접근성 지침(KWCAG)1.0'에 따른 접근성 향상 여부도 함께 확인하였다. 이 결과 대체 텍스트의 사용, 보조 설명 도구 지원 등의 항목이 많이 개선된 것으로 측정되었으나, 아직 국내 사이버대학에서 제공하고 있는 웹 콘텐츠를 모든 사람들이 이용하는데 문제점이 있는 것으로 분석되었다. 따라서 이와 같은 문제의 해결 및 원격교육의 대중화를 위해 교육용 콘텐츠의 접근성 적용이 반드시 고려되어야 한다.

불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구 (A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus)

  • 이원조
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.935-940
    • /
    • 2023
  • 인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 "사용자 정의 불용어 시소러스" 적용에 대한 방법론을 제안하고 R의 워드클라우드 기법으로 기존의 "불용어 딕셔너리" 방법의 문제점을 보완하기 위해 제안된 "사용자 정의 불용어 시소러스" 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.

웹 환경에서의 평균 대기 시간 및 평균 반환 시간의 분석 (Analysis of Average Waiting Time and Average Turnaround Time in Web Environment)

  • 이용진
    • 정보처리학회논문지C
    • /
    • 제9C권6호
    • /
    • pp.865-874
    • /
    • 2002
  • HTTP(HyperText Transfer Protocol)는 월드 와이드 웹 분산 시스템이 객체를 인출하기 위해 사용하는 전송 프로토콜이다. HTTP는 연결 지향 프로토콜이므로 트랜스포트계층에서 TCP(Transmission control Protocol)를 사용한다. 그러나 HTTP는 TCP와의 상호운용이 좋은 편이 아닌 것으로 알려져 있다. 본 연구에서는 TCP의 성능에 영향을 주는 요인들을 살펴보고, HTTP 접근을 위해 TCP의 slow-start 오버헤드 및 연결에 소요되는 트랜잭션 시간과 TCP의 성능 향상 대안중의 하나인 T-TCP(Transaction TCP)의 트랜잭션 시간을 검토한다. 평균 대기 시간과 평균 반환 시간은 사용자의 서비스 품질을 만족시키기 위한 중요한 파라메터들이다. TCP와 T-TCP 트랜잭션 시간이 주어지는 경우 그러한 파라메터들의 계산 공식이 유도되었다. 실험 및 계산 경험을 통해 제안된 공식이 잘 작동됨을 확인하였고, 대역폭의 확장이 필요한 환경에 적용될 수 있으며 T-TCP의 시간 특성이 TCP 보다 우수함을 확인하였다. 아울러, 평균 대기 시간과 평균 반환 시간을 줄이기 위해 대역폭을 조합하여 서버를 분산하는 방법이 제시되었다.

텍스트마이닝을 활용한 HPV 백신 접종 관련 연구 동향 분석 (A Text Mining Analysis of HPV Vaccination Research Trends)

  • 손예동;강희선
    • Child Health Nursing Research
    • /
    • 제25권4호
    • /
    • pp.458-467
    • /
    • 2019
  • Purpose: The purpose of this study was to identify human papillomavirus (HPV) vaccination research trends by visualizing a keyword network. Methods: Articles about HPV vaccination were retrieved from the PubMed and Web of Science databases. A total of 1,448 articles published in 2006~2016 were selected. Keywords from the abstracts of these articles were extracted using the text mining program WordStat and standardized for analysis. Sixty-four keywords out of 287 were finally chosen after pruning. Social network analysis using NetMiner was applied to analyze the whole keyword network and the betweenness centrality of the network. Results: According to the results of the social network analysis, the central keywords with high betweenness centrality included "health education", "health personnel", "parents", "uptake", "knowledge", and "health promotion". Conclusion: To increase the uptake of HPV vaccination, health personnel should provide health education and vaccine promotion for parents and adolescents. Using social media, governmental organizations can offer accurate information that is easily accessible. School-based education will also be helpful.