• 제목/요약/키워드: 단어 식별

검색결과 69건 처리시간 0.022초

텍스트 마이닝을 이용한 메이커 운동의 트렌드 분석 (Trend Analysis in Maker Movement Using Text Mining)

  • 박찬혁;김자희
    • 한국콘텐츠학회논문지
    • /
    • 제18권12호
    • /
    • pp.468-488
    • /
    • 2018
  • 메이커 운동은 필요한 물건을 직접 만드는 사람들이 모여, 창의적 만들기를 통해 지식과 경험을 공유하는 사회와 문화의 움직임이다. 그러나 지난 10년간 메이커 운동이 빠르게 성장하면서, 어디까지를 메이커 운동으로 볼 것인지에 대한 공감대가 아직 부족하다. 앞으로의 발전 방향성을 모색하기 위해서는, 지금까지 메이커 운동이 어떻게 변화해 왔는지를 조망하는 것이 필요하다. 본 연구는 메이커 운동에 대한 이슈가 일반 미디어에서 어떻게 변화됐는지를 파악하기 위하여 언론 기사들을 텍스트 기반의 빅데이터 분석 방법론을 활용하여 분석한다. 특히 시간에 따른 관심의 변화를 다각도로 분석하기 위하여 키워드 네트워크 분석과 동적 토픽 모델을 통합적으로 적용한다. 키워드 네트워크는 메이커 운동의 발전을 분석하기 위하여 단어 수준에서 시기별 주요 키워드를 도출하고, 동적 토픽 모델은 메이커 운동이 아우르는 다양한 분야 관점에서 관심도의 변화를 단어와 토픽, 문서의 세 가지 수준에서 파악할 수 있도록 도와준다. 결과적으로 주요 토픽은 창업, 메이커스페이스, 메이커 교육 등이 식별되었고, 주요 키워드는 3D프린터와 기업에서 교육으로 변화된 것을 확인할 수 있다.

GMM 기반 실시간 문맥독립화자식별시스템의 성능향상을 위한 프레임선택 및 가중치를 이용한 Hybrid 방법 (Hybrid Method using Frame Selection and Weighting Model Rank to improve Performance of Real-time Text-Independent Speaker Recognition System based on GMM)

  • 김민정;석수영;김광수;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.512-522
    • /
    • 2002
  • 본 논문에서는 GMM(Gaussian Mixture Model)에 기반한 실시간문맥독립화자식별시스템[1][2]의 성능향상을 위하여 프레임선택(Frame Selection)방법과 프레임가중치(Weighting Model Rank)방법을 혼합한 hybrid방법을 제안한다. 본 시스템에서는 GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법과 인식 알고리즘으로 ML(Maximum Likelihood)을 기본적으로 사용하였다. 제안한 hybrid 방법은 두 단계로 이루어진다. 첫째, 화자모델과 테스트 데이터를 이용하여 프레임단위로 유사도를 계산하고, 가장 큰 유사도 값과 두 번째로 큰 유사도 값의 차를 계산한 후, 차가 문턱치보다 큰 프레임만을 선택한다 두 번째로, 선택되어진 프레임에서 계산되어진 유사도 값 대신에 가중치 값을 사용하여 전체 스코어를 계산한다. 특징 파라미터로서는 켑스트럼과 회귀계수를 사용하였으며, 학습과 테스트를 위한 데이터베이스는 채집기간이 다른 여러 데이터베이스들로 구성되어 있으며, 실험을 위한 데이터는 임의의 단어를 선택하여 사용하였다. 화자인식실험은 기본 시스템에 프레임선택방법, 프레임가중치방법, 제안한 Hybrid방법을 각각 적용하여 실험하였다. 실험결과, 프레임선택방법에 비해 평균 4%, 프레임가중치방법에 비해 평균 1%의 인식률 향상을 보여, 본 논문에서 적용한 hybrid방법의 유효성을 확인하였다.

  • PDF

문화적 요인이 관광객의 음식점 만족도에 미치는 영향: 텍스트 마이닝과 온라인 리뷰를 활용하여 (The Effects of Cultural Factors in Tourists' Restaurant Satisfaction: Using Text Mining and Online Reviews)

  • 맹가가;박기우;김한민
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.145-164
    • /
    • 2023
  • 외식 경험에 대한 온라인 리뷰의 확산은 특히 해외 관광객의 음식점 선택에 중요한 영향을 주고 있다. 선행 연구는 음식의 질, 서비스, 분위기, 가격을 음식점 선택의 중요 요인으로 식별해왔다. 하지만, 이러한 4개의 대표적 요인 이외에 관광객의 음식점 선택에 중요한 영향을 미칠 수 있는 문화적 요인에 대한 연구는 크게 주목받지 못하였다. 본 연구는 중국인 관광객이 dianping.com에 게시한 76개 한식당에 대한 온라인 리뷰 10,000건 이상을 텍스트 마이닝 기법으로 분석하여 해외 여행 맥락에서 관광객의 음식점 선택에 대한 문화적 요인의 영향을 탐색하였다. 연구 결과, 문화적 요인인 한류가 중국인 관광객의 한식당 경험과 만족도에 영향을 미치는 것으로 나타났다. 또한 냉면, 비빔밥, 떡, 족발, 김치찌개 등 한식 관련 단어는 모든 리뷰 주제에 걸쳐 등장했다. 본 연구 결과는 텍스트 마이닝을 활용하여 음식점 선택과 관광객의 만족도에 대한 문화적 요인의 중요한 역할을 식별함으로써 기존 문헌에 기여한다. 해당 연구 결과는 많은 중국인 관광객을 유치하기 위한 실질적인 지침을 제공한다.

유통 상품의 데이터 품질 관리를 위한 데이터 표준화에 대한 연구 (An Empirical Study on Quality Improvement by Data Standardization for Distributed Goods)

  • 송장섭;류성렬
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권9호
    • /
    • pp.101-109
    • /
    • 2013
  • 데이터 품질 관리는 매우 중요하다. 본 연구는 효율적인 기업 데이터의 품질 관리를 위한 데이터 표준화 설계를 유통 상품 사례로 구축 방안을 제시하고 그 효과를 검증 하였다. 데이터 표준화 설계 방안으로 데이터 표준화 체계와 데이터 사전을 설계 하였다. 데이터 표준화 체계 설계를 위하여 데이터를 분류, 속성, 식별하였으며, 데이터 사전 설계를 위하여 데이터 사전 설계 프로세스와 단어 용어 도메인 코드사전을 구축하고, 데이터 표준화 설계 방안을 제시하였다. 제시한 데이터 표준화 방안의 효율성을 정량적, 정성적 방법으로 검증한 결과데이터표준화로 인한 데이터 품질은 24% 및 데이터 사전의 속성 설계인 일관성에 대한 데이터의 구조적 품질은 7% 향상되고, 유효함을 입증하였다.

무인항공기 기술진화 탐색 및 유망기술 발굴 연구 (Research Technology Evolution of UAV(Unmanned Aerial Vehicle) and to Prospect Promising Technology)

  • 주성현
    • 항공우주시스템공학회지
    • /
    • 제13권6호
    • /
    • pp.80-89
    • /
    • 2019
  • 효과적인 유망기술 발굴을 위해 미래 사회 변화를 전망하고, 미래기술 도출 방법론 및 프로세스 개선 연구가 필요하며, 연구소·기업에서 기술기획에 활용할 기초자료의 필요성이 꾸준히 대두되고 있다. 따라서 본 연구는 국내 무인항공기산업과 같은 신성장동력산업의 국제적 기술 경쟁력 확보와 시장성 확보 및 산업성장이 가능한 미래유망 기술을 도출하는 방법론을 제시하는 것이다. 이에 본 연구는 KrKwic, Excel, NetMiner등의 분석툴을 활용하여 무인항공기산업 분야의 특허데이터를 대상으로 동시출현 단어를 활용한 소셜네트워크분석과 하위그룹분석, 인지지도분석 방법을 제시하였다. 이를 통해, 무인항공기산업 분야의 기술진화를 탐색하고 유망기술을 예측하는 방법을 제시하였다. 그 결과, '체계연동/통합 기술', '시험평가/감항인증 기술', '항공전자 기술', '비행제어 기술', '피아식별 기술', '비행통제 시스템 기술', '지원장비 기술' 등은 향후 유망한 기술로 선정하여 집중 투자할 필요성이 큰 기술이라 볼 수 있었다.

다국어 음성 인식을 위한 자동 어휘모델의 생성에 대한 연구 (A Study on the Automatic Lexical Acquisition for Multi-lingustic Speech Recognition)

  • 지원우;윤춘덕;김우성;김석동
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.434-442
    • /
    • 2003
  • 특정한 언어 (영어)로 구현된 소프트웨어를 다른 언어 (한국어, 중국어 등)에서 처리할 수 있도록 하는 과정인 소프트웨어의 국제화는 음성기술 분야에 적응할 때 매우 복잡해진다. 그 이유는 음성 자체가 언어와 많은 연관 관계를 갖기 때문이다. 그러나 어떠한 언어라 해도 그 나라의 언어표현은ASCII코드나 혹은 그 나라 고유의 코드 기반으로 소프트웨어를 처리한다. 영어의 경우는 ASCII코드의 코드체계로 이루어지지만 다른 나라 언어인 경우 다른 형태의 언어코드를 사용하는 것이 일반적이다. 음성 처리에서 언어의 본질적 특성은 어휘모델에 나타난다. 어휘모델은 문자집합, 음소집합, 발음규칙으로 구성된다. 본 논문에서는 다국어 음성인식처리를 위한 어휘모델을 자동으로 생성하기 위하여, 4단계로 나누어 처리하는 어휘모델 구축 방법을 제안한다. 우선 전처리 과정으로 특정한 언어로 표현한 단어를 유니코드로 변환한다. (1단계) 유니코드로부터 중간 형태 코드로의 변환 (2단계) 발음 형태를 기본으로 하는 표준화된 규칙 적용 (3단계) 음소 규칙들에 의한 문자소 구현 (4단계) 음운론을 적용하는 순서로 구성된다.

문화콘텐츠 통합을 위한 메타데이터 포맷 연구 (A Study on Metadata Formats for Integration of Cultural Contents)

  • 조윤희
    • 정보관리학회지
    • /
    • 제20권2호
    • /
    • pp.114-133
    • /
    • 2003
  • 최근 문화콘텐츠 관련 기관들은 분산 네트워크를 통해 이용자에게 문화콘텐츠의 접근을 점차 확대시키고 있다. 그러나 문화콘텐츠의 특성상 일반 콘텐츠와 달라서 많은 문화콘텐츠 객체는 정보의 조직과 검색에 사용할 수 있는 단어를 거의 포함하고 있지 못하다. 이러한 문화콘텐츠 시스템이 서비스 될 경우, 효율적으로 자원을 식별하고 검색할 수 없게 될 뿐 아니라 다양한 문화콘텐츠 메타데이터 요소간의 명칭, 표현, 의미가 상이하여 시스템간 연동이나 정보공유가 어렵게 된다. 이러한 문제를 해결하기 위해 문화콘텐츠의 속성에 적합한 표준화된 메타데이터의 조직과 관리가 필요하다. 본 연구는 문화콘텐츠 분야에서 다야하게 접근되고 있는 메타데이터 포맷인 Dublin Core, EAD, VRA, CDWA, CIMI. Object ID를 중심으로 각 포맷의 데이터 요소를 비교 분석함으로써 상이한 메타데이터 포맷의 상호운용성 확보를 통하여 문화콘텐츠 통합을 위한 기초 자료를 제공하고자 하였다.

Performance Comparison of Korean Dialect Classification Models Based on Acoustic Features

  • Kim, Young Kook;Kim, Myung Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권10호
    • /
    • pp.37-43
    • /
    • 2021
  • 말소리의 음향 특징을 이용하여 화자에 대한 중요한 사회, 언어학적 정보를 얻을 수 있는데 그 중 한 가지 핵심 특징은 방언이다. 화자의 방언 사용은 컴퓨터와의 상호작용을 방해하는 주요 요소이다. 방언은 발화의 음소, 음절, 단어, 문장 및 구와 같이 다양한 수준에서 구분할 수 있지만 이를 하나하나 식별하여 방언을 구분하기는 어렵다. 이에 본 논문에서는 음성 데이터의 특성 중 MFCC만 사용하는 경량화된 한국어 방언 분류 모델을 제안한다. 한국인 대화 음성 데이터를 통해 MFCC 특징을 활용하는 최적의 방법을 연구하고, 8가지 머신 러닝 및 딥러닝 분류 모델에서 경기/서울, 강원, 충청, 전라, 경상 5개의 한국어 방언 분류 성능을 비교한다. MFCC를 정규화하는 방법으로 대부분의 분류 모델에서 성능을 향상시켰으며, MFCC를 정규화하기 전 분류 모델의 최고 성능과 비교하여 정확도는 1.07%, F1-score는 2.04% 향상된 성능을 기록하였다.

KISTI 과학기술정보서비스의 콘텐츠 활용 분석 (A Study on the Content Utilization of KISTI Science and Technology Information Service)

  • 강남규;황미녕
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.87-95
    • /
    • 2020
  • 한국과학기술정보연구원(KISTI)가 제공하는 과학기술정보서비스는 일반적인 정보서비스와 유사하게 구축된 콘텐츠를 이용자가 쉽고 편리하게 검색하고 조회할 수 있도록 만들어진 서비스이다. NDSL은 KISTI의 핵심 과학기술정보서비스로서 약 1억 38백만건의 콘텐츠를 제공하고 있으며 2019년 1년간 약 93백만회의 페이지 뷰를 보이고 있다. 본 논문에서는 NDSL이 제공하고 있는 학술논문, 보고서, 특허 등의 과학기술정보가 웹 서비스(https://www.ndsl.kr)를 통해서 어떻게 검색되고 활용되는지와 입력된 검색 질의어 등을 분석을 통해 다양한 인사이트를 도출하였다. 콘텐츠 구축 현황, 콘텐츠 유형별 활용 현황과 활용 방식 등의 일반적인 통계 이외에도 월별/요일별/시간대별 콘텐츠의 이용 행태, 조회수 구간별 활용 콘텐츠의 유형, 콘텐츠 유형별 1회 검색 대비 조회 비율, 학술논문의 발행년도별 이용 현황 비교, 국내 학술논문의 활용과 KCI 영향력 지수와의 관계, 학술논문과 특허 활용에 대한 특징 등 콘텐츠 유형별 활용성에 대한 분석을 진행하였다. 또한 콘텐츠 유형별 검색 질의어의 구성 방식, 질의어의 단어수 분석, 검색 질의어와 시기성의 관계 등의 검색 질의어에 대하여 분석하였으며 NDSL에서는 한글 성명 검색이 많다는 특징도 발견할 수 있었다. 이러한 분석 결과를 토대로 정보시스템 구축 관점에서의 NDSL 서비스 개선 방안을 제안하고자 한다. 본 논문에서는 콘텐츠 활용에 대한 행태 분석 결과를 이용자의 검색 결과에 동적으로 반영, 비로그인 이용자에 대한 식별을 통해 타겟팅 서비스가 가능하도록 시스템을 구축, 질의어 확장하는 등의 것을 NDSL 개선 사항으로 제안하고자 한다.

한글 전용과 국한 혼용의 언어 심리학적 고찰(I): 읽기 시간, 이해, 기억에서의 차이 (Differences of Reading the Pure Hangul Text and the Hangul Plus Hanja Text in Reading Speed, Comprehension, and Memory)

  • 남기춘;김태훈;이경인;박영찬;서광준;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.469-476
    • /
    • 1997
  • 본 연구는 한글 전용과 한자 혼용이 글의 이해 속도, 이해 정도, 내용의 기억에 어떤 영향을 미치는 가를 조사하기 위해 실시되었다. 한글 전용론과 한자 혼용론은 각각 나름대로의 논리를 가지고 서로 논쟁을 펼쳐왔다. 먼저 한글전용론의 주장을 살펴보면, 한자는 배우기 어렵고 쓰기도 불편해 쉽게 익힐 수 있는 한글을 사용해야 하며, 한자를 사용함으로 인해서 순 우리말의 발전이 방해를 받고, 글자 생활의 기계화와 출판 문화의 발달에 있어 한자는 이것을 어렵게 한다는 것이다. 반면에, 한자혼용론의 주장에 따르면, 한자말은 한자로 적을 때 그 의미의 파악이 빠르고 정확하고, 우리말 어휘의 절반 이상을 한자어가 차지하고 있으므로 한자를 가르치는 것이 국어교육의 지름길이고, 우리말에는 동음이의어가 많아서 한글로만 적을 경우 그 뜻을 식별하기 어렵고, 한자는 각 글자가 모두 뜻을 가지고 있으므로, 각각을 조합하여 새로운 의미의 단어를 쉽게 만들 수 있음은 물론이고 한글로 쓸 경우 길게 쓰여져야만 하는 것을 짧게 쓸 수 있다는 장점을 가지고 있으며, 한자를 쓰지 않으면 우리의 전통 문화를 이어 받을 수 없으며 한자를 공통으로 쓰고 있는 동양문화권에서도 고립을 초래할 수 있다는 것이다. 이렇게 한글전용과 한자혼용에 대한 의견이 다양한 만큼 우리나라의 한자에 대한 정책도 그 갈피를 잡지 못하고 계속 바뀌어 왔다. 독립이후 정부에서는 법령과 훈령 등으로 모든 공문서에서의 한자사용을 금지하고 일반 사회의 문자 생활에도 한글을 전용할 것을 권고하지만 이 지침은 결국 공문서에만 한정되어 왔고 후에는 이것조차도 유명무실해졌다. 또한 중고등학교의 한자교육 정책도 수차례 변화되어 한글만을 배운 세대가 사회에 나와 여전히 한자가 사용되고 있어 적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.

  • PDF