• 제목/요약/키워드: 기초 어휘

검색결과 105건 처리시간 0.021초

소셜 빅데이터를 활용한 한국관광 트렌드에 관한연구 -감성분석을 중심으로- (A study on Korean tourism trends using social big data -Focusing on sentiment analysis-)

  • 최연희;유경미
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.97-109
    • /
    • 2024
  • 국내관광 영역에서 관광 소비 주체인 외래관광객과 내국인에 대한 관광 트렌드 분석은 한국 관광시장 뿐 만 아니라 지역 및 정부의 관광정책을 수립하는 관계자에게도 필수적이라 할 수 있다. 이에 소셜미디어 상의 핵심키워드와 감성분석을 알아보고 향후 관광소비자의 커뮤니케이션과 정보를 통해 마케팅 전략 계획을 수립하고 국내 관광산업을 활성화시키고자 한다. 한국관광의 트렌드를 분석하기 위해 텍스톰(TEXTOM) 6.0을 활용하였다. 구글, 네이버, 다음이 제공하는 카페, 블로그, 뉴스 등을 대상으로 '한국관광', '국내관광'을 키워드로 하여 2022년 9월31일부터 2023년 8월31일까지 데이터를 수집하였다. 텍스트마이닝을 통하여 빈도순으로 핵심 키워드와 TF-IDF를 각각 100개씩 추출한 후, CONCOR 분석, 감성분석을 실시하였다. 한국관광 핵심 키워드는 관광지, 여행동반 및 행태, 관광동기 및 체험, 숙박형태, 관광정보, 감성 관련 등에 관한 단어들이 상위권에 노출되었다. CONCOR분석 결과는 관광지, 관광정보, 관광활동/체험, 관광동기/콘텐츠, 인바운드 관련 등과 관련된 5개의 클러스터로 구분되었다. 마지막으로 감성분석 결과 긍정에 대한 문서와 어휘가 높게 나타났다. 이 연구는 한국관광에 대한 텍스트 마이닝을 통하여 급변하는 한국관광 트렌드를 분석하여 내국인 뿐 만 아니라 방한 외국인에 대한 국내관광 활성화에 의미 있는 기초자료를 제공할 것으로 기대한다.

학문 목적 한국어 학습자의 한국어 능력과 학업 적응에 관한 연구 (The narrative inquiry on Korean Language Learners' Korean proficiency and Academic adjustment in College Life)

  • 정연숙
    • 국제교류와 융합교육
    • /
    • 제4권1호
    • /
    • pp.57-83
    • /
    • 2024
  • 이 연구는 외국인 유학생들의 한국어 능력 시험(TOPIK) 등급이 학업 적응에 미치는 영향을 알아보고자 하였다. IRB의 승인을 거쳐 모집한 학생은 모두 7명으로 이들의 면담 내용은 실용적 절충주의에 기초한 포괄적 분석절차 (이동성, 김영천, 2014)의 6단계를 활용해 분석했으며 그 결과 학문 목적 한국어 학습자의 학업 적응에 영향을 미치는 요인을 학업, 생활, 심리·정서의 범주로 나눌 수 있었다. 학업적 측면에서 인터뷰 대상자들은 적응하기 힘들었던 전공 용어와 전공 공부를 지적하였고, 한자 및 한자어에 큰 어려움을 경험했다. 다음으로 생활 측면에서는 고급 수준의 토픽 등급 소지자인 연구 참여자들도 대학 생활 적응에 어려움이 있었고 한국 생활에 제대로 적응하기 위해서는 실용적인 표현과 풍부한 어휘 지식이 필요함을 토로했다. 마지막으로 심리·정서적인 범주에서는 이들이 한국인들과의 대화나 발표에 상당한 스트레스를 받고 있음을 파악할 수 있었다. 사회 문화 및 일상 생활 문화에 관한 지식도 부족했기 때문에 한국어를 잘하더라도 화용적인 면에서 실수나 오류를 범하기도 했고 이것이 심리·정서적인 어려움에 처하는 요인이 되기도 했다. 이러한 이야기들을 근거로 한국어 학습자의 학업 적응을 촉진하기 위해서는 한국어 학습의 다양한 기회 부여라는 목표를 기반으로 학습자의 전공 관련 학업 능력 강화, 한국어 숙달도 향상, 학내 관계 형성에 도움을 주어야 한다는 결론을 내렸다. 그리고 연구자는 이를 위한 해결 방안으로 외국인 학습자들을 위한 다양한 비교과 활동을 계획·설계하여 시도해 볼 것을 제안했다.

일한기계번역에서 진행형 "ている"의 번역처리 (A Processing of Progressive Aspect "te-iru" in Japanese-Korean Machine Translation)

  • 김정인;문경희;이종혁
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.685-692
    • /
    • 2001
  • 본 논문은 일한기계번역에서 일본어 진행표현 "ている" 형태로부터 한국어 대역어의 선정과정에서 발생하는 애매성을 해소하기 위하여 연구한 것이다. 대부분의 일한 기계번역 시스템은 양궁어의 문법적인 유사엉에 기초하여 어휘적인 단계의 처리만으로 고품질의 번역이 가능한 직접 번역방식을 채용하고 있다. 그러나, 직접 번역방식에 기초한 일한 기계번역에서는 술부에 존재하는 "ている"형태의 상적인 의미를 구별할 수 있는 방법론이 아직 제안되지 않았다. 일본어에서 "ている"형태는 동작진행과 상태진행을 모두 나타내지만 한국어에서는 "고 있다."와 "어 있다."로 나누어 표기한다. 양 언어간의 상적인 의미 대응은 간단하지 않지만, 술부의 의미 정보, 부사와 부사어의 의미정보 등을 이용하여 "ている"형태의 상적인 의미를 결정하는 것이 가능하다. "ている"형태의 적절한 대역어 선정을 위하여, 사전 속의 모든 일본어 술어에 다섯 종류의 의미코드를 입력한다. 즉 "1:동작진행만으로 사용되는 술어", "2: 일반적으로는 동작진행으로 사용되지만, 수동인 경우에는 상태진행의 형태로도 사용되는 술어", "3: 상태진행으로만 사용되는 술어", "4: 동작진행, 상태진행의 구별이 애매한 술어", "5: 기타" 당의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2","4"형태의 술어로부터 진행형은 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다. 실험에는 아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.

  • PDF

텍스트 마이닝을 활용한 중국공산당 20차 당대회 보고문 분석 (An Analysis of the 20th National Congress Report through Text-mining Methods)

  • 권도경;김정수;박지현
    • 분석과 대안
    • /
    • 제7권1호
    • /
    • pp.115-145
    • /
    • 2023
  • 2022년 10월 16일부터 22일까지, 총 이레 동안 진행된 중국공산당 제20차 전국대표대회(이하 '20차 당대회'로 약칭)는 개최 훨씬 이전부터 '시진핑이 3연임을 할 것인가', '3연임을 함으로써 영구 집권의 기초를 닦을 것인가' 등의 문제를 둘러싸고 세간의 주목을 받았다. 한국 언론의 관심은 주로 20차 당대회가 진시황에 버금가는 '시황제의 대관식'이었다는 점에, 혹은 당대회 진행 중 전 총서기 후진타오(胡锦涛)가 강제퇴장 당하는 장면에 모아졌고, 학계도 20차 당대회에서 시진핑이 정치국 위원과 상무위원에 대한 인사 배치를 어떻게 할 것인지에, 또 시진핑의 후계 구도가 드러날 것인가 등에 집중적인 관심을 기울이면서 오히려 언론의 우려를 강화시켰다. 본 논문은 20차 당대회에서의 시진핑의 정치적 의도에 대한 해석과는 거리를 두면서, 당대회 보고문에 대한 계량적 분석을 시도할 것이다. 중국공산당의 당대회 보고문은 향후 5년 간의 정치, 경제, 사회, 문화, 외교 및 양안관계, 과학기술 등의 분야에 대한 중국공산당의 통치 비전 및 목표, 그리고 전략적 방향을 담고 있으면서 그 자체로 높은 서사성과 논리성을 가지고 있는 문건으로 학술적 가치가 높기 때문이다. 본 논문은 당대회 문건을 대상으로 텍스트 마이닝 방법론을 사용하여 주요 어휘 빈도수 조사 및 분석, 키워드 분석, 주요 표현 조사 및 분석을 진행할 것이다. 이를 통해 18차 당대회에서 20차 당대회까지, 즉 2013년부터 2027년까지 15년의 시진핑 집권기 동안 중국공산당 통치 비전의 거시적인 변화를 계량화, 시각화할 것이다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.