• 제목/요약/키워드: 문서군집

검색결과 127건 처리시간 0.019초

감염병 확산에 따른 레스토랑 선택속성 변화 분석: 텍스트마이닝 기법 적용 (Analysis of Changes in Restaurant Attributes According to the Spread of Infectious Diseases: Application of Text Mining Techniques)

  • 유준일;이은지;구철모
    • 경영정보학연구
    • /
    • 제25권4호
    • /
    • pp.89-112
    • /
    • 2023
  • 2020년 3월, 코로나바이러스 팬데믹으로 선포되면서, 다양한 방역 조치가 취해져 왔다. 이에 따라, 관광 및 환대 산업 내의 많은 변화들이 야기되었다. 특히 레스토랑 산업에서는 비대면 서비스 및 좌석 간 거리두기 등 방역 지침이 시행되었다. 전통적으로 레스토랑 선택속성에 대한 연구는 분위기, 서비스 품질, 음식의 품질을 포함한 3가지 속성의 중요성이 강조해 온 데 반해, 코로나19 이후 레스토랑 이용자를 대상으로 레스토랑 선택속성을 탐색한 연구는 미비한 실정이다. 이에 따라, 본 연구에서는 코로나19라는 환대 산업 내의 환경적 변화에 대한 이해에 기반하여, 국내 온라인 리뷰 데이터 상에서 새로운 레스토랑 경험적 속성을 확인하기 위한 탐색적인 접근을 시도하였다. 본 연구는 서울 을지로 지역에 위치한 일반음식점 및 휴게음식점 475개로 네이버 플레이스에 등록된 총 31,115개의 온라인 리뷰를 분석 단위로 고려하였다. 분석 방법은 단어 빈도와 역문서 빈도의 곱으로 산출된 TF-IDF와 잠재적 토픽들을 추출하는 확률적 모델 알고리즘인 LDA 토픽모델링 기법을 통해 온라인 리뷰 내에서 단어들의 군집화를 통해 레스토랑 선택속성을 재분류하고자 하였다. 분석 결과, 분위기, 서비스 품질, 음식 품질과 함께 코로나19 이후 레스토랑의 새로운 속성으로 "감염병 예방"요인이 도출되었다. 본 연구는 기존 레스토랑 선택속성에서 제시하는 세 가지 속성들을 범주화하고, 나아가 새로운 속성을 제시하였다는 점에서 기존 레스토랑 선택속성 문헌을 확장하여 학술적 의의가 있다. 나아가, 분석 결과에 기반하여 레스토랑 운영의 측면 및 정책적 관점에서의 실무적 제언을 시도하였다.

텍스트 마이닝을 이용한 공군 부사관 지원자 자기소개서의 차별적 특성 분석 (Analyzing the discriminative characteristic of cover letters using text mining focused on Air Force applicants)

  • 권혁;김우주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.75-94
    • /
    • 2021
  • 저출산 문제로 인한 병역자원 감소와 병 복무기간 단축에 따른 군 간부 대비 병 복무 선호 현상은 우수한 군 간부확보정책에 대한 추가적인 고찰을 필요로 한다. 이와 관련된 연구들은 대부분 사회과학에서 주로 사용되는 방법론으로 분석하였으나, 본 연구는 대량의 문헌조사에 적합한 텍스트 마이닝의 방법론으로 접근한다. 이를 위해, 본 연구는 공군 부사관 지원자 자기소개서에서 차별적인 특성의 단어들을 추출하고 합격 및 불합격의 극성을 분석한다. 본 연구는 총 3단계로 이루어졌다. 첫번째, 지원분야를 일반분야와 기술분야로 나누고, 자기소개서에서 특성을 가지는 단어들을 분야별 빈도수 비율의 차이대로 순서화 한다. 각 지원분야별 비율의 차이가 클수록 해당 지원분야의 특성을 나타내는 것으로 정의하였다. 두번째, 이 특성을 나타내는 단어들을 LDA를 통해 단어들의 Topic을 군집화하고 이를 바탕으로 Label을 정의하였다. 세번째, 이 군집화 된 지원분야별 단어들을 L-LDA를 통해 합격과 불합격의 극성을 분석하였다. L-LDA값의 차이가 합격에 가까울수록 합격자들이 많이 사용하는 단어로 정의하였다. 본 연구를 통해, 공군 부사관 자기소개서의 차별적 특성을 추출하기에는 LDA보다 L-LDA가 더 적합함을 알 수 있다. 또한, 이러한 방법론은 별도의 서면 또는 대면 설문 방식이 아니라, 대량 문서에 대한 텍스트 마이닝 기법을 적용하여 분석시간을 단축하고, 전체 모집단에 대한 신뢰성을 높일 수 있다. 따라서 본 연구인 공군 부사관 선발결과 분석을 통해, 선발제도 및 홍보제도에 활용 가능한 정보를 제공하고, 군 인력획득 분야 연구에 있어 활용 가능한 방법론을 제안하고자 한다.

법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론 (Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System)

  • 김지현;이종서;이명진;김우주;홍준석
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.137-152
    • /
    • 2012
  • 인터넷 환경에서 월드 와이드 웹이 등장한 이후 웹을 통해 수많은 웹 페이지들이 생산됨에 따라 사용자가 원하는 정보를 검색하기 위한 다양한 형태의 검색 서비스가 여러 분야에서 개발되어 활용되고 있다. 특히 법령 검색은 사용자가 현재 자신이 처한 상황에 필요한 법령을 검색하여 법령에 대한 지식을 얻기 위한 창구로써 국민의 편의를 제공하기 위해 반드시 필요한 서비스 중 하나이다. 이에 법제처는 2009년부터 국민 누구나 편리하게 법령에 관련된 정보를 검색할 수 있도록 국가의 법령뿐만 아니라 행정규칙이나 판례 등 모든 법령정보를 검색할 수 있는 검색 서비스를 제공하고 있다. 하지만 현재까지의 검색엔진 기술은 기본적으로 사용자가 입력한 질의어를 문서에 포함하고 있는지의 여부에 따라 해당 문서를 검색 결과로 제시한다. 법령 검색 서비스 또한 해당 법령에 등장하는 키워드를 활용하여 사용자에게 검색 결과를 제공해주고 있다. 따라서 법제처의 이런 노력에도 불구하고 법령이 전문가의 시각에서 작성되었기 때문에 법에 익숙하지 않은 일반 사용자는 자신이 필요한 법령을 검색하기 어려운 한계점을 가지고 있다. 이는 일반적으로 법령에 사용되는 용어들과 일반 사용자가 실생활에 사용하는 단어가 서로 상이하기 때문에 단순히 키워드의 단순 매칭 형태의 검색엔진에서는 사용자들이 주로 사용하는 생활용어를 이용해서 원하는 법령을 검색할 수 없다. 본 연구에서는 법률용어에 관한 사전지식이 부족한 일반 사용자가 일상에서 주로 사용되는 생활용어를 이용하여 키워드 기반의 법령정보 검색 사이트에서 정확한 법령정보 검색이 가능하도록 생활용어와 법률용어 간의 대응관계를 탐색하고 이를 이용하여 법령을 검색할 수 있는 방법론을 제안하고자 한다. 우선 생활용어와 법률용어 간의 대응관계를 발견하기 위해 본 논문에서는 사용자들의 집단지성을 활용한다. 이를 위해 사용자들이 블로그의 분류 및 관리, 검색에 활용하기 위해 작성한 태그 정보를 이용하여 질의어인 생활용어와 관련된 태그들을 수집한다. 수집된 태그들은 K-means 군집분석 기법을 통해 태그들을 클러스터링하고, 생활용어와 가장 가까운 법률용어를 찾기 위한 평가 방법을 통해 생활용어에 대응될 수 있는 적절한 법률용어를 선택한다. 선택된 법률용어는 해당 생활용어와 명시적인 관계성이 부여되며, 이러한 생활용어와 법률용어와의 관계는 온톨로지 기반의 시소러스를 기술하기 위한 SKOS를 이용하여 표현된다. 이렇게 구축된 온톨로지는 사용자가 생활용어를 이용하여 검색을 수행할 경우 생활용어에 대응되는 적절한 법률용어를 찾아 법령 검색을 수행하고 그 결과를 사용자에게 제시한다. 본 논문에서 제시하고자 하는 방법론을 통해 법령 및 법률용어에 관련된 사전 지식이 없는 일반 사용자도 편리하고 효율적으로 법령을 검색할 수 있는 서비스를 제공할 것으로 기대한다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

재조합 hTPO 유전자의 발현 조절을 위한 Retrovirus Vector System의 구축 (Construction of Retrovirus Vector System for the Regulation of Recombinant hTPO Gene Expression)

  • 권모선;구본철;김도향;김태완
    • Reproductive and Developmental Biology
    • /
    • 제31권3호
    • /
    • pp.161-167
    • /
    • 2007
  • 본 연구에서는 외래 유전자의 지속적인 발현에 의한 형질 전환 개체나 세포의 생리적인 부작용을 최소화하기 위하여 hTPO 유전자의 발현을 조절할 수 있는 tetracycline-inducible retrovirus vector system을 구축하고자 하였다. kTPO 유전자는 사람의 간암세포인 HepG2에서 분리한 RNA를 주형으로 하여 RT-PCR 방법을 이용하여 확보하였으며, 이 유전자를 MLV 유래의 vector에 도입하여 pLNChTPOW를 재조합하였다. 재조합한 vector는 GP2 293 포장세포에 도입하여 바이러스를 생산하였으며 이 바이러스를 이용하여 감염시킨 여러 표적세포에서 hTPO의 발현을 확인하였다. 또한, hTPO의 발현을 유도적으로 조절할 수 있도록 하기 위하여 hTPO를 one vector 형태의 Tet-On vector system에 도입하였으며, 발현의 유도 조건에서 보다 강한 발현을 위하여 WPRE서열을 여러 위치에 도입하였다. 구축한 Tet system의 발현 조절 정도는 각 바이러스를 감염시켜서 구축한 CEF와 PFF 세포에서 RT-PCR과 Western blot, 그리고 ELISA 방법을 이용하여 확인하였다. 그 결과 CEF에서는 WPRE 서열이 hPTO유전자의 3'에 위치한 경우에서, PFF에서는 WPRE가 rtTA의 3'에 위치한 경우의 vector system에서 가장 높은 발현율과 유도율을 나타내었다. 이는 Tet system에서의 hTPO 유전자 발현 조절이 매우 효율적으로 이루어지며, 세포주에 따른 의존적인 조절 양상을 보이는 것을 의미한다. 따라서 hTPO의 대량 생산을 위한 생체 반응기로서의 형질 전환 동물의 개발을 보다 효율적으로 수행하려면 적절한 Tet system이 선별적으로 적용되어야 할 것이다.IJ850으로 제조한 거봉포도주에서 75 mg/L의 함량을 나타내었다. 따라서 국내 거봉포도로부터 분리한 S. cerevesiae IJ850는 포도주 생산에 사용될 수 있는 균주로써 그 가능성을 보여주었다.8%)가 우점 계통군으로 분포하는 계통학적 특징을 나타내어 DNA추출법에 따라 토양 세균군집 구조의 계통학적 특성 이 상이하게 나타나고 있음을 알 수 있었다. S. muenchen (57.3%)과 S. enteritidis (22.7%)가 대부분을 차지하였고, 인수공통병원균 중에서는 L. monocytogenes(43.5%), C. jejuni(37.4%), S. aureus(30.4%)의 순서로 분리되었으나, E. coli O157:H7은 국내 계육에서 전혀 분리되지 않았다. 결과적으로 도계육이 위생적이며 안전하게 시판되기 위해서는 최종적인 도계공정 이후 다양한 유통과정에서 발생될 수 있는교차 및 추가오염의 기회를 줄이기 위한 보다 철저한 위생관리 대책과 보완대책이 필요하다는 사실을 이 성적을 통하여 비로소 확인할 수 있었다.가정교과교육학 문항내용의 포괄성을 살펴보면 다음과 같다. 가정과교육과정 문항내용은 제7차 교육과정 문서상에 표면적으로 제시된 내용에 한정되어 있어 구체적인 개선방안으로 교육과정의 철학적 이론적 배경, 다양한 교육과정 원리를 활용하는 문항내용 등과 같이 좀 더 이론적이고 원론적인 내용으로의 확대를 제안하였다. 가정과교수학습법 문항내용은 특정 교수학습모형에 관련된 지식을 묻는 내용으로 주로 출제되었다. 이에 구체적인 개선방안으로 특정 교수학습모형의 이론적 토대가 되고 전체적인 교수설계를 하기 위한 기본 바탕이 될 수 있는 교수학습이론에 관한 내용, 또한 현재가정과교육에 있어서 유용한 교수학습법이라고 입증되고 있는 실천적 추론 가정과 수업에 관한

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.

코로나 19 하에서 재난문자 내의 정보유형 및 특성: 서울특별시 재난문자를 중심으로 (Information types and characteristics within the Wireless Emergency Alert in COVID-19: Focusing on Wireless Emergency Alerts in Seoul)

  • 윤성욱;남기환
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.45-68
    • /
    • 2022
  • 대한민국 중앙부처, 지방자치단체는 코로나 19가 급속도로 확산하는 팬데믹 상황에서 재난상황 극복을 위해 재난대응에 필요한 정보를 재난문자를 통해 제공하였다. 재난문자는 국민들이 가장 많이 접하는 재난정보 전달수단으로서, 휴대폰에 직접 방송하는 CBS(Cell Broadcast Service) 방식을 채택하고 있어 직접 찾아보는 수고스러움 없이 휴대폰을 통해 쉽게 정보를 접할 수 있다는 장점이 있다. 본 연구는 지난 1년 1개월간(2020년 1월~2021년 1월) 서울특별시에 발송된 재난문자의 특성을 다양한 텍스트마이닝 방법론 등을 통해 도출하고 재난문자에 포함된 다양한 유형의 정보가 국민들의 이동 행태에 어떠한 영향을 미쳤는지를 서울특별시 지역구의 연령별 유동인구의 이동성을 통해 확인하였다. 각 문자에 포함된 주요 단어와 포함된 정보를 분류하는 과정을 거치고 포함된 단어를 기반으로 하는 문서 군집 분석 기법을 적용해 개별 발송 문자를 분석 단위로써 활용할 수 있도록 텍스트 분석을 시행하였다. 이후, 텍스트마이닝을 통해 추출한 재난문자의 특성이 지역별, 연령별 인구이동성에 미친 영향을 규명하였다. 구조화된 모형을 활용하여 재난정보가 인구이동성에 미치는 영향을 기본효과, 누적효과로 구분하여 측정하였다. 지자체가 보유한 재난문자 발송권한으로 인해 재난문자 발송 특성은 지자체별로 상이함을 계량 분석에 활용하였다. 분석 결과 인구이동성에 변화를 유발하는 정보유형은 연령별로 상이함을 확인할 수 있었다. 날짜와 순서에 관련된 정보는 60-70대의 인구이동성을 유의미하게 감소시키는 것을 확인할 수 있었다. 온라인 정보는 20대의 이동성을 감소시켰고, 증상과 관련된 정보는 30대의 인구이동성을 감소시켰다. 한편, 방역 정책 준수를 당부하는 의미를 포함하는 규범적 단어 등은 전 연령의 인구이동성에 유의미한 변화를 불러일으키지 못함을 확인할 수 있었다. 이는 재난대응에 도움이 되는 유의미한 정보들만 재난문자에 포함되어야 함을 의미한다. 한편, 인구이동성에 유의미한 변화를 불러일으키는 정보유형 또한 재난문자가 반복됨에 따라 효과가 상쇄함을 음의 누적효과 추정 결과를 통해 확인할 수 있었다.