• 제목/요약/키워드: Keyword Extract

검색결과 116건 처리시간 0.021초

텍스트 마이닝과 네트워크 이론을 활용한 권역별 국가하천 점용허가 키워드 분석 (Analysis of Keywords in national river occupancy permits by region using text mining and network theory)

  • 정성윤
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.185-197
    • /
    • 2023
  • 점용허가 정보를 기록하는 단순 용도로만 사용되고 있는 허가 대장에서 허가 내용에 내재한 점용 신청과 허가업무 수행에 유용한 정보를 추출하기 위해 텍스트 마이닝과 네트워크 이론을 활용하여 본 연구를 진행하였다. 텍스트 마이닝 기반으로 불용어 제거와 형태소 분석 등 정규화 과정을 비롯하여 서울·경기, 경상, 전라, 충청, 강원 등 5개 권역별로 어휘 출현 빈도와 토픽 모델링을 분석, 비교하였다. 네트워크 이론에 가정 많이 사용되는 단계, 근접, 매개 및 고유벡터 등 4종의 중심성 알고리즘을 적용하여 네트워크에서 중심적인 위치에 있거나 중간 매개체 역할을 하는 키워드를 살펴보았다. 이러한 어휘 출현 빈도, 토픽 모델링 및 네트워크 중심성을 종합적으로 분석하여 모든 권역에서 '설치' 키워드가 가장 영향력이 큰 것을 알 수 있었다. 이는 환경부의 허가관리청에서는 시설물을 건설하거나 공작물을 설치하는 허가가 많아서 나타난 결과라고 판단된다. 또한, 도로 시설, 치수 시설, 지하 매설 시설, 전력·통신 시설, 체육·공원 시설 등과 연관된 키워드가 토픽 모델링과 네트워크에서 중심적 위치에 있거나 중간 매개체의 역할을 하는 것을 알 수 있었다. 키워드 대부분은 출현 빈도와 분포 비율이 낮은 짚프의 원칙(Zipf' Law)의 통계분포 형태를 보이는 것으로 보였다.

웹검색 트래픽 정보를 활용한 지능형 브랜드 포지셔닝 시스템 : 태블릿 PC 사례를 중심으로 (Intelligent Brand Positioning Visualization System Based on Web Search Traffic Information : Focusing on Tablet PC)

  • 전승표;박도형
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.93-111
    • /
    • 2013
  • 최근 독감 예측이나 부동산가격 예측 등 다양한 분야에서 웹검색 트래픽이나 소셜 네트워크 등의 방대한 고객 데이터를 통해 사회 현상, 소비 트렌드 등을 분석하고자 하는 시도가 증가하고 있다. 최근 구글이나 네이버 등의 인터넷 포털서비스 업체들은 온라인 사용자들의 웹검색 트래픽 정보를 구글 트렌드, 네이버 트렌드 등의 서비스로 공개하고 있는데, 이들이 제공하는 웹검색 트래픽 정보를 기반으로 온라인 사용자들의 정보 검색 행태에 대한 연구들이 학계 업계 등에서 주목받고 있다. 웹검색 정보를 기반으로 사회 현상이나, 소비 동향, 정치 투표 결과 등을 예측해 볼 수 있음을 실증하고 있는 분야는 많은 연구가 수행되고 있지만, 웹검색 트래픽 정보를 이용하여, 소비자의 제품에 대한 중요한 속성 도출 및 소비자의 기대 변화 관측 등의 온라인 사용자 행태에 초점을 맞추어 연구되고 있는 분야는 상대적으로 많은 연구가 수행되고 있지는 않다. 따라서, 본 연구에서는 구글이나 네이버가 제공하는 소비자의 웹검색 트래픽을 활용해서 소비자가 생각하는 제품 포지션을 가시화할 수 있는 방법을 제안한다. 브랜드 간의 관계를 확인하기 위해, 동시 검색 트래픽 정보를 활용하여 네트워크 모델링의 방법을 사용한 시스템을 제안하고 있으며, 이를 통해 소비자들이 제품 간의 유사성을 어떻게 인지하고 형성하며, 새로운 혁신 제품 카테고리 내에서 제품 브랜드들이 소비자의 마음 속에서 어떻게 자리 잡고 있는지의 브랜드 포지셔닝을 확인할 수 있는 방법론을 제안하였다. 또한 이를 태블릿 PC의 사례를 통해서, 미시적인 관점에서 소비자의 마음속에 위치한 태블릿 PC 개별 브랜드들의 위치 및 관계를 보여주었다. 기업은 소비자의 제품에 대한 인식 및 중요 속성 도출을 위해 많은 비용과 시간을 소요하여 소비자 조사를 행하게 되는데, 본 연구의 방법론을 활용하여 소비자의 제품에 대한 인식, 제품간 유사도, 제품에 대한 중요 속성의 변화 등을 일반에게 공개된 검색 트래픽 정보를 활용하여 비교적 쉽고 추가적인 비용 없이 도출할 수 있을 것이다.

효율적인 이미지 분할을 위한 RGB 채널 선택 기법 (RGB Channel Selection Technique for Efficient Image Segmentation)

  • 김현종;박영배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1332-1344
    • /
    • 2004
  • 최근 초고속 통신망 및 멀티미디어 관련기술의 발달로 인해 멀티미디어 데이타를 좀 더 효율적으로 전송하고 저장, 검색하는 기술이 요구되고 있다. 그 중에서 의미 기반 영상 검색은 색상, 질감, 모양 정보 등의 저 차원 특징 정보와 이미지 데이타에 의미를 부여하기 위해 주석 처리하는 것이 일반적이다. 그리고 부여된 키워드와 같은 어휘 사전을 이용하여 의미기반 정보검색을 수행하고 있지만, 기존의 키 워드기반 텍스트 정보검색의 한계를 벗어나지 못하는 문제를 야기 시킨다. 두 번째 문제점으로 내용 기반이미지 검색시스템에서 검색 성능이 떨어지며, 복잡한 배경을 가진 이미지에서 객체를 분리하기가 어렵고, 그리고 영역의 과잉 분할로 인하여 영역 추출이 어렵다. 그리고 복잡한 다중 객체를 가진 이미지에서 객체들을 분리하기 어렵다는 것이다. 이러한 문제점들을 해결하기 위해서, 본 논문에서는 총 다섯 가지 단계로 처리할 수 있는 내용 기반 검색 시스템을 구축한다. 다섯 단계 중에서 가장 중요한 부분은 RGB 이미지들 중에서 배경이 가장 큰 것과 가장 작은 것을 추출한다. 특히, 배경이 가장 큰 이미지를 이용하여 피사체와 배경을 추출하는 방법을 제안한다. 두 번째 문제점을 해결하기 위해서, RGB 채널 분할 기법을 이용하여 객체를 분리하고, Watermerge의 임계값을 이용하여 영역의 과잉분할을 최적화하며, RGB 채널 선택 기법을 이용하여 다중객체를 분리하는 방법을 제안한다. 실험을 통하여 기존에 검색하기 어려웠던 복잡한 객체들을 검색하는 방법들을 대체할 수 있도록, 제안한 기법이 기존의 방법보다 검색 성능이 우수함을 입증한다.과 황산이온의 농도에 따르는 것으로 생각된다. 이상과 같이, 에트린자이트는 콘크리트 내에서 다양한 내외부적인 화학작용 따라 특징적인 산출 양상을 보이며, 주변 환경 조건에 따라 다른 광물로 전이되는 나타내었다. 이러한 연구결과, 에트린자이트의 생성에 따른 콘크리트의 성능저하는 그 광물학적 특성과 분포양상에 관련성을 가지는 것으로 나타났다.인 상관관계를 보이지 않는 것으로 나타난다. 이에 비해서 팽윤도는 벤토나이트의 광물조성, 표면전하 특성, 입도 및 형상 등의 물리화학적 성향을 포괄하는 체표면적 수치와 대략적으로 반비례적인 관계를 보인다 따라서 벤토나이트 현탁액에서의 유변학적 특성은 몬모릴로나이트의 표면전하 특성, 형태, 입도 및 조직 등의 차이에 의해서 달라지는 점토 입자들의 응집특성 및 취합결정체의 형상에 주로 규제되고, 제올라이트와 같은 미세한 불순 광물성분들의 영향도 부수적으로 관여되는 복합적인 성향인 것으로 해석된다.18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

빅데이터 기반의 정성 정보를 활용한 부도 예측 모형 구축 (Bankruptcy Prediction Modeling Using Qualitative Information Based on Big Data Analytics)

  • 조남옥;신경식
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.33-56
    • /
    • 2016
  • 대부분의 부도 예측에 관한 연구는 재무 변수를 중심으로 통계적 방법 또는 인공지능 기법을 적용하여 부도 예측 모형을 구축하였다. 그러나 재무비율과 같은 회계 정보를 이용한 부도 예측 모형은 재무 제표 결산 시점과 신용평가 시점 간 시차를 고려하지 않을 뿐만 아니라 해당 산업의 경제적 상황과 같은 외부 환경적인 요소를 반영하기 어렵다는 한계점이 존재하였다. 기업의 부도 여부를 예측하기 위해 정량 정보인 재무 변수만을 이용하는 것에 한계가 있음에도 불구하고 정성 정보를 부도 예측 모형에 반영한 연구는 아직 미흡한 실정이다. 본 연구에서는 재무 변수를 이용하는 기존 부도 예측 모형의 성과를 개선하기 위해 빅데이터 기반의 정성 정보를 추가적인 입력 변수로 활용하는 부도 예측 모형을 제안하였다. 제안 모형의 성과 향상은 정성 정보를 예측 모형에 통합시키기에 적합한 형태로 정보의 유형을 변환시킬 수 있는가에 따라 달려있다. 이에 본 연구에서는 정성 정보 처리를 위한 방법으로 빅데이터 분석 기법 중 하나인 텍스트 마이닝(Text Mining)을 활용하였다. 해당 산업과 관련된 경제 뉴스 데이터로부터 경제 상황에 대한 감성 정보를 추출하기 위해 도메인 중심의 감성 어휘 사전을 구축하고, 구축된 어휘 사전을 기반으로 감성 분석(Sentiment Analysis)을 수행하였다. 형태소 분석 등을 포함한 텍스트 전처리 과정을 거쳐 감성 어휘를 추출하고, 각 어휘에 대한 극성 및 감성 점수를 부여하였다. 분석 결과, 전통적 부도 예측 모형에 경제 뉴스 데이터에서 도출한 정성 정보를 반영하는 것은 모형의 성과를 개선하는 것으로 나타났다. 특히, 경제 상황에 대한 부정적 감정이 기업의 부도 여부를 예측하는 데 더욱 효과적임을 알 수 있었다.

의미간의 유사도 연구의 패러다임 변화의 필요성-인지 의미론적 관점에서의 고찰 (The Need for Paradigm Shift in Semantic Similarity and Semantic Relatedness : From Cognitive Semantics Perspective)

  • 최영석;박진수
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.111-123
    • /
    • 2013
  • 개념간의 의미적 유사도 및 관계도(Semantic Similarity/Relatedness)를 구하는 연구는 고전적인 연구에서는 데이터 베이스 통합이나 시스템 통합, 그리고 현대의 연구에 있어서는 태그 및 키워드 추출, 연관 단어 추천 등에 걸쳐 다양한 분야에서 활용되어 온 연구이다. 그 연구는 역사가 오래되었을 뿐만 아니라, 경영정보와 컴퓨터 공학, 계산 언어학에 걸쳐 여러 분야에서도 많은 관심을 가져왔던 연구 분야라고 할 수 있다. 그러나, 지금까지의 개념간의 관계도 계산 방식은 미리 만들어진 사전이나 참조할 수 있는 다른 시맨틱 네트워크(Semantic Network)를 이용하여 계산하는 방법이 주를 이루었다. 이러한 접근 방법의 경우, 개념간의 의미적 관계가 변화에 대한 가능성을 고려하지 않는 것이 일반적이다. 하지만, 정보 기술의 발달과 빠른 사회변화는 개념간의 의미관계 등에 변화를 가져오고 있는 것이 현실이다. 사회적으로 일어나는 사건이나, 문화적 변화 등이 개념간의 의미관계를 변화시키는 것을 물론이며, 이러한 변화가 정보 통신 기술의 도움으로 빠르게 공유되고 있다. 이렇게 개념간의 의미 관계가 시간이나 맥락에 따라 빠르게 변화할 수 있는 가능성이 있음에도 불구하고, 기존의 개념간 의미적 유사도 및 관계도에 대한 연구들은 이러한 '의미관계의 변화'에 대한 새로운 문제에 대해 해답을 제시하지 못한 것이 사실이다. 따라서, 본 연구에서는 개념간의 유사도 연구에 있어 지금까지 있어왔던 '정적인 의미간 관계도 패러다임'에서 '동적인 의미간 관계도 패러다임'으로의 전환의 필요성과 그 당위성을 인지 의미론적(Cognitive Semantics)의 관점에서 역설하고자 한다. 인간이 인지하는 개념간의 의미관계가 변화할 수 있는 이론적 근거를 인지 의미론에서 찾아봄으로써, 패러다임 변화의 방향을 구체적으로 제시하였다. 또한 이러한 패러다임의 변화에 맞추어 개념간의 의미적 유사도 및 관계도에 대한 연구가 어떠한 방향으로 나아가야 할지 구체적인 연구 방향을 제시함으로써 관련 연구자들에게 새로운 연구의 가이드라인을 제시하였다.