• 제목/요약/키워드: 단어 공간 모델

검색결과 65건 처리시간 0.021초

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

사용자-상품 행렬의 최적화와 협력적 사용자 프로파일을 이용한 그룹의 대표 선호도 추출 (Extracting Typical Group Preferences through User-Item Optimization and User Profiles in Collaborative Filtering System)

  • 고수정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.581-591
    • /
    • 2005
  • 협력적 여과 시스템은 희박성과 단지 두 고객만의 선호도에 따른 상관 관계로 추천을 제공한다는 문제점과 군집내의 가장 유사한 두 사용자만의 상관 관계에 의하여 추천을 한다는 단점이 있다. 또한, 상품의 내용을 기반으로 하지 않고 선호도만을 기반으로 하므로 추천의 정확도가 사용자에 의해 평가한 자료에만 의존한다는 문제점도 있다. 이와 같이 평가된 자료를 추천에 이용할 경우, 모든 사용자가 모든 상품에 대해 성의 있게 평가할 수는 없으므로 추천의 정확도가 낮아지는 결과를 가져온다. 따라서 본 논문에서는 엔트로피을 사용하여 사용자가 상품에 대하여 평가한 자료를 기반으로 검증되지 않은 사용자를 제외시키고, 다음으로 사용자 프로파일을 생성한 후 사용자를 군집시키며, 마지막으로 그룹의 대표 선호도를 추출하는 방법을 제안한다. 기존의 사용자 군집을 이용한 방법은 군집내의 사용자만을 대상으로 유사한 사용자를 찾으므로 희박성은 해결할 수 있으나 그 외의 단점을 해결하지 못하였다. 제안한 방법에서는 상품에 대해 평가한 선호도 뿐만 아니라 상품에 대한 정보를 반영하기 위하여 연관 단어 마이닝의 방법에 의해 협력적 사용자의 프로파일을 생성하고, 이를 기반으로 벡터 공간 모델과 K-means 알고리즘에 의해 사용자를 군집시킨다. 군집된 사용자를 대상으로 상품의 선호도와 사용자의 엔트로피를 병합함으로써 최종적으로 그룹의 대표 선호도를 추출한다. 대표 선호도를 이용한 추천 시스템은 한 사용자의 부정확한 선호도를 기반으로 추천을 하는 경우에 나타나는 추천의 부정확도 문제를 해결하며, 군집내의 가장 유사한 두 사용자만의 상관 관계에 의하여 추천을 하는 단점을 보완하고, 또한 그룹 내에 가장 유사한 사용자를 찾는 데 소요되는 시간을 절약할 수 있다는 장점을 갖는다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

지역웹툰 생태계 조성을 위한 방안 연구 (A Study on Measures to Create Local Webtoon Ecosystem)

  • 최승춘;윤기헌
    • 만화애니메이션 연구
    • /
    • 통권51호
    • /
    • pp.181-201
    • /
    • 2018
  • 한국 만화산업은 출판만화시장의 축소와 만화대여점의 몰락 등으로 꾸준히 쇠퇴를 거듭하다 2000년대 이후 웹툰의 등장으로 급격한 질적 변화와 폭발적인 양적 성장을 가져왔다. 만화라는 단어는 웹툰의 광의적 의미로 해석되고 있으며, 웹툰은 만화의 포괄적인 개념까지 승계 받고 있다. 웹툰은 디지털기기를 사용하고 데이터화된 원고를 생산, 제공함으로서 콘텐츠의 지역적, 공간적, 물리적 한계를 뛰어 넘고 있다. 더구나 지역별 인적인프라가 꾸준히 성장하고 있는 상황 속에서 정부의 만화산업 지원정책과 맞물려 웹툰체험관, 웹툰캠퍼스, 웹툰창작센터 등의 창작인프라가 지역에 구축되어 활발한 움직임과 성과를 보여주고 있으며, 이에 웹툰은 지역 성장론과 지역분권에 맞는 산업적 모델로 인식받기 시작했다. 그럼에도 불구하고 여전히 수도권과 부천 중심으로 만화인프라가 심각하게 편중되어 불균형한 구조로 놓여있는 현실이다. 만화산업을 견인하고 있는 웹툰은 인터넷의 발달과 함께 성장한 짧은 만화역사를 가지고 있다. 지역웹툰 역시 성장의 초기단계에 진입했을 뿐이다. 만화의 인적인프라와 웹툰의 창작인프라로 활성화된 지역웹툰은 창작시설의 구축완료 이후 향후 성장 동력의 연구와 대안이 절실한 상태이며, 지속적 발전을 위해 새로운 패러다임이 필요한 시점이다. 결국, 웹툰이 지역발전의 새로운 방향인 '문화'로 지정되어 이와 더불어 지역 특성에 맞는 만화콘텐츠를 개발, 지역의 관광, 문화, 예술 산업과 연계하는 모델이 꾸준히 개발되어야 연착륙에 성공할 수 있을 것이다. 이로서 지역 웹툰이 지방분권과 지역산업 부흥의 작은 모멘텀으로 작용되길 바란다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.