• 제목/요약/키워드: 사용자 문서

검색결과 1,725건 처리시간 0.024초

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

중립도 기반 선택적 단어 제거를 통한 유용 리뷰 분류 정확도 향상 방안 (Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.129-142
    • /
    • 2016
  • 전자상거래에서 소비자들의 구매 의사결정에 판매 제품을 이미 구매하여 사용한 고객의 리뷰가 중요한 영향을 미치고 있다. 전자상거래 업체들은 고객들이 제품 리뷰를 남기도록 유도하고 있으며, 구매고객들도 적극적으로 자신의 경험을 공유하고 있다. 한 제품에 대한 고객 리뷰가 너무 많아져서 구매하려는 제품의 모든 리뷰를 읽고 제품의 장단점을 파악하는 것은 무척 힘든 일이 되었다. 전자상거래 업체들과 연구자들은 텍스트 마이닝을 활용하여 리뷰들 중에서 유용한 리뷰들의 속성을 파악하거나 유용한 리뷰와 유용하지 않은 리뷰를 미리 분류하는 노력을 수행하고 있다. 고객들에게 유용한 리뷰를 필터링하여 전달하는 방안이다. 본 연구에서는 문서-단어 매트릭스에서 단어의 제거 기준으로 온라인 고객 리뷰가 유용한 지, 그렇지 않은지를 구분하는 문제에서 단어들이 유용 리뷰 집합과 유용하지 않은 리뷰집합에 중복하여 등장하는 정도를 측정한 중립도를 제시한다. 제시한 중립도를 희소성과 함께 분석에 활용하여 제거할 단어를 선정한 후에 각 분류 알고리즘의 성과를 비교하였다. 최적의 성과를 보이는 중립도를 찾았으며, 희소성과 중립도에 따라 단어를 선택적으로 제거하였다. 실험은 Amazon.com의 'Cellphones & Accessories', 'Movies & TV program', 'Automotive', 'CDs & Vinyl', 'Clothing, Shoes & Jewelry' 제품 분야 고객 리뷰와 사용자들의 리뷰에 대한 평가를 활용하였다. 전체 득표의 수가 4개 이상인 리뷰 중에서 제품 카테고리 별로 유용하다고 판단되는 1,500개의 리뷰와 유용하지 않다고 판단되는 1,500개의 리뷰를 무작위로 추출하여 연구에 사용하였다. 데이터 집합에 따라 정확도 개선 정도가 상이하며, F-measure 기준으로는 두 알고리즘에서 모두 희소성과 중립도에 기반하여 단어를 제거하는 방안이 더 성과가 높았다. 하지만 Information Gain 알고리즘에서는 Recall 기준으로는 5개 제품 카테고리 데이터에서 언제나 희소성만을 기준으로 단어를 제거하는 방안의 성과가 높았으며, SVM에서는 전체 단어를 활용하는 방안이 Precision 기준으로 성과가 더 높았다. 따라서, 활용하는 알고리즘과 분석 목적에 따라서 단어 제거 방안을 고려하는 것이 필요하다.

3차원 객체기반 모델을 이용한 설계도면 및 시방서관리 시스템 구축 (Development of Drawing & Specification Management System Using 3D Object-based Product Model)

  • 김현남;왕일국;진상윤
    • 한국건설관리학회논문집
    • /
    • 제1권3호
    • /
    • pp.124-134
    • /
    • 2000
  • 건설 프로젝트 수행에서 설계정보는 실제 건축물에 대한 정확한 정보가 반영된 체계적인 모델로 구축하여 프로젝트 전 단계에서 적용할 수 있어야 한다. 하지만 3차원 기반의 도면과 관련 문서에 대한 파일 관리 위주의 시스템은 발주자 및 설계자의 의도를 명확하게 표현하고 전달하기 어려울 뿐만 아니라 단순기능위주, 방대자료의 정리 부족, 축적된 정보와 실행정보의 공유 및 교환이 미비한 수준이다. 반면, 제반 환경의 변화와 기술의 발전 속도는 관련 사용자들이 적응하기 어려울 정도로 급변하고 있다. CAD 기술의 발전은 기존의 2차원 도면 위주에서 3차원 모델기능의 확대와 발전으로 많은 설계정보를 CAD를 통해 표현하고 기타 관련정보와 연계할 수 있는 CAD시스템들이 등장하고 있다. 그러나 아직까지 현시점에서 설계관련 모든 정보를 3차원 모델을 통해 나타내는 것은 매우 어려우며 많은 시간과 비용을 필요로 하고 있다. 따라서 본 연구에서는 기존 3차원 도면 및 시방서 위주의 시스템에서 3차원 모델기반의 설계정보관리 시스템으로의 전환기 시점에 초점을 두고 3차원 모델기반 시스템으로의 완전한 전환이 아닌 3차원과 3차원 기반 시스템의 공존을 통한 전환에 그 초점을 두고 있다. 다시 말해 2차원 도면과 3차원 모델의 통합을 통한 혼합된 형태의 2차원 및 3차원 설계정보관리시스템의 모델을 제시하고자 하며, 이를 통해 객체기반 설계 및 시방서 정보 통합관리시스템을 개발하는 것이 본 연구의 목적이다. 본 연구에서는 3차원 도면 및 시방서 정보를 통합하여 3차원 객체 기반의 설계정보로 표현하기 어려운 부분을 보완하고, 3차원 정보를 효과적으로 활용할 수 있도록 관련 업무를 분석하고, 관리 모델을 구축하여, 이를 기반으로 한 설계도면 및 시방서 통합관리 시스템을 구축하였다.

  • PDF

텍스트 마이닝 기반의 이슈 관련 R&D 키워드 패키징 방법론 (Methodology for Issue-related R&D Keywords Packaging Using Text Mining)

  • 현윤진;윌리엄;김남규
    • 인터넷정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.57-66
    • /
    • 2015
  • 빅데이터 기술에 대한 관심이 급증함에 따라, 소셜 미디어를 통해 유통되는 방대한 양의 비정형 데이터를 분석하고자 하는 시도가 활발히 이루어지고 있다. 이에 따라서 텍스트 형태의 비정형 데이터 분석을 통해 의미 있는 정보를 찾고자 하는 시도가 비즈니스 영역뿐 아니라, 정치, 경제, 문화 등 다양한 영역에서 이루어지고 있다. 특히 최근에는 여러 현안 및 이슈들을 발굴하여 이를 의사결정에 활용하고자 하는 시도가 활발히 이루어지고 있다. 이처럼 빅데이터 분석을 통해 국가현안이나 이슈를 발굴하고자 하는 시도가 꾸준히 이루어져왔음에도 불구하고, 국가현안 및 이슈로부터 이와 관련된 R&D 문서를 효율적으로 제공하는 방안은 마련되지 않고있다. 이는 사용자들이 인식하는 현안 키워드와 실제 사용되는 R&D 키워드 사이의 이질성이 존재하기 때문이다. 따라서 현안 및 R&D키워드간의 이질성을 극복하기 위한 중간 장치가 필요하며, 이 중간 장치를 통해 각 현안 키워드와 R&D 키워드간에 적절한 대응이 이루어져야 한다. 이를 위해 본 연구에서는 (1) 현안 키워드 추출을 위한 하이브리드 방법론, (2) 현안 대응 R&D 정보 패키징 방법론, 그리고 (3) R&D 관점에서의 연관 현안 네트워크 구축 방법론의 총 세 가지 방법론을 제안한다. 제안하는 방법론은 텍스트 마이닝, 소셜네트워크 분석, 그리고 연관 규칙 마이닝 등의 데이터 분석 기법들을 활용하여 수행하였으며, 그 결과, (1)에 의한 키워드 보강률은 42.8%로 나타났으며, (2)의 경우, 현안 키워드와 R&D 키워드간 다수의 연관 규칙이 나타났다. (3)의 경우는 현재 진행 중에 있으며, 향후 가시적 성과를 낼 수 있을 것으로 예상된다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.