• 제목/요약/키워드: 비교 문장 유형

검색결과 66건 처리시간 0.026초

구문 의미 이해 기반의 VOC 요약 및 분류 (VOC Summarization and Classification based on Sentence Understanding)

  • 김문종;이재안;한규열;안영민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.50-55
    • /
    • 2016
  • VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다.

문장유사도 측정 기법을 통한 스팸 필터링 시스템 구현 (Implementation of a Spam Message Filtering System using Sentence Similarity Measurements)

  • 우수빈;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권1호
    • /
    • pp.57-64
    • /
    • 2017
  • 문자 메시지는 휴대폰을 사용하는 사람들에게 중요한 의사소통의 방법 중 하나이다. 또한 친구맺기 방식이 필요 없이 사용이 가능하기 때문에 이를 악용한 불법 광고 스팸메시지가 기승을 부리고 있다. 최근 스팸 필터링을 위해 기계 학습을 이용한 시스템들이 등장 하였지만 많은 계산을 필요로 하는 단점이 있다. 본 논문에서는 검색할 쿼리를 입력할 때 부정확한 쿼리를 입력하더라도 저장된 데이터베이스와 비교하여 가장 비슷한 단어를 차수 개념을 적용하여 유추하는 집합 기반 POI(Point of Interest) 검색 알고리즘을 이용하여 스팸 필터링 시스템을 구현하였다. 이 알고리즘을 적용하면 서버 컴퓨팅 없이 문자의 조합만을 이용해 쿼리를 유추할 수 있기 때문에 스팸 필터링에 적용하여 입력된 문자메시지가 교묘하게 변형되더라도 스팸이라고 필터링이 가능하다. 또한 문장 유사도 측정 기법을 활용하여 스팸 필터링 성능을 향상시켰으며, 스팸 필터링에 취약한 특정 유형도 걸러내기 위해 특정 전처리 과정을 지원함으로써 대부분의 스팸메세지를 필터링 가능하도록 하였다. 기존 집합기반 POI 검색 알고리즘과 이를 확장 시킨 문장 유사도 측정 기법, 특정 전처리 과정을 추가한 시스템으로 필터링 시스템의 성능평가를 진행하였다. 그 결과 본 논문에서 구현한 시스템이 기존 집합기반 POI 알고리즘과 비교하여 향상된 스팸 필터링 성능을 보여주는 것을 확인하였다. 또한 이동통신사 3사에서 필터링에 취약한 유형이 본 논문에서 구현한 시스템으로 높은 성능으로 필터링이 가능하다는 것을 확인하였다.

Factotum SemNet의 Functional Relation 순열 분석: Plot Unit 유형 파악 (Functional Relation Sequence Analysis of Factotum SemNet: Recognizing Plot Unit Type)

  • 양재군;김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.409-412
    • /
    • 2004
  • Plot Units는 이야기를 형성하는 줄거리 또는 줄거리에 나오는 여러 사건을 하나로 구성하여 표현하는 단위이다. 한편, 개연규칙은 문장간 구성성분들의 개연적인 결속성을 나타낸다. 이러한 결속은 개연사슬로 나타낼 수 있다. 개연사슬은 개념을 연결하는 어휘들과 그 연결을 설명하는 관계들의 목록이다. 이중에서 기능관계순열로는 해당 개연규칙을 보다 개념적으로 설명할 수 있다. 본 논문에서는 이러한 기능관계순열을 분석하고 Plot Units과 비교해 보았다. 실험을 통하여 주어진 기능관계순열이 Plot Units의 어떤 유형에 해당하는지 알 수 있었다.

  • PDF

한국어 텍스트 문장정렬을 위한 개체격자 접근법과 LSA 기반 접근법의 활용연구 (A comparative study of Entity-Grid and LSA models on Korean sentence ordering)

  • 김영삼;김홍기;신효필
    • 인지과학
    • /
    • 제24권4호
    • /
    • pp.301-321
    • /
    • 2013
  • 본 논문은 텍스트의 응집도 측정과 텍스트 자동생성 시스템을 위한 기초기술 중 하나인 문장정렬 과제에 대한 연구로, 개체기반적(entity-based) 접근의 한 유형인 개체격자 모형(Entity-Grid model)과 벡터공간 모형에 기반한 LSA(Latent Semantic Analysis)를 모두 시도하고 결과를 서로 비교하였다. 개체격자 모형에 대한 기존 연구들에서 논의된 명사들의 통사역(syntactic role) 정보가 한국어 텍스트 정렬과제에 미치는 영향을 실험하고자 하였으며, 기존 독일어권 응용연구 결과와는 달리 긍정적인 결과를 얻었다. 이 과정에서 한국어의 격조사를 활용하는 전략을 취했으며, 이는 한국어의 격표지 정보가 한국어 텍스트의 응집성을 측정하는 데에 유용할 수 있다는 점을 보인 것이다. 그리고 개체격자 모형을 통한 결과를 LSA 기반 모형결과와 비교하여 양 모형의 장단점과 향후 개선점을 아울러 논의하였다.

  • PDF

한-영 기계번역 결과물의 오류 유형 및 원인 분석: 형태적·구문적 오류를 중심으로 (Analyzing the Types and Causes of Korean-to-English Machine Translation Errors: Focused on Morphological and Syntactical Errors)

  • 백지연;구혜경
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.199-204
    • /
    • 2022
  • 본 연구의 목적은 기계번역을 활용한 대학교 영어쓰기 수업에서 한-영 기계번역 결과물에 나타난 형태적 및 구문적 오류 유형과 그에 대한 원인을 분석하기 위한 것이다. 한국의 EFL 대학생 7명이 연구에 참여하였으며, 그들은 한 학기동안 총 3회의 영어쓰기 과제를 수행하였다. 본 연구에서는 학생들이 제출한 영어쓰기 결과물 중 기계번역 결과물에 나타난 형태적 및 구문적 오류의 유형을 분석하였으며, 우리말 초고와 비교 분석을 통하여 그 원인을 찾아보고자 하였다. 분석결과, 기계번역 결과물에서 가장 많이 발생한 오류는 문장구조와 표기법 관련 오류였으며, 기계번역 결과물에서 발생한 대부분의 오류는 한국어 원문의 오류로 인하여 발생한 것으로 파악되었다.

중학교 일반학급과 영재학급의 과학수업에서 교사와 학생사이의 언어적 상호작용 비교 분석 (Comparative Analysis of Verbal Interaction between Teachers and Students for the Gifted and the General Science Class in Middle School)

  • 이지향;김동진;황현숙;박세열;백인환;박국태
    • 영재교육연구
    • /
    • 제20권3호
    • /
    • pp.721-741
    • /
    • 2010
  • 이 연구는 중학교 일반학급과 영재학급의 과학수업을 관찰하여 교사의 발문과 피드백, 학생의 응답에 대한 유형과 빈도 분석을 통해 교사와 학생사이의 언어적 상호작용을 비교 분석한 것이다. 연구 결과, 일반학급의 과학수업에서 교사들은 교과서의 내용을 정리해서 묻거나 그대로 안내하는 발문을 많이 사용하였고, 재진술 형태의 즉각 피드백을 주로 사용하였다. 학생들은 네, 아니오, 와 같은 단순 확인 단답형 응답을 많이 사용하였으며, 언어적 상호작용 모형은 인지 기억적 사고 발문-단답형 응답-즉각 피드백 순서가 가장 많았다. 영재학급의 과학수업에서 교사들은 이유가 뭐에요? 왜 그런 거예요? 와 같은 개방적 발문의 확산적 사고 발문과 평가적 사고 발문을 사용하였고, 설명형 형태의 즉각 피드백을 주로 사용하였다. 일반학급과 비교하여 지연 피드백은 높게 나타났으나 즉각 피드백은 낮게 나타났다. 학생들은 짧은 단어나 간단한 문장 형태의 단답형으로 응답하였으며, 수업참여가 보다 적극적이었다. 언어적 상호작용 모형은 인지 기억적 사고 발문-문장 형태 단답형 응답-지연 피드백 순서가 많았다.

한.중 건축법규 비교분석을 통한 KBimCode의 확대 적용가능성 고찰 - 피난 및 방화와 관련된 법규항목을 중심으로 - (Reviewing the Expandability of KBimCode based on the Comparison between Korean and Chinese Building Act - Centered around the Egress and Fire Safety Related Regulations -)

  • 황금화;박서경;이진국
    • 디자인융복합연구
    • /
    • 제15권6호
    • /
    • pp.73-92
    • /
    • 2016
  • 건축물 설계품질 및 생산성을 향상시키기 위한 다양한 BIM기반 실증적 연구 개발이 진행중이며, 인허가단계 전후로 건축법규 자동검토에 관한 연구 및 개발도 그 중 하나이다. 해당 연구 개발의 성과물 중 하나로써, 건축물 설계 적법성 자동검토를 위해 자연어로 기술된 건축법을 컴퓨터에서 실행 가능한 룰셋(KBimCode)으로 변환하는 메커니즘(KBimLogic)이 개발되었다. KBimCode는 표준성 및 중립성을 지향하며, 한국 건축법뿐만 아니라 타 국가의 건축법규나 설계지침서, 제안 요청서 등 다양한 설계 요구사항으로의 확대 적용이 가능하도록 개발되었다. 본 연구는 KBimCode를 타 국가 건축 법규로 확대 적용하여 그 표준성과 중립성 및 응용가능성을 검증하는것을 목적으로 한다. 이를 위하여 중국의 피난방화에 관한 건축법규를 대상으로, KBimCode 생성 메커니즘의 핵심인 논리규칙체계화의 세 가지 구성요소(객체속성, 함수, 문장 내외 관계)에 따라 구체적인 분석을 진행하였다. 그 결과, 다양한 중국 건축법규 문장을 KBimCode로 변환할 수 있었으며, 변환의 과정 중 다음을 도출할 수 있었다: 1) 건물 객체 및 그에 따른 속성에 대한 정의는 각 국가마다 상이하므로, 이를 고려한 객체 정의 및 속성 처리 방법이 필요하며, 2) 일부 문장은 서술부 및 문장 관계를 처리하기 위하여 새로운 함수 및 관계 유형 정의가 필요하며, 이는 KBimCode의 표준화된 함수 및 관계 유형 도출 규칙 안에서 확장 가능하다. 본 연구를 통해 전혀 새로운 대상의 변환과정에서의 문제점 등을 해결하는 과정을 통해 KBimCode의 가능성을 일부 검증하였으며, 다양한 대상 확대를 통해 표준적이고 국제적인 응용이 기대된다.

아이트래킹을 활용한 개인 게임방송 실시간 댓글의 시각적 주의에 관한 연구: 모바일 플랫폼을 중심으로 (A Study on the Visual Attention of Game Broadcast Real-time Review Using Eye Tracking: Focusing on Mobile Platform)

  • 은석함;왕김남;황미경;이상호
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.733-739
    • /
    • 2022
  • 본고는 사전 설문지를 통해 소비자의 실시간 댓글에 대한 기능성 수요, 수용 정도 및 선호도를 조사한 뒤 아이트래킹을 통해 실시간 댓글의 유형 및 구역 위치에 대해 비교분석을 진행하는 연구이다. 연구 결과에 따르면, 실시간 댓글의 기능성 수요가 비교적 높고, 수용 정도가 비교적 높으며, 실시간 댓글의 기능은 이용자 선호도에 영향을 미치지 않는 것으로 나타났다. 실시간 댓글 유형 중에 문장 하나를 별도의 반투명 사각형으로 했을 경우 스타일의 시각주의도가 가장 높게 나타났다. 이는 이용자의 시각 행동에 독특한 스타일의 경향성이 있음을 의미한다. 본 연구는 실시간 댓글 중 다양한 유형과 구역 위치의 시각적 주의도를 분석하는 것을 통하여 추후 실시간 댓글의 인터페이스 디자인에 선도적 역할을 할 수 있을 것으로 기대한다.

한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구 (A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks)

  • 김진성;김경민;손준영;박정배;임희석
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.39-47
    • /
    • 2021
  • 효과적인 분절을 통한 양질의 입력 자질 구성은 언어모델의 문장 이해력을 향상하기 위한 필수적인 단계이다. 입력 자질의 품질 제고는 세부 태스크의 성능과 직결된다. 본 논문은 단어와 문장 분류 관점에서 한국어의 언어적 특징을 효과적으로 반영하는 분절 전략을 비교 연구한다. 분절 유형은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 분류하며, RoBERTa 모델 구조를 활용하여 사전학습을 진행한다. 각 세부 태스크를 분류 단위에 따라 문장 분류 그룹과 단어 분류 그룹으로 구분 지어 실험함으로써, 그룹 내 경향성 및 그룹 간 차이에 대한 분석을 진행한다. 실험 결과에 따르면, 문장 분류에서는 단위의 언어학적 분절 전략을 적용한 모델이 타 분절 전략 대비 최대 NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% 높은 성능을, 단어 분류에서는 음절 단위의 분절 전략이 최대 NER: +0.7%, SRL: +0.61% 높은 성능을 보임으로써, 각 분류 그룹에서의 효과성을 보여준다.

템플릿에 기반한 기록정보 QA (Record Information Retrieval based on Template)

  • 이충희;오효정;김현진;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.478-480
    • /
    • 2005
  • 기네스 기록과 같은 기록정보는 사용자가 질의응답 시스템에 자주 질문할 수 있는 내용이지만, 구성단어의 수가 적고 일반적인 단어로 구성되는 기록정보 문장의 특성으로 인해 전통적인 질의응답 시스템에서는 정답을 제시하기 힘든 정보이다. 그러므로 기록정보만을 위한 접근방법이 필요하다. 우리는 기록정보는 특정 문맥에 의해 쓰여지는 경우가 많다는 가정 하에, 문맥 정보를 반영할 수 있는 템플릿을 정의하고, 이 템플릿에 의해서 기록정보를 색인하여 정답을 제시하는 시스템을 제안한다. 템플릿은 거리, 형태소, 형태 소품사, 정답유형, 구문 정보의 5가지 제약정보를 나타낼 수 있게 구성된다. 전통적인 백과사전 QA 시스템과 제안 시스템을 비교하여 평가한 결과, 제안한 방법이 기록정보 QA 시스템에 효과적임을 알 수 있었다.

  • PDF