• 제목/요약/키워드: System use

검색결과 30,137건 처리시간 0.06초

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.

정보보호 대책의 성능을 고려한 투자 포트폴리오의 게임 이론적 최적화 (Game Theoretic Optimization of Investment Portfolio Considering the Performance of Information Security Countermeasure)

  • 이상훈;김태성
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.37-50
    • /
    • 2020
  • 사물 인터넷, 빅데이터, 클라우드, 인공지능 등 다양한 정보통신기술이 발전하면서, 정보보호의 대상이 증가하고있다. 정보통신기술의 발전에 비례해서 정보보호의 필요성이 확대되고 있지만, 정보보호 투자에 대한 관심은 저조한 상황이다. 일반적으로 정보보호와 관련된 투자는 효과를 측정하기 어렵기 때문에 적절한 투자가 이루어지지 않고 있으며, 대부분의 조직은 투자 규모를 줄이고 있다. 또한 정보보호 대책의 종류와 특성이 다양하기 때문에 객관적인 비교와 평가가 힘들고, 객관적인 의사결정 방법이 부족한 실정이다. 하지만 조직의 발전을 위해서는 정보보호와 관련된 정책과 의사결정이 필수적이며 적정 수준의 투자와 이에 대한 투자 효과를 측정 할 필요가 있다. 이에 본 연구에서는 게임 이론을 이용하여 정보보호 대책 투자 포트폴리오를 구성하는 방법을 제안하고 선형계획법을 이용하여 최적 방어 확률을 도출한다. 2인 게임 모형을 이용하여 정보보호 담당자와 공격자를 게임의 경기자로 구성한 뒤, 정보보호 대책을 정보보호 담당자의 전략으로, 정보보호 위협을 공격자의 전략으로 각각 설정한다. 게임 모형은 경기자의 보수의 합이 0인 제로섬 게임을 가정하고, 여러개의 전략 사이에서 일정한 확률 분포에 따라 전략을 선택하는 혼합 전략 게임의 해를 도출한다. 여러 종류의 위협이 존재하는 현실에서는 한 개의 정보보호 대책만으로 일정 수준 이상의 방어가 힘들기 때문에, 다수의 정보보호 대책을 고려해야한다. 따라서 다수의 정보보호 위협에 따른 정보보호 대책이 배치된 환경에서 정보보호 대책의 방어 비율을 이용하여 정보보호 대책 투자 포트폴리오를 산출한다. 또한 최적화된 포트폴리오를 이용하여 방어 확률을 최대화하는 게임 값을 도출한다. 마지막으로 정보보호 대책의 실제 성능 데이터를 이용하여 수치 예제를 구성하고, 제안한 게임 모델을 적용하고 평가한다. 본 연구에서 제시한 최적화 모델을 이용하면 조직의 정보보호 담당자는 정보보호 대책의 방어 비율을 고려하여 정보보호 대책의 투자 가중치를 구할 수 있고, 효과적인 투자 포트폴리오를 구성하여 최적의 방어 확률을 도출 할 수 있을 것이다.

동.서양 해자(垓字)의 비교 고찰 (A Comparative Considerations of the Moat at the East and West)

  • 정용조;박주성;심우경
    • 한국전통조경학회지
    • /
    • 제28권3호
    • /
    • pp.29-38
    • /
    • 2010
  • 해자란 성벽 외곽에 파 놓은 못 또는 물길로 적이 성벽에 직접 접근할 수 없도록 하거나 이를 경계로 공간을 구분하고자 설치된 시설의 하나로, 본 연구에서는 고대로부터 중세에 이르기까지 동양과 서양에서 존재했던 해자의 특성을 비교하기 위한 것으로 수행한 연구의 결과는 다음과 같다. 첫째, 동양의 해자는 자연적 해자와 인공적 해자를 동시에 설치하였으나, 서양의 해자는 천연의 요새지에 성(城)을 쌓아 자연적 해자를 많이 활용하였다. 둘째, 한국의 해자는 일본 및 중국, 서양의 다른 국가에 비해 해자의 규모가 작다. 셋째, 동양의 성은 읍이나 왕궁을 보호하기 위해 성을 쌓았으나, 서양에서는 왕이나 영주, 대저택, 부호의 저택을 보호하기 위해 성을 쌓았으며, 적의 침입을 방어하기 위해 자연적 해자와 인공적 해자를 병행하여 활용하였다. 넷째, 동양에서 풍수지리는 우리 민족의 기층적 사상 체계를 이루어온 수많은 사상들 중 하나로 신라 이후 우리 민족에게 깊은 영향을 끼친 관념임을 부인할 수 없으며, 성의 위치를 정할 때에도 풍수지리를 고려하였다. 성을 둘러싸고 있는 해자는 성내에 있는 좋은 기(氣)가 밖으로 빠져 나가지 못하게 하는 역할을 하였다. 다섯째, 서양에서 Ha-Ha수법은 담장 대신 정원 부지의 경계선에 해당되는 곳에 도랑을 파서 외부로부터의 침입을 막도록 한 것으로서 이 도랑의 존재를 모르고 원로를 따라 거닐다가 갑자기 원로가 도랑으로 차단되고 있음을 발견하였을 때 부지불식 중에 지르는 감탄사로 원래 중세기 때의 군사용 호였는데, 정원에 수직적으로 담을 둘러치는 물리적인 경계 없이 정원을 바라볼 수 있게 정원의 경계선에 깊은 도랑과 같은 모양으로 파 놓음으로써 가축이 정원으로 들어오는 것을 막고, 목장이나 산림, 경작지 등을 정원의 구성요소로 끌어들이는 역할을 하였다.

만취정(晩翠亭)의 장소 전승과 원형경관향유 양상 (A study on the Meaning Contact of ManChwi Pavilion's Place Transmission and Sense of Prototype Landscape)

  • 이승연;신상섭;강병선
    • 한국전통조경학회지
    • /
    • 제34권3호
    • /
    • pp.38-49
    • /
    • 2016
  • 본 연구는 기문과 시문이 장소성의 함의와 원형경관의 유추 및 향유양상을 탐색할 수 있는 근거가 될 수 있다는 전제로 임실 만취정의 원래 위치 및 이건된 위치에서 입지 및 원형경관을 탐색하고 그 의미를 추론하였다. 임실 만취정의 이건 전 후의 장소적 가치와 원형경관 보존을 위해 시도된 연구 결과는 다음과 같다. 첫째, 정자의 당호 만취(晩翠)는 작정자 김위가 자신의 호로 삼았으며, 소나무를 마주보게 심고 만취라 편액하였는데, 시문에 근거하면 푸른 소나무와 같은 꿋꿋한 기개를 상징하고 있다. 특히 정자에 내재된 의미와 도입된 상징식물 등을 살펴보았을 때 당호는 절개, 가문의 장생, 생명력 등을 반영한 것으로 해석된다. 둘째, 만취정은 풍수적으로 강 건너 제비형국과 마주한 사두형에 자리잡아 팽팽한 균형을 갖고 있어 절개와 가문 번영을 염원하는 장소성을 지니고 있다. 한편, 이건된 만취정은 풍수적 복치형(伏雉形) 형국으로 해석되는데, 학문과 가문 번영에 대한 계승노력이 전승되고 있음을 유추할 수 있다. 셋째, 만취정은 1572년에서 1582년 사이에 건립되었으며, 이건은 1880년대 말에 이루어졌을 것으로 추정하였다. 넷째, 만취정은 변치 않는 절개와 가문번영의 염원을 장소적 언어로 대입시켰으나 후손들에 의해 만취 김위의 묘 옆으로 이건 됨으로서 조상 추모, 후손 학문번영이라고 하는 가치이동 양상이 추적된다. 다섯째, 이건된 만취정은 온돌방에 비중을 둔 사계절 활용, 공간 확장성을 고려한 툇마루, 주련의 내용 등으로 볼 때 강학공간으로서의 의미를 공유, 전승한 것으로 추론된다. 여섯째, 제영시에 나타난 소나무, 연못, 식물, 계곡, 시냇물 등을 통해 절개, 지조, 깨긋한 심성, 유유자적한 삶, 자아성찰, 인생무상 등의 의미가 투영되는 경관향유 양상이 드러나고 있다. 마지막으로 십영의 제영 언어는 원운과 차별성이 인정되지만 의미나 감흥을 통해 원운십영이 지닌 원형경관 향유양상은 전승되고 있는바 관련 시문분석에 따른 경관탐색은 원형경관 보존 및 활용을 위한 근거가 될 수 있음을 보여준다.

중국 역대 북경팔경(北京八景)의 경관인식 변화에 대한 고찰 (A Study on the Changes of Landscape Perception for 'Bejing-Palgyeong(北京八景)' in China)

  • 권지영;김성균
    • 한국전통조경학회지
    • /
    • 제38권2호
    • /
    • pp.1-13
    • /
    • 2020
  • 본 연구는 북경팔경과 관련된 시문과 서화를 비롯하여 고지도·고문헌 등을 분석하여 북경팔경의 시대별 변천과정과 경관인식 변화, 북경팔경의 물리적 경관요소 및 구조분석과 국가경영과의 관계, 마지막으로 북경팔경의 장소화과정을 고찰하였다. 북경팔경의 경점은 도성 밖과 안으로 각각 네 곳씩 분포하고 있으며, 도성 밖은 모두 황제의 휴식처이자 북경의 산수경관의 중심인 서산 지역에 집중되었고, 도성 안의 경점은 궁궐의 황제원림에 두 곳, 성곽 주변의 마을 두 곳에 분포하고 있다. 즉 북경팔경은 초기 조성될 때부터 황실, 황제, 황궁과 밀접하게 관련된 장소로 선정하였으며, 금 이후 원·명·청대를 거치면서 황제를 비롯한 수많은 학자들이 국가경영에 활용함으로써 점점 도성팔경으로서 성격이 짙어졌다. 도성 내 두 곳은 신선과 황제를 동격화하여 칭송하였으며, 도성 밖 두 곳은 도성주변의 마을 경관의 모습을 담고 있으면서 통치를 받는 백성들의 편안한 삶을 묘사하고 있다. 결국 팔경의 대부분 조망지역은 황궁과 황제와 관련이 있음을 알 수 있다. 북경팔경의 물리적 경관을 요소별로 살펴보면, 수도방비·인재선발·농사에 대한 내용을 담은 국가경영과 황제 칭송, 북경 민가의 모습을 담고 있다. 건륭제는 중국의 팔경(경관) 문화를 소상팔경(북송)→서호팔경(남송원말)→연경팔경(금대)→북경팔경(명대)→건륭제의 연산팔경(청대)으로 역사적 맥락을 계승하려고 하였을 뿐만 아니라 비석과 원림 조성을 통해 북경팔경의 장소화하는 과정을 확인하였다.

의복의 자아 근접성 척도 검증 - 노년층을 대상으로 - (Validation of the Proximity of Clothing to Self Scale for Older Persons)

  • 이영아
    • 한국의류학회지
    • /
    • 제31권6호
    • /
    • pp.848-858
    • /
    • 2007
  • 의복의 자아 근접성 개념을 기반으로 한 여러 연령층의 설문조사 결과를 바탕으로 하여 2004년에 Sontag과 Lee가 객관적 측정도구, 의복의 자아 근접성 척도(PCS Scale)를 개발하였다. Sontag과 Lee는 24-항목을 포함한 4-요인으로 구성된 PCS 척도를 청소년층을 대상으로 타당화 하였다. 본 연구는 그들 연구의 연계로 초기 6-요인으로 구성되었던 PCS 척도를 노년층에 적용하여 19-항목을 포함한 3-요인으로 구성된 PCS 척도를 타당화 한다. 65세 이상의 노인층이 본 연구의 표본집단으로 설정되었고 임의 표집방법을 이용, 미국 전역 1,700명의 노년 표본이 표본조사회사로부터 구입되었다. 2004년 11월 설문조사가 시작되어 2005년 2월에 총 250개의 이용 가능한 설문자료가 수집되었다(15.6%의 응답 비율). PCS 척도의 타당성을 검증하기 위하여 Sontag과 Lee의 연구에서 사용한 요인분석과 신뢰도분석을 동일하게 3단계 절차로 노인층을 대상으로 실시하였다. AMOS 5.0 을 사용한 3단계 신뢰도 분석 결과 19-항목을 포함한 3-요인으로 구성된 PCS척도의 타당성이 노인층을 대상으로 검증되었다. 노인층의 PCS척도는 다음의 3-요인으로 구성된다: 1) 의복이 자아 구성 과정에 미치는 영향(PCS 요인 1-2-3의 병합), 2) 의복이 평가적이고 정서적인 자존 형성과정에 미치는 영향(PCS 요인 4-5의 병합), 그리고 3) 의복이 신체상과 신체에 쏟는 정신 집중정도에 미치는 영향(PCS 요인 6). Sontag과 Lee가 초기적으로 가설한 6-요인 PCS 척도는 청소년층과 노인층을 대상으로 한 어느 연구에서도 검증되지 않았다. 더 나아가, 이들이 검증한 청소년층의 4-요인 PCS 척도도 노인층을 대상으로 한 연구에서 검증되지 않았다. 이는 노인들의 자아 구성 이젊은 층보다 더 통괄/복합적인 것에서 기인된다고 보인다. 이 글은 PCS 척도의 앞으로의 연구방향과 이용방향을 끝으로 마무리 지어 진다.

BHC 이성질체(異性質體)의 활용(活用)에 관(關)한 연구(硏究) -제초제(除草劑)로서 3-(2,4,5-trichlorophenyl)-1- methyl urea의 합성(合成)- (On the Utilization of Inactive BHC isomers -Synthesis of 3-(2,4,5-trichlorophenyl)-1-methyl urea as a herbicide-)

  • 이규승;박창규
    • Applied Biological Chemistry
    • /
    • 제22권2호
    • /
    • pp.109-122
    • /
    • 1979
  • 잔류성(殘留性) 살충제(殺忠劑)인 BHC의 합리적(合理的) 사용방법(使用方法)을 찾기 위하여 용매추출법(溶媒抽出法)에 의한 ${\gamma}$-isomer를 분리(分離) 및 농축(濃縮)하였다. 그리고 불활성(不活性) 이성질체(異性質體)로 부터 1,2,4-trichlorobenzene, 2,4,5-trichloronitrobenzene, 2,4,5-trichloroaniline을 거쳐 3-(2,4,5-trichlorophenyl)-1-methyl urea를 합성(合成)하였으며 몇가지 작물(作物)에 대한 발아(發芽) 및 생육억제효과(生育抑制效果)를 조사하였다. 실험결과(實驗結果)를 요약(要約)하면 다음과 같다. 1. methanol-물 용매계(溶媒系)에서 BHC 원제(原劑)를 재결정(再結晶)하였고, ${\gamma}$-이성질체의 회수율(回收率) 95%에서 ${\gamma}$-이성질체의 조성(組成)이 49.5%로 강화(强化)된 BHC 결정(結晶)을 얻었다. 2. BHC 원제(原劑)를 85%의 methanol성(性) 수용액(水溶液)으로 추출(抽出)한 다음, chloroform이 분배(分配)시켜 재결정시켰을 때는 ${\gamma}$-이성질체의 회수율 90.5%에서 ${\gamma}$-이성질체의 조성(組成)이 89.6%로 농축된 BHC 결정을 얻을수 있었다. 3. BHC 원제로 부터 1,2,4-trichlorobenzene의 합성시(合成時), 합성수율(合成收率)은 alkali 농도(溫度)에 크게 좌우되며, 사용(使用)된 alkali의 종류에도 다소 영향을 받는다. 4. BHC 원제의 alkali 가수분해시(加水分解時) 계면활성제(界面活性劑)의 첨가(添加)는 1,2,4-trichlorobenzene의 수율(收率)을 높혔다. 특히 사급(四級)암모늄염은 1,2,4-trichlorobenzene의 수량(收量)을 크게 증가(增加)시켰다. 5. 1,2,4-trichlorobenzene으로 부터 2,4,5-trichloronitrobenzene의 합성시(合成時) nitro 화시약(化試藥)으로서 $HNO_3-H_2SO_4$를 사용하였을때 94.4%라는 높은 수율(收率)을 보였다. 6. 2,4,5-trichloronitrobenzene을 철(鐵)과 염산(鹽酸)으로 환원(還元)시켰을때, 생성(生成)된 2,4,5-trichloroaniline의 수율(收率)은 91.4%이였다. 7. BHC 원제(原劑)를 기준(基準)으로한 3-(2,4,5-trichlorophenyl)-1-methyl urea의 전수율(全收率)은 60.8%이었다. 8. 6종(種)의 작물에 대한 3-(2,4,5-trichlorophenot)-1-methyl urea의 발아(發芽) 및 생육억제효과(生育抑制效果)는 대조(對照)로 사용한 urea계(系) 제초제(除草劑)인 linuron, diuron 보다 강(强)하였으며, 또 본(本) 화합물(化合物)에 대한 감수성(感受性)은 작물의 종류(種類)와 부위(部位)에 따라 차이(差異)가 있었다.

  • PDF

SPOT/VEGETATION NDVI 자료를 이용한 동북아시아의 생태기후지도 (Ecoclimatic Map over North-East Asia Using SPOT/VEGETATION 10-day Synthesis Data)

  • 박윤영;한경수
    • 한국농림기상학회지
    • /
    • 제8권2호
    • /
    • pp.86-96
    • /
    • 2006
  • 새로운 개념과 알고리즘으로 완성된 지표 변수 데이터베이스인 Ecoclimap-1이 전 지구 영역에 대해 1km의 해상도로 제공 된 바 있다. 이것은 기상과 기후의 모델에서 토양과 식물과 대기 사이의 이동을 정량적으로 표현하기 위해 고안 되었으며, Ecoclimap-1 데이터베이스를 구성하는 지표변수 자료들은 토지피복지도와 기후지도를 중첩하여 얻어진 생태기후 지도를 기본 주제도로 사용하여 각 클래스에 대한 값(per-class)로 제공된다. 생태기후지도의 제작은 일반적으로 사용하는 토지피복분류가 나타내지 못하는 동질 피복 내 생장 주기의 변동성을 고려하기 위한 것이다. 그러나 이렇게 중첩하여 얻은 주제를 사용하더라도 역시 같은 class내부의 식생 생장 주기의 변동성은 여전히 높게 나타나는 경향을 보였다. 본 연구에서는 이러한 단점을 보완하기 위하여 새로운 방법으로, SPOT/VEGETATION S10 NDVI 자료를 이용하여 토지피복지도와 기후지도의 단순 중첩이 아닌 동일 토지피복 클래스 내의 sub-clustering을 통하여 보다 동질의 하위 집단으로 분류한다. 본 연구는 Ecoclimap-2 project의 전 지구 데이터 베이스 구축의 일환으로 동북 아시아 지역의 생태기후지도 제작을 수행하였다. 사용된 토지피복지도는 University of Maryland Global Land Cover Database를 사용하였고 기후지도는 각 토지피복 클래스의 sub-clustering시 초기 군집의 수를 결정하기 위한 보조 자료로 사용하였다. 1999년부터 2004년 총 6년 동안의 NDVI 10-day 자료를 이용하였고 한 UMD토지피복 class내에 존재하는 모든 화소의 시 공간 긴밀도를 분석하여 비슷한 NDVI 정보를 가지는 화소들을 통합하였다. 이러한 과정을 통해 동북아시아를 총 29개의 ecosystem으로 정의 하였다. 이러한 ecosystem map은 앞으로의 기후 모델 연구에 있어 중요한 기본 주제도로 유용할 것으로 보이며 또한 생태계모델, 기상모델의 중요한 input 자료로서 쓰여 질 것으로 사료 된다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.