• 제목/요약/키워드: 정보 표현 기법

검색결과 2,139건 처리시간 0.029초

법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론 (Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System)

  • 김지현;이종서;이명진;김우주;홍준석
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.137-152
    • /
    • 2012
  • 인터넷 환경에서 월드 와이드 웹이 등장한 이후 웹을 통해 수많은 웹 페이지들이 생산됨에 따라 사용자가 원하는 정보를 검색하기 위한 다양한 형태의 검색 서비스가 여러 분야에서 개발되어 활용되고 있다. 특히 법령 검색은 사용자가 현재 자신이 처한 상황에 필요한 법령을 검색하여 법령에 대한 지식을 얻기 위한 창구로써 국민의 편의를 제공하기 위해 반드시 필요한 서비스 중 하나이다. 이에 법제처는 2009년부터 국민 누구나 편리하게 법령에 관련된 정보를 검색할 수 있도록 국가의 법령뿐만 아니라 행정규칙이나 판례 등 모든 법령정보를 검색할 수 있는 검색 서비스를 제공하고 있다. 하지만 현재까지의 검색엔진 기술은 기본적으로 사용자가 입력한 질의어를 문서에 포함하고 있는지의 여부에 따라 해당 문서를 검색 결과로 제시한다. 법령 검색 서비스 또한 해당 법령에 등장하는 키워드를 활용하여 사용자에게 검색 결과를 제공해주고 있다. 따라서 법제처의 이런 노력에도 불구하고 법령이 전문가의 시각에서 작성되었기 때문에 법에 익숙하지 않은 일반 사용자는 자신이 필요한 법령을 검색하기 어려운 한계점을 가지고 있다. 이는 일반적으로 법령에 사용되는 용어들과 일반 사용자가 실생활에 사용하는 단어가 서로 상이하기 때문에 단순히 키워드의 단순 매칭 형태의 검색엔진에서는 사용자들이 주로 사용하는 생활용어를 이용해서 원하는 법령을 검색할 수 없다. 본 연구에서는 법률용어에 관한 사전지식이 부족한 일반 사용자가 일상에서 주로 사용되는 생활용어를 이용하여 키워드 기반의 법령정보 검색 사이트에서 정확한 법령정보 검색이 가능하도록 생활용어와 법률용어 간의 대응관계를 탐색하고 이를 이용하여 법령을 검색할 수 있는 방법론을 제안하고자 한다. 우선 생활용어와 법률용어 간의 대응관계를 발견하기 위해 본 논문에서는 사용자들의 집단지성을 활용한다. 이를 위해 사용자들이 블로그의 분류 및 관리, 검색에 활용하기 위해 작성한 태그 정보를 이용하여 질의어인 생활용어와 관련된 태그들을 수집한다. 수집된 태그들은 K-means 군집분석 기법을 통해 태그들을 클러스터링하고, 생활용어와 가장 가까운 법률용어를 찾기 위한 평가 방법을 통해 생활용어에 대응될 수 있는 적절한 법률용어를 선택한다. 선택된 법률용어는 해당 생활용어와 명시적인 관계성이 부여되며, 이러한 생활용어와 법률용어와의 관계는 온톨로지 기반의 시소러스를 기술하기 위한 SKOS를 이용하여 표현된다. 이렇게 구축된 온톨로지는 사용자가 생활용어를 이용하여 검색을 수행할 경우 생활용어에 대응되는 적절한 법률용어를 찾아 법령 검색을 수행하고 그 결과를 사용자에게 제시한다. 본 논문에서 제시하고자 하는 방법론을 통해 법령 및 법률용어에 관련된 사전 지식이 없는 일반 사용자도 편리하고 효율적으로 법령을 검색할 수 있는 서비스를 제공할 것으로 기대한다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.

퇴적물 이동경로 식별을 위한 입도경향 분석법의 가능성과 한계 (Grain-Size Trend Analysis for Identifying Net Sediment Transport Pathways: Potentials and Limitations)

  • 김성환;류호상;유근배
    • 대한지리학회지
    • /
    • 제42권4호
    • /
    • pp.469-487
    • /
    • 2007
  • 입도경향 분석법은 파이척도로 표현된 평균입도, 분급, 왜도 등 퇴적물 입도조직변수가 퇴적물의 이동경로를 따라 특정한 경향을 보이는 성질을 이용한 퇴적물 이동경로 식별 방법론이다. 적용이 간편하고 저렴하여 지형학 연구에 널리 응용될 수 있는 가능성을 지니고 있으나 방법론상의 한계도 몇 가지 측면에서 지적되고 있어 주의가 필요하다. 이 연구는 McLaren과 Bowles의 1차원 경로분석법, Gao와 Collins, Le Roux의 2차원 이동벡터법 등 현재까지 정립된 입도경향 분석의 대표적인 세 가지 기법을 비교 평가하여 적절한 활용법을 도출하고, 입도경향 분석의 추후 연구과제를 제안한 것이다. McLaren-Bowles의 1차원 경로분석법은 연구자의 현장경험을 분석에 효과적으로 결합시킬 수 있고 X-분포를 통해 퇴적환경에 대한 해석을 제공해주며 장기적인 퇴적물 순이동 패턴을 파악하는데 효과적이나 연구자의 주관적 해석에 의존해야 한다는 점, 식별할 수 있는 시간 해상도가 낮다는 점등이 단점이다. Gao-Collins의 2차원 이동벡터법은 명확한 절차, 2차원적인 시각화, 세밀한 시간 해상도 등이 장점이지만, 임계거리 선정, 잡벡터 제거과정 등이 문제를 유발할 수 있으므로 분석 시 주의를 요한다. 셋째, Le Roux의 2차원 이동벡터법은 확장된 경험규칙과 조직변수 간의 구배를 고려하고 시간해상도도 세밀하지만, 분석개념이 모호하고 복잡하다. 입도경향 분석은 현장에 대한 연구자의 이해도, 조사하고자 하는 퇴적물 순이동 패턴의 시간적 스케일, 초점을 맞추고자 하는 정보 등에 따라 적절한 기법을 선택하고, 거기에 부합되는 시료채취방안을 기획하는 것이 중요하다. 또한 입도경향 분석이 지형학 연구에 기여하기 위해서는 시료채취 깊이, 교란층의 두께 등 시료채취 과정의 요소들과 퇴적물 순이동 패턴이 지시하는 시간스케일 간의 관계가 체계적으로 규명되어야 한다고 판단된다.

온라인 상품평의 내용적 특성이 소비자의 인지된 유용성에 미치는 영향 (Impact of Semantic Characteristics on Perceived Helpfulness of Online Reviews)

  • 박윤주;김경재
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.29-44
    • /
    • 2017
  • 인터넷 상거래에서, 소비자들은 기존에 제품을 구매한 다른 사용자들이 작성한 상품평에 많은 영향을 받는다. 그러나, 상품평이 점차 축적되어감에 따라, 소비자들이 방대한 상품평을 일일이 확인하는데 많은 시간과 노력이 소요되고, 또한 무성의하게 작성된 상품평들은 오히려 소비자들의 불편을 초래하기도 한다. 이에, 본 연구는 온라인 상품평의 유용성에 영향을 미치는 요인들을 분석하여, 소비자들에게 실제로 도움이 될 수 있는 상품평을 선별적으로 제공하는 예측모형을 도출하는 것을 목적으로 한다. 이를 위해, 텍스트마이닝 기법을 사용하여, 상품평에 포함되어있는 다양한 언어적, 심리적, 지각적 요소들을 추출하였으며, 이러한 요소들 중에서 상품평의 유용성에 영향을 미치는 결정요인이 무엇인지 파악하였다. 특히, 경험재인 의류군과 탐색재인 전자제품군에 대한 상품평의 특성 및 유용성 결정요인이 상이할 수 있음을 고려하여, 제품군별로 상품평의 특성을 비교하고, 각각의 결정요인을 도출하였다. 본 연구에는 아마존닷컴(Amazon.com)의 의류군 상품평 7,498건과 전자제품군 상품평 106,962건이 사용되었다. 또한, 언어분석 소프트웨어인 LIWC(Linguistic Inquiry and Word Count)를 활용하여 상품평에 포함된 특징들을 추출하였고, 이후, 데이터마이닝 소프트웨어인 RapidMiner를 사용하여, 회귀분석을 통한, 결정요인 분석을 수행하였다. 본 연구결과, 제품에 대한 리뷰어의 평가가 높고, 상품평에 포함된 전체 단어 수가 많으며, 상품평의 내용에 지각적 과정이 많이 포함되어 있는 반면, 부정적 감정은 적게 포함된 상품평들이 두 제품 모두에서 유용하다고 인식되는 것을 알 수 있었다. 그 외, 의류군의 경우, 비교급 표현이 많고, 전문성 지수는 낮으며, 한 문장에 포함된 단어 수가 적은 간결한 상품평이 유용하다고 인식되고 있었으며, 전자제품의 경우, 전문성 지수가 높고, 분석적이며, 진솔한 표현이 많고, 인지적 과정과 긍정적 감정(PosEmo)이 많이 포함된 상품평이 유용하게 인식되고 있었다. 이러한 연구결과는 향후, 소비자들이 효과적으로 유용한 상품평들을 확인하는데 도움이 될 것으로 기대된다.

두개봉합 발육 연구를 위한 형질변환 쥐의 개발 : 어퍼트 신드롬 (Generation of a transgenic mouse model to study cranial suture development; Apert syndrome)

  • 이기준;;백형선;박영철;박광균;나현덕
    • 대한치과교정학회지
    • /
    • 제33권6호
    • /
    • pp.485-497
    • /
    • 2003
  • 악안면 구조의 형태와 기능은 대개 유전자 정보에 의해 결정된다. 분자생물학의 발달로 인해 정상 성장과 형태 형성에 중요한 유전자에 대한 정보가 밝혀지고 있고 이는 현대 두개안면 생물학의 근간이 되고 있다. 밝혀진 사실들 중 주목할만한 것은 섬유아세포 성장인자2 (FGFR2)에 서 의 특이한 돌연변이 가 어 퍼트 증후군 (Apert syndrome) 의 발생과 관련이 있다는 것이다. 어퍼트 증후군은 두개 관상봉합의 조기 유합과 사지의 기형으로 특징지워진다. 그 중 특히 두개골 유합증의 병인과 형성기전을 연구하기 위해 본 연구에서 유전자 변환기법을 시도하여 어퍼트 증후군의 유발인자로 알려진 FGFR2에 서 의 단일 아미노산 치 환 돌연변이를 재연한 인위 유전자구조물을 제작하고 이를 미 세주입법으로 쥐의수정란에 삽입하여 형질변환 쥐를 제작하였다. 본 연구에서는 전체 조직이 아닌 골조직에서 특이하게 활성화되는 전사촉진자(promoter, 제 I형 교원질 유전자의 전사촉진자)를 이용하여 골조직에서만 돌연변이 유전자의 발현을 재현함으로써 이 시도가 쥐에서 두개골유합증을 유발하는지 검증하고자 하였다. 초기 표현형 분석을 통해 어퍼트 환자에서 기대되는 두개골 유합증을 확인하였다. 또한 본 연구에서 삽입된 변환유전자가 원활히 돌연변이 단백질을 생산하고 기능의 증가를 보임을 확인하였다. 이러한 동물 모델을 이용함으로써 이제 정상적 혹은 비정상적 두개골 및 봉합 발육에서의 FGFR2의 역할을 연구하는 것이 가능하리라 사료된다

특수 목적견으로서의 품성 및 능력 관련 유전자들에 관한 생물정보학적 분석 (Bioinformatic Analysis of the Canine Genes Related to Phenotypes for the Working Dogs)

  • 권윤정;어정우;최봉환;최유리;김정안;김다희;김태헌;성환후;김희수
    • 생명과학회지
    • /
    • 제23권11호
    • /
    • pp.1325-1335
    • /
    • 2013
  • 특수 목적견(구조견, 군견, 안내견 및 탐지견)은 집중력, 소유욕, 대담성 등을 기반으로 한 훈련시험을 통해 선별된다. 최근 특수견으로서의 특수한 능력 및 품성에 대해 유전적인 정보가 중요한 인자로 다뤄지고 있다. 본 연구에서는 특수견으로서의 개의 특수한 능력 및 품성과 관련된 유전자들의 분자적인 특징을 고찰하고자 하였다. 이전 연구에서 보고된 24개의 유전자(AR, BDNF, DAT, DBH, DGCR2, DRD4, MAOA, MAOB, SLC6A4, TH, TPH2, IFT88, KCNA3, TBR2, TRKB, ACE, GNB1, MSTN, PLCL1, SLC25A22, WFIKKN2, APOE, GRIN2B, PIK3CG)를 선택하여 품성, 후각, 운동 및 학습능력 관련 유전자, 네 가지 카테고리로 분류하였다. 본 연구에서는 생물학적인 기법을 이용하여 이 유전자들의 염색체상의 위치, 유전자들 간의 네트워크를 통한 상호관계를 조사하였으며, 어떤 생물학적 기능과 관련이 있는지 Gene Ontology 분석과 데이터베이스를 기반으로 in silico 발현 양상을 살펴보았다. 또한 이전 연구를 통하여 품성 관련 유전자들의 다양한 유전적 다형성에 대한 보고를 조사하였다. 본 연구는 특수 견으로서 주요하게 고려되는 개의 고유한 능력 및 품성 관련된 유전자에 대해 분자적 특징을 제시하고 있다. 이 후보 유전자들은 개의 특수한 표현형과의 관계를 밝힐 수 있는 연구의 기초자료로서 이용될 수 있을 뿐만 아니라 핵심적인 유전인자로 응용되어 신속하고 정확한 특수견 선발에 기여할 수 있을 것으로 전망된다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

사회연결망 분석을 활용한 연관규칙 확장기법 (Extension Method of Association Rules Using Social Network Analysis)

  • 이동원
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.111-126
    • /
    • 2017
  • 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 상품 탐색 시간을 줄여주며 판매자의 매출 증대에 크게 기여한다. 이는 주문과 같은 거래의 빈도를 기반으로 생성되므로, 통계적으로 판매 확률이 높은 상품을 효과적으로 선별할 수 있다. 하지만, 판매 가능성이 높은 경우라도 신상품처럼 판매 초기에 거래 건수가 충분하지 않은 상품은 추천에서 누락될 수 있다. 연관 추천에서 누락된 상품은 이로 인해 노출 기회를 잃게 되고, 이는 거래 건수 감소로 이어져, 또 다시 추천 기회를 잃는 악순환을 겪을 수도 한다. 따라서, 충분한 거래 건수가 쌓이기 전까지 초기 매출은 일정 기간 동안 정체되는 현상을 보이는데, 의류 등과 같이 유행에 민감하거나 계절 변화에 영향을 많이 받는 상품은 이로 인해 매출에 큰 타격을 입을 수도 있다. 본 연구는 이와 같이 거래 초기의 낮은 거래 빈도로 인해 잘 드러나지 않는 상품 간의 잠재적인 연관성을 찾아 추천 기회를 확보할 수 있도록 연관 규칙을 확장하기 위한 목적으로 수행되었다. 두 상품 간에 직접적인 연관성이 나타나지 않더라도 다른 상품을 매개로 두 상품 간의 잠재적 연관성을 예측할 수 있을 것이며, 이런 연관성은 주문에서 나타나는 상품 간 상호작용으로 표현될 수 있으므로, 사회연결망 분석을 활용한 분석을 시도하였다. 사회연결망 분석기법을 통해 각 상품의 속성과 두 상품 간 경로의 특성을 추출하고 회귀분석을 실시하여, 두 상품 간 경로의 최단 거리 및 경로의 개수, 각 상품이 얼마나 많은 상품과 연관성을 갖는지, 두 상품의 분류 카테고리가 어느 정도 일치하는지가 두 상품 간의 잠재적 연관성에 미친다는 것을 확인하였다. 모형의 성능을 평가하기 위해, 일정 기간의 주문 데이터로부터 연결망을 구성하고, 이후 10일 간 생성될 상품 간 연관성을 예측하는 실험을 진행하였다. 실험 결과는 모형을 적용하지 않는 경우보다 제안 모형을 활용할 때 훨씬 많은 연관성을 찾을 수 있음을 보여준다.