• 제목/요약/키워드: label quality

검색결과 176건 처리시간 0.022초

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.

유지류의 관리와 섭취실태에 관한 연구 (A Study on the Status of Management and Intake of Fats & Oils)

  • 김인숙;안명수
    • 한국식품조리과학회지
    • /
    • 제4권1호
    • /
    • pp.75-85
    • /
    • 1988
  • 1987년 6월 5일부터 7월 20일까지 대도시, 중소도시, 농촌, 어촌, 산촌 등 5개 지역 주부 296명을 대상으로 유지류의 관리와 섭취량 등을 조사하여 지역별 학력별 연령별로 비교 검토한 결과는 다음과 같다. 1. 일반사항 본 조사대상 주부들 중 도시지역 주부는 30대가 많았고 농·어·산촌 지역 주부는 50대 이상이 많았으며 학력수준은 도시지역이 높았다. 가족수는 대부분 3∼6인(83.1%)으로 전체의 74.7%가 소가족형태였으며 조사된 총가족수는 1,379명으로 남·여 분포는 거의 같은 비율이었다. 2. 영양지식 대상주부들 중에서 도시지역 주부와 교육 수준이 높은 주부들이 일반적인 영양 지식이 높게 나타났다. 또한 필수지방산을 알고 있는 주부는 32.8%이었으나 이에 대하여 정화하게 알고 있는 주부는 그 중 2/3 정도로 전반적으로 잘 모르고 있었다. 기름 섭취량은 앞으로도 현재와 거의 같은 양을 섭취하겠다는 주부(67.2%)가 많아 기름의 섭취량을 증가시킬 의사는 거의 없는 것으로 나타났다. 3. 식용유의 구입과 보관 식용유 구입시 설명서 구독율은 도시지역 주부와 교육수준이 높은 주부들이 높았으며, 구입과 사용시 불만은 품질(46.7%)에서 높게 나타났다. 식용유는 대부분 유리제품(64.7%)이나 합성수지제품(31.5%)용기에 넣어 그늘진 시원한 곳에 보관(97.7%)하여 기름의 품질보존에 주의를 기울이고 있는 점을 알 수 있었다. 4. 식용유의 사용 및 정제 대부분의 주부들이 일단 사용한 식용유를 거른 후에 다른 용기에 보관하고 있는 반면 재사용시에 새기름을 보충하여 사용하는 주부는 30.0% 밖에 안되고 있어 보관에 대한 관심도에 비하여 재사용에 대한 지식이 떨어지고 있음을 알 수 있었다. 5. 유지 밑 유지함유식품의 섭취량 1인 1일 유지 및 유지 함유 식품의 섭취량은 유지류 6.85g, 육류 및 육류가공식품 42.96g, 어패류 95.13g, 알류 22.89g, 콩류 및 콩제품 60.69g, 우유 및 유제품 61.00g, 종실류 4.22g, 인스턴트면류 9.36g이었다. 이들 식품으로부터 환산된 1인 1일 지방 섭취량은 대도시 37.8g, 중소도시 27.2g, 농촌 21.5g, 어촌 18.3g, 산촌 17.7g이었으며, 평균적으로 24.7g이었다. 이는 총열량의 20%3(성인 44.4~55.6g)인 지방권장량과 비교할 때 상당히 미달되고 있는 것으로 나타났다. 모든 유지함유식품은 농·어·산촌 지역보다 도시지역에서 더 많이 섭취하고 있었으며, 특히 도시 지역에서 육류와 우유 및 유제품을 많이 섭취하고 있었다. 이에 따라 유지류의 섭취패턴은 지역별로 3가지로 구분할 수 있었다. 즉 가장 많은 대도시, 중간인 중소도시와 농촌, 그리고 가장 적은 어촌과 산촌으로 섭취패턴을 구분할 수 있었다.

  • PDF

소셜미디어 분석을 통한 소비자들의 L-글루타민산나트륨에 대한 인식 조사 (Consumers Perceptions on Monosodium L-glutamate in Social Media)

  • 이수연;이원성;문일철;권훈정
    • 한국식품위생안전성학회지
    • /
    • 제31권3호
    • /
    • pp.153-166
    • /
    • 2016
  • 본 연구에서는 소셜미디어 콘텐츠를 소프트웨어 시스템을 이용하거나 정성적으로 분석함으로써 L-글루타민산나트륨에 대한 소비자 인식도를 조사하고자 하였다. 첫 번째로, 1년 (2013.7~2014.6)의 기간 동안 네이버와 카페에서 작성된 글들을 수집하였으며, 수집한 문서들을 무료 텍스트 분석 소프트웨어인 TONK를 사용하여 분석하였다. 블로그와 카페에서 작성된 글들은 주로 L-글루타민산나트륨의 사용과 관련된 음식점 후기 및 MSG (L-글루타민산나트륨)-무첨가 제품에 대한 홍보 내용을 담은 글들로 파악되었으며, 기타 L-글루타민산나트륨의 안전성 또는 식품첨가물 제거법에 대한 내용으로 파악되었다. 두 번째로, 네이버 트렌드 검색 서비스를 이용하여 L-글루타민산나트륨에 대한 검색량 증가 구간에 발생한 언론보도 사건을 조사하였다. PC 검색량의 경우 총 5개 증가 구간 중 3개의 구간에서, 모바일 검색량의 총 9개 증가 구간 중 6개의 구간에서 시사 프로그램에서 L-글루타민산나트륨에 대해 보도한 것으로 나타났다. 나머지 구간에서는 일간지나 TV 뉴스로 기사를 보도한 구간들로 나타났다. 세 번째로 식품의약품안전처의 L-글루타민산나트륨의 안전성 발표를 보도한 연합뉴스의 댓글을 분석하였다. 공감수 100개 이상인 댓글의 내용을 분석한 결과, L-글루타민산나트륨의 안전성, 질 낮은 재료의 사용 지적, MSG (L-글루타민산나트륨) 과다사용에 대한 우려, 정부 불신을 표현하는 댓글들이 파악되었다. 시판 제품들의 표시사항을 분석한 결과, 일일섭취허용량을 설정할 필요가 없을 정도로 안전한 식품첨가물임에도 불구하고 L-글루타민산나트륨을 첨가하지 않은 제품들은 L-글루타민산나트륨 무첨가라는 표시를 강조하고 있는 것으로 조사되었다. 이는 국가기관, 교육청과 지방자치단체에서 MSG 미사용을 원칙으로 제도를 운용하고 있어 이러한 정책이 산업계와 소비자 인식에 영향을 미쳤을 가능성도 고려해볼 수 있다. 본 연구 결과 소비자들은 대체로 소셜 미디어를 이용하여 검색하거나 관련 제품을 구매하고자 할 때 L-글루타민산나트륨을 사용하지 않는 것이 좋다는 인식을 하게 될 가능성이 있는 것으로 파악되며, L-글루타민산나트륨의 과다 사용에 관심이 있는 것으로 나타났다. TV 시사 프로그램에서 방송하거나 일간지 또는 TV 뉴스에서 기사를 보도할 경우 네이버 검색량이 증가하였으며, 검색량 증가구간은 PC 환경에서보다는 모바일 환경에서 더욱 증가하는 것으로 나타났다. 따라서 L-글루타민산나트륨과 관련한 커뮤니케이션 수단으로 소비자들이 관심있어 하는 방송프로그램, 뉴스 프로그램 등 언론을 활용하고, PC보다는 모바일을 통하여 소비자에게 접근한다면 효과적으로 소비자에게 정보를 전달할 수 있을 것이다.

인천 및 경기지역 성인 여성의 전자상거래에서 식품 구매실태와 식습관과의 관련성 (Food purchase in e-commerce and its relation to food habit of adult women in Incheon and Gyeonggi)

  • 박유진;김미현;최미경
    • Journal of Nutrition and Health
    • /
    • 제52권3호
    • /
    • pp.310-322
    • /
    • 2019
  • 본 연구에서는 인천 및 경기지역에 거주하며 식품 구매의 주 소비자인 성인 여성 410명을 대상으로 전자상거래에서 식품 구매 실태를 파악하고 식품 구매 상태에 따른 식생활과의 관련성을 분석하여 향후 전자상거래를 통한 올바른 식품 구매 지도 및 확산을 위한 기초자료로 활용하고자 하였다. 조사대상자의 연령은 20 ~ 50대가 비교적 고르게 분포하였으며, 기혼자가 70.5%였다. 전자상거래 식품 구매경험자는 87.6%이었으며, 최근 6개월 이내 식품 구매액은 대상자의 43.2%가 10만원 미만이었다. 식품 쇼핑몰에 대한 정보는 20 ~ 40대는 인터넷 검색을 통해서, 50대 이상의 경우에는 TV 광고를 통해서 얻는 경우가 많았다. 전자상거래에서 주로 구매하는 식품은 커피, 티, 간편조리식품, 냉장, 냉동식품이 40% 이상으로 높았다. 전자상거래를 이용하여 식품을 구매하는 이유는 '오프라인 매장 보다 저렴해서' '배송 및 운반이 편리해서', '전자상거래에서 판매되고 있는 식품의 종류가 다양해서', '경제활동 및 육아로 식품을 직접 구입할 시간이 부족해서' 순이었다. 전자상거래 식품 구매 시 중요하게 생각하는 부분은 '가격 및 품질'이 44.8%로 가장 높았으며, '신속하고 정확한 배송', '제품의 유통기한, 내용량, 영양성분, 성분명 및 함량의 명확한 표기' 순이었다. 전자상거래에서 식품 구매 후 대상자의 69.1%가 매우 만족 또는 만족하였으며, 95.5%는 향후 전자상거래에서 식품 구매의사가 있다고 답하였다. 전자상거래에서 식품 구매의 장점과 단점에 대한 인식은 5점 만점에 각각 3.6점과 3.7점이었으며, 50대 이상과 기혼자에서 장점에 대한 인식 점수가 유의하게 낮았다. 전자상거래에서 식품 구매자는 비구매자보다 '가공식품의 잦은 섭취', '달고 기름진 음식의 잦은 섭취', '외식', '과음 및 잦은 음주'의 식행동 점수가 낮아 바람직하지 않은 것으로 나타났다. 전자상거래에서 식품 구매비용이 높을수록 '우유 매일 섭취'의 식행동은 바람직한 반면, '가공식품의 잦은 섭취', '달고 기름진 음식의 잦은 섭취', '외식', '과음 및 잦은 음주'는 바람직하지 않은 것으로 나타났다. 전자상거래에서 식품 구매자는 비구매자보다 '천천히 여유롭게 식사', '편식하지 않고 음식을 골고루 섭취', '과식하지 않고 적당히 섭취' 점수가 낮아 바람직하지 않은 것으로 나타났으며, 식품 구매비용에 따라서는 금액이 낮을수록 '천천히 여유롭게 식사하는 편'의 식습관 점수가 높았다. 이상의 결과를 종합할 때 성인 여성의 87.6%가 전자상거래를 통한 식품 구매 경험을 가지고 있었으며, 전자상거래에서 식품 구매경험이 있거나 그 비용이 클수록 바람직하지 않은 식행동과 식습관을 보였다. 이와 같이 전자상거래에서 식품 구매는 소비자의 식행동 및 식습관과 관련성이 있는 것으로 나타나고 있기 때문에 지속적으로 증가하고 있는 전자상거래를 이용한 식품 구매 대상자들에게 건전한 식품구매와 올바른 식생활을 유도할 수 있는 지속적인 관심과 영양지도가 요구된다.

다중센서 고해상도 위성영상의 딥러닝 기반 영상매칭을 위한 학습자료 구성에 관한 연구 (A Study on Training Dataset Configuration for Deep Learning Based Image Matching of Multi-sensor VHR Satellite Images)

  • 강원빈;정민영;김용일
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1505-1514
    • /
    • 2022
  • 영상정합은 다시기 및 다중센서 고해상도 위성영상을 효과적으로 활용하기 위해 필수적으로 선행되는 중요한 과정이다. 널리 각광받고 있는 딥러닝 기법은 위성영상에서 복잡하고 세밀한 특징을 추출하여 영상 간 빠르고 정확한 유사도 판별에 사용될 수 있음에도 불구하고, 학습자료의 양과 질이 결과에 영향을 미치는 딥러닝 모델의 한계와 고해상도 위성영상 기반 학습자료 구축의 어려움에 따라 고해상도 위성영상의 정합에는 제한적으로 적용되어 왔다. 이에 본 연구는 영상정합에서 가장 많은 시간을 소요하는 정합쌍 추출 과정에서 딥러닝 기반 기법의 적용성을 확인하기 위하여, 편향성이 존재하는 고해상도 위성영상 데이터베이스로부터 딥러닝 영상매칭 학습자료를 구축하고 학습자료의 구성이 정합쌍 추출 정확도에 미치는 영향을 분석하였다. 학습자료는 12장의 다시기 및 다중센서 고해상도 위성영상에 대하여 격자 기반의 Scale Invariant Feature Transform(SIFT) 알고리즘을 이용하여 추출한 영상쌍에 참과 거짓의 레이블(label)을 할당한 정합쌍과 오정합쌍의 집합으로 구축되도록 하였다. 구축된 학습자료로부터 정합쌍 추출을 위해 제안된 Siamese convolutional neural network (SCNN) 모델은 동일한 두 개의 합성곱 신경망 구조에 한 쌍을 이루는 두 영상을 하나씩 통과시킴으로써 학습을 진행하고 추출된 특징의 비교를 통해 유사도를 판별한다. 본 연구를 통해 고해상도 위성영상 데이터 베이스로부터 취득된 자료를 딥러닝 학습자료로 활용 가능하며 이종센서 영상을 적절히 조합하여 영상매칭 과정의 효율을 높일 수 있음을 확인하였다. 다중센서 고해상도 위성영상을 활용한 딥러닝 기반 영상매칭 기법은 안정적인 성능을 바탕으로 기존 수작업 기반의 특징 추출 방법을 대체하고, 나아가 통합적인 딥러닝 기반 영상정합 프레임워크로 발전될 것으로 기대한다.

온라인 쇼핑몰에서 상품 설명 이미지 내의 키워드 인식을 위한 딥러닝 훈련 데이터 자동 생성 방안 (The way to make training data for deep learning model to recognize keywords in product catalog image at E-commerce)

  • 김기태;오원석;임근원;차은우;신민영;김종우
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.1-23
    • /
    • 2018
  • E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문에 컴퓨터가 인지할 수 있는 텍스트 기반 검색 시스템에 반영될 수 없다는 한계가 존재한다. 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할 수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는 지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다. 본 연구는 이러한 문제점을 해결하기 위해 '훈련 데이터 자동 생성 프로그램'을 함께 개발하였다. 훈련 데이터 자동 생성 프로그램을 통해 수작업으로 데이터를 만드는 것에 비하여 시간과 비용을 대폭 절감할 수 있었으며, 생성된 훈련용 데이터를 통해 모형의 인식 성능을 높일 수 있었다. 더 나아가 실험연구를 통해 자동으로 생성된 훈련 데이터의 특징별로 인식기 모형의 성능에 얼마나 큰 영향을 끼치는지 알아보고, 성능 향상에 효과적인 데이터의 특징을 분석하였다. 본 연구를 통해서 개발된 상품 카탈로그 내 텍스트 인식모형과 훈련 데이터 자동 생성 프로그램은 온라인 쇼핑몰 판매자들의 상품 정보 등록 수고를 줄여줄 수 있으며, 구매자들의 상품 검색 시 결과의 정확성을 향상시키는 데 기여할 수 있을 것으로 기대한다.