یادگیری عمیق تعبیه های حفظ (قسمت اول)

یادگیری عمیق تعبیه های حفظ - ساختار تصویر - متن (قسمت اول)

 
این مقاله یک روش برای یادگیری تعبیه های مشترک از تصاویر و متن با استفاده از یک شبکه عصبی دو شاخه با لایه های متعدد از پیش بینی های خطی پیشنهاد می کند که از غیر خطی ها تبعیت می شود. شبکه با استفاده از یک حاشیه زیاد عملی که ترکیبی از محدودیت های رتبه بندی مشاهده متقابل با محدودیت های حفظ ساختار درون مشاهده ای مجاور است که از ادبیات یادگیری متریک الهام می شود. آزمایش های گسترده نشان می دهد که رویکرد ما پیشرفت های قابل توجهی را در دقت برای بازیابی تصویر به متن و متن به تصویر بدست می آورد. روش ما رسیدن به نتایج قبلی در مجموعه های داده های Flickr30K و MSCOCO تصویر- جمله است و وعده را در وظیفه ای جدید از محلی سازی عبارت بر روی موجودیت های مجموعه داده Flickr30K نشان می دهد.

1. مقدمه

تصور کامپیوتر در حال حرکت از پیش بینی گسسته، برچسب های قطعی در ایجاد توصیفات غنی از داده های بصری است، به عنوان مثال، در قالب زبان طبیعی. یک افزایش علاقه به وظایف تصویر متن مانند عنوان تصویر [10، 22، 23، 25، 31، 43، 46، 50] و پاسخ درخواست های بصری وجود دارد [2، 12، 52]. مشکل اصلی برای این برنامه ها این است که چگونه شباهت معنایی بین داده های بصری(به عنوان مثال، یک تصویر ورودی یا ناحیه) و داده های متنی (یک جمله یا عبارت) را اندازه گیری کنند. یک راه حل مشترک در یادگیری یک تعبیه مشترک برای تصاویر و متن در یک فضای پنهان مشترک؛ وجود دارد که در آن بردار ها را می توان از دو روش مختلف به طور مستقیم، مقایسه نمود. این فضا که معمولا از ابعاد کم است و برای وظایف مشاهده متقابل مانند بازیابی تصویر به متن و تبدیل متن به تصویر، بسیار مناسب است. چندین روش تعبیه اخیر [14، 15، 26] مبتنی بر تجزیه و تحلیل همبستگی کانونی است (CCA) [17]، که پیش بینی خطی می یابد که ارتباط بین بردار های پیش بینی از دو دیدگاه را حداکثر و بیشینه می کند. هستهCCA یک فرمت از CCA است که در آن به طور حداکثر پیش بینی غیر خطی همبسته وجود دارد، که به باز تولید فضاهای هسته هیلبرت با هسته های اصلی مربوطه محدود شده است، فرمت های (ضمیمه) CCA در یک چارچوب یادگیری عمیق نیز ارائه شده است [1، 33]. با این حال، همانطور که در [30] اشاره شده است، CCA در مقیاس مقادیر زیادی از داده ها، سخت است. به طور خاص، تکنیک های گرادیان نزولی تصادفی (SGD) نمی توانند یک راه حل خوبی برای مساله مقادیر ویژه تعمیم یافته اصلی تضمین کنند، از آنجا که کوواریانس برآورد شده در هر دسته ای کوچک (با توجه به محدودیت حافظه GPU) بسیار ناپایدار است.

نظرات شما