پیشرفت چشمگیر هوش مصنوعی گوگل در توصیف تصاویر

موبنا – یکی از این کار ها، کپشن نویسی عکس است. گوگل به تازگی الگوریتم «Show and Tell» خود را برای توسعه دهندگان عرضه کرده است؛ الگوریتمی که می توان آن را برای شناسایی سوژه های موجود در عکس ها با ۹۳.۹ درصد دقت آموزش داد. این میزان دقت به نسبت دو سال قبل پیشرفت بزرگی محسوب …

موبنا – یکی از این کار ها، کپشن نویسی عکس است. گوگل به تازگی الگوریتم «Show and Tell» خود را برای توسعه دهندگان عرضه کرده است؛ الگوریتمی که می توان آن را برای شناسایی سوژه های موجود در عکس ها با ۹۳.۹ درصد دقت آموزش داد. این میزان دقت به نسبت دو سال قبل پیشرفت بزرگی محسوب می شود. الگوریتم یاد شده در آن زمان قادر بود با دقت ۸۹.۶ درصد عکس ها را طبقه بندی کند.

از توصیف بهتر عکس ها می توان به شیوه های مختلفی بهره گرفت، از جمله کمک به تاریخ نویسان، افراد دچار نابینایی یا کم بینایی، و البته، دیگر محققان حوزه ی هوش مصنوعی.

کد متن باز ریلیز شده ی گوگل از مدل نسل سوم «Inception» و سامانه ی بصری تازه ای بهره می برد که در تشخیص سوژه های جداگانه در یک تصویر عملکرد بهتری دارد. محققان مذکور این الگوریتم را با هدف بالا بردن دقت، بهینه سازی نیز کرده اند. تیم توسعه دهنده در توضیح تلاش های خود اذعان داشته است: «برای مثال، مدل طبقه بندی تصاویر به شما خواهد گفت که یک سگ، چمن و یک فریزبی در تصویر وجود دارند، اما توصیف طبیعی عکس باید رنگ چمن ها و نحوه ی ارتباط سگ با فریزبی را نیز به شما بگوید».

مقایسه ی کپشن های قدیمی و جدید برای یک تصویر

سامانه ی گوگل پس از آنکه با استفاده از کپشن های نوشته شده توسط انسان آموزش دیده توانسته است به شرح تصاویری بپردازد که قبلاً ندیده بوده است. محققان در این خصوص اظهار داشته اند: «جالب اینجاست که مدل ما می تواند در مواجهه با تصاویر کاملاً جدید، توانایی تولید کپشن هایی دقیق و تازه برای آنها را در خود پدید بیاورد. این موضوع نشان دهنده ی درک عمیق تری از سوژه ها و بافتار تصاویر است».

google-show-and-tell-image-recognition-2016-09-23-01

تصاویر سمت چپ نمونه های آموزشی کپشن شده توسط انسان- تصویر سمت راست نمونه ی کپشن شده توسط ماشین

برای مثال، سامانه ی توصیف تصویر گوگل با استفاده از چندین عکس با سوژه ی سگ ها و ساحل، قادر بوده کپشن تازه ای برای یک تصویر مشابه اما اندکی متفاوت خلق کند.

شرکت گوگل کد های منبع این الگوریتم را روی سامانه ی TensorFlow خود در اختیار تمام علاقمندان قرار داده است. البته برای استفاده از آن باید خودتان آموزشش بدهید؛ فرایندی که با فرض بهره مندی از یک پردازنده ی گرافیکی NVIDIA Tesla، می تواند چند هفته طول بکشد. بنابراین اگر فکر کردید می توانید از آن برای کپشن کردن عکس های اینستاگرامی خود استفاده کنید باید منتظر شوید یک نفر مدل آموزش دیده ی آن را منتشر کند.

 منبع: دیجیاتو

نوشته های مشابه

دکمه بازگشت به بالا