هوش مصنوعی با شنیدن صدا عکس می سازد

هوش مصنوعی با شنیدن صدا عکس می سازد

به گزارش لیمو بلاگ، سیستم هوش مصنوعی جدید تصاویری با دقت بالا را برپایه کلیپ های صوتی از خیابان ها می سازد.


به گزارش لیمو بلاگ به نقل از نیواطلس، الان سیستم های هوش مصنوعی جلوه های صوتی برای تصاویر ساکن از خیابان های شهر و اماکن دیگر می سازند اما یک فناوری آزمایشی جدید برعکس این فرآیند را انجام می دهد. «یوهائو کانگ» و همکارانش در دانشگاه تگزاس «مدل انتشار صدا به تصویر» (Soundscape-to-Image Diffusion Model) را برپایه مخزن داده ای از کلیپ های صوتی و تصویری ۱۰ ثانیه ای آموزش دادند. این کلیپ ها شامل تصاویر ثابت و صداهای محیطی از ویدیوهای یوتیوب در ارتباط با خیابان های شهری و حومه ای در آمریکای شمالی، آسیا و اروپا بودند. محققان با بهره گیری از الگوریتم های یادگیری عمیق نه تنها به سیستم آموزش دادند چه اصواتی به چه آیتم هایی در تصاویر مرتبط می باشد، بلکه چه کیفیت اصواتی با محیط های بصری مطابقت دارد. بعد از تکمیل آموزش به سیستم دستور داده شد تصاویری را فقط برپایه صدای محیطی ضبط شده از ۱۰۰ ویدئو چشم انداز خیابان بسازد. این سیستم به ازای هر ویدئو یک عکس ساخت. در مرحله هریک از عکس ها همراه ۲ تصویر ساخته شده از خیابان های دیگر به پنلی از داوران انسانی نشان داده شد و همزمان صدایی که عکس ها برپایه آن ساخته شده بودند هم پخش گردید. هنگامیکه از داوران خواسته شد ۳ عکس در رابطه با صدای شنیده شده را شناسایی کنند، آنها با دقت متوسط ۸۰ درصد این کار را انجام دادند. همینطور هنگامیکه تصاویر ساخته شده با کامپیوتر تحلیل شدند، شباهت نسبی آسمان، سرسبزی محیط و ساختمان ها هم بشدت با نمونه هایی در ویدیوهای اصلی بودند، همخوانی داشت. در واقع حتی در خیلی از موارد تصاویر شرایط روشنایی در منبع ویدئویی مانند آب وهوای آفتابی، ابری یا آسمان شب را نشان می داد.


منبع:

1403/09/13
14:09:34
5.0 / 5
14
تگهای خبر: دانشگاه , سیستم , فناوری , كامپیوتر
این مطلب لیمو بلاگ را می پسندید؟
(1)
(0)

تازه ترین مطالب مرتبط در لیموبلاگ
نظرات بینندگان لیموبلاگ در مورد این مطلب
لطفا شما هم نظر دهید
= ۳ بعلاوه ۳