דלג לתוכן (מקש קיצור 's')
Logo of Technion
Logo of CS Department
מידע כללי

חדשות

חוקרי הפקולטה: אלגוריתם מולטימודלי (MTTR) מבוסס למידה עמוקה
יום שלישי, 7 יוני, 2022
CS Researchers: End-to-End Referring Video Object Segmentation with Multimodal Transformers CVPR 2022
יוני 2022

קבוצת מחקר בפקולטה בהובלת אדם בוטח, סטודנט לתואר שני בפקולטה, יבגני ז'לטונוזסקיי, בוגר תואר שני בפקולטה וסטודנט לתואר שלישי בפקולטה לפיסיקה, ובהנחיית דר' חיים בסקין, מדען אורח במעבדת ויסטה ובמרכז למערכות נבונות, פיתחה במסגרת עבודת התזה של אדם בוטח, אלגוריתם מולטימודלי (MTTR) מבוסס למידה עמוקה שמאפשר סגמנטציה (סימון ברמת הפיקסל) של אובייקט בווידאו על פי שאילתת טקסט (משימה המכונה RVOS).

שאילתת הטקסט יכולה לתאר את האובייקט על פי המראה החיצוני שלו או הפעולה שהוא מבצע. אלגוריתם MTTR מיוחד ושונה מאלגוריתמים קודמים בכך שהוא פולט סט של רצפי חיזויים, אחד עבור כל אובייקט בווידאו. עבור כל רצף כזה האלגוריתם מחשב ציון שאומד את הזיקה של הרצף ביחס לשאילתת הטקסט, ולבסוף מחזיר את הרצף עם הציון הגבוה ביותר. המידול של המשימה באופן הזה מפשט אותה מאוד ביחס לשיטות קודמות. בנוסף לפשטותו, MTTR גם מציג ביצועים טובים משמעותית ביחס לשיטות קודמות ונחשב כיום לאלגוריתם ה-State-of-the-Art ב-RVOS במספר בנצ׳מרקים שונים.

המאמר שמציג את האלגוריתם התקבל לאחרונה לכנס המוביל בתחום הראייה הממוחשבת CVPR 2022 ומימוש האלגוריתם זכה לחשיפה נרחבת בקרב הקהילה המחקרית עם מעל 55 אלף צפיות בערוץ היוטיוב Two Minutes Papers.

כתבה מלאה
MTTR - Interactive Demo
github
[בחזרה לאינדקס החדשות]