SAM 2 چیست و چه کاری انجام میدهد؟

معرفی کوتاه
Meta AI از مدل جدید خود با نام SAM 2 یا Segment Anything Model 2 رونمایی کرده است؛ مدلی پایه برای بخشبندی (Segmentation) اشیا که میتواند با دریافت یک «پرامپت» ساده، ناحیه مربوط به شیء را در تصویر یا ویدئو جدا کند. این مدل بهعنوان نسل دوم خانواده Segment Anything، تلاش میکند فرایند تشخیص و جداسازی اشیا را سریعتر، دقیقتر و کاربردیتر کند.
SAM 2 چیست و چه کاری انجام میدهد؟
SAM 2 یک مدل بنیادین برای بخشبندی تعاملی است که هم روی تصاویر و هم روی ویدئوها کار میکند. رویکرد Meta در این مدل این است که تصویر را مانند یک ویدئوی تکفریم در نظر میگیرد تا یک چارچوب یکپارچه برای پردازش هر دو رسانه شکل بگیرد. گفته میشود این مدل از معماری ترنسفورمر و سازوکارهایی شبیه حافظه جریانی بهره میبرد تا بتواند در ویدئو، ماسکها را در طول زمان دنبال و بهروزرسانی کند.
تفاوتهای مهم با نسخه قبلی
مهمترین جهش نسبت به SAM اولیه، ورود جدی به بخشبندی و رهگیری ویدئویی است. در عمل، کاربر میتواند یک شیء را در یک فریم مشخص کند و مدل، ماسک آن را در فریمهای بعدی دنبال کند. Meta همچنین به بهبودهای عملکردی اشاره کرده و میگوید SAM 2 در سناریوهای تعاملی ویدئو، به تعداد تعامل انسانی کمتر و سرعت بالاتر نزدیک شده است.
دادههای آموزشی و نقش SA-V
برای آموزش این نسل، از دادههایی با محوریت ویدئو استفاده شده است. یکی از منابع کلیدی، دیتاست SA-V (Segment Anything Video) است که بهصورت عمومی معرفی شده و بنا بر گزارشها شامل حدود ۵۱ هزار ویدئو و بیش از ۶۰۰ هزار «ماسکلت» (ماسکهای زمانی-فضایی) است. این حجم داده به مدل کمک کرده تا درک پایدارتری از حرکت و تغییر شکل اشیا در طول زمان پیدا کند.
متنباز شدن و دسترسی توسعهدهندگان
Meta کدها و وزنهای این مدل را در مخزن facebookresearch/sam2 منتشر کرده است. این مخزن شامل کدهای اجرا، اسکریپتهای دریافت مدل و نمونهنوتبوکهاست. بر اساس توضیحات منتشرشده، بخشهای اصلی پروژه و چکپوینتها با مجوز Apache 2.0 ارائه شدهاند؛ موضوعی که راه را برای استفاده پژوهشی و صنعتی هموارتر میکند.
نسخهها و بهروزرسانیهای بعدی
مقاله علمی SAM 2 ابتدا در ۱ آگوست ۲۰۲۴ روی arXiv منتشر و سپس در ۲۸ اکتبر ۲۰۲۴ بهروزرسانی شد. پس از آن، Meta از نسخههای بهبودیافتهای با عنوان SAM 2.1 نیز صحبت کرده که حوالی پایان سپتامبر ۲۰۲۴ معرفی شدهاند. همچنین در ۱۱ دسامبر ۲۰۲۴ بهروزرسانیهایی با تمرکز بر افزایش سرعت پردازش ویدئو و بهبود مدیریت چندشیئی گزارش شده است.
کاربردها؛ از تولید محتوا تا برچسبگذاری داده
SAM 2 میتواند برای طیف وسیعی از کاربردها جذاب باشد: از ویرایش ویدئو و جلوههای ویژه گرفته تا برچسبگذاری سریع دیتاستها و حتی پروژههای حوزه رباتیک و بینایی ماشین. ماهیت «پرامپتپذیر» این مدل، آن را به گزینهای مناسب برای تیمهایی تبدیل میکند که به ابزارهای سریع و تعاملی برای تولید یا پاکسازی داده نیاز دارند.
برای اطلاع از آخرین اخبار هوش مصنوعی به وبسایت ما سر بزنید. آدرس زیر رو به کلمه اخبار لینک کن
نظرات
هیچ نظری ثبت نشده است





