AsiaTech logo

SAM 2 چیست و چه کاری انجام می‌دهد؟

نوشته شده توسطحسین سلمانی | ۱۷ آذر ۱۴۰۴ | ۱۴:۰۸
Telegram IconX IconWhatsApp IconLinkedIn Icon
SAM 2 چیست و چه کاری انجام می‌دهد؟

معرفی کوتاه

Meta AI از مدل جدید خود با نام SAM 2 یا Segment Anything Model 2 رونمایی کرده است؛ مدلی پایه برای بخش‌بندی (Segmentation) اشیا که می‌تواند با دریافت یک «پرامپت» ساده، ناحیه مربوط به شیء را در تصویر یا ویدئو جدا کند. این مدل به‌عنوان نسل دوم خانواده Segment Anything، تلاش می‌کند فرایند تشخیص و جداسازی اشیا را سریع‌تر، دقیق‌تر و کاربردی‌تر کند.

SAM 2 چیست و چه کاری انجام می‌دهد؟

SAM 2 یک مدل بنیادین برای بخش‌بندی تعاملی است که هم روی تصاویر و هم روی ویدئوها کار می‌کند. رویکرد Meta در این مدل این است که تصویر را مانند یک ویدئوی تک‌فریم در نظر می‌گیرد تا یک چارچوب یکپارچه برای پردازش هر دو رسانه شکل بگیرد. گفته می‌شود این مدل از معماری ترنسفورمر و سازوکارهایی شبیه حافظه جریانی بهره می‌برد تا بتواند در ویدئو، ماسک‌ها را در طول زمان دنبال و به‌روزرسانی کند.

تفاوت‌های مهم با نسخه قبلی

مهم‌ترین جهش نسبت به SAM اولیه، ورود جدی به بخش‌بندی و رهگیری ویدئویی است. در عمل، کاربر می‌تواند یک شیء را در یک فریم مشخص کند و مدل، ماسک آن را در فریم‌های بعدی دنبال کند. Meta همچنین به بهبودهای عملکردی اشاره کرده و می‌گوید SAM 2 در سناریوهای تعاملی ویدئو، به تعداد تعامل انسانی کمتر و سرعت بالاتر نزدیک شده است.

داده‌های آموزشی و نقش SA-V

برای آموزش این نسل، از داده‌هایی با محوریت ویدئو استفاده شده است. یکی از منابع کلیدی، دیتاست SA-V (Segment Anything Video) است که به‌صورت عمومی معرفی شده و بنا بر گزارش‌ها شامل حدود ۵۱ هزار ویدئو و بیش از ۶۰۰ هزار «ماسکلت» (ماسک‌های زمانی-فضایی) است. این حجم داده به مدل کمک کرده تا درک پایدارتری از حرکت و تغییر شکل اشیا در طول زمان پیدا کند.

متن‌باز شدن و دسترسی توسعه‌دهندگان

Meta کدها و وزن‌های این مدل را در مخزن facebookresearch/sam2 منتشر کرده است. این مخزن شامل کدهای اجرا، اسکریپت‌های دریافت مدل و نمونه‌نوت‌بوک‌هاست. بر اساس توضیحات منتشرشده، بخش‌های اصلی پروژه و چک‌پوینت‌ها با مجوز Apache 2.0 ارائه شده‌اند؛ موضوعی که راه را برای استفاده پژوهشی و صنعتی هموارتر می‌کند.

نسخه‌ها و به‌روزرسانی‌های بعدی

مقاله علمی SAM 2 ابتدا در ۱ آگوست ۲۰۲۴ روی arXiv منتشر و سپس در ۲۸ اکتبر ۲۰۲۴ به‌روزرسانی شد. پس از آن، Meta از نسخه‌های بهبود‌یافته‌ای با عنوان SAM 2.1 نیز صحبت کرده که حوالی پایان سپتامبر ۲۰۲۴ معرفی شده‌اند. همچنین در ۱۱ دسامبر ۲۰۲۴ به‌روزرسانی‌هایی با تمرکز بر افزایش سرعت پردازش ویدئو و بهبود مدیریت چندشیئی گزارش شده است.

کاربردها؛ از تولید محتوا تا برچسب‌گذاری داده

SAM 2 می‌تواند برای طیف وسیعی از کاربردها جذاب باشد: از ویرایش ویدئو و جلوه‌های ویژه گرفته تا برچسب‌گذاری سریع دیتاست‌ها و حتی پروژه‌های حوزه رباتیک و بینایی ماشین. ماهیت «پرامپت‌پذیر» این مدل، آن را به گزینه‌ای مناسب برای تیم‌هایی تبدیل می‌کند که به ابزارهای سریع و تعاملی برای تولید یا پاک‌سازی داده نیاز دارند.

برای اطلاع از آخرین اخبار هوش مصنوعی به وبسایت ما سر بزنید. آدرس زیر رو به کلمه اخبار لینک کن

نظرات

هیچ نظری ثبت نشده است