Temel İlerleme: Yapay Zeka Nesnelerini Metadan Kırpma

Adanali

Member
Meta’nın yapay zeka araştırma departmanı, fotoğraflardaki nesneleri saniyeler içinde yakalayan ve bunları pano boyunca maskeleyip izole eden Transformer mimarisine dayalı bir görüntü segmentatörü eğitti. Fotoğrafçılar ve görüntü editörleri buna kırpma diyor. GPT ve PaLM (metinden metne) veya Dall-E (metinden resme) gibi diğer dönüştürücülerin çoğundan farklı olarak, Segment Anything Modeli (SAM) yalnızca görüntülerle eğitildi. Bununla birlikte, nesneler hakkında bir tür genel anlayış geliştirmiş gibi göründüğü için, görüntü işleme için önemli bir temel model olabilir.


Çünkü, geleneksel makine eğitimli segmentatörlerin aksine, SAM, sözde tek seferlik öğrenmeyi gerçekleştirebilmelidir: Ayrıca, eğitim sırasında “ezbere” öğrenmediği bilinmeyen nesneleri de doğru bir şekilde izole eder ve böylece her türlü girdiyi oldukça esnek bir şekilde işleyebilir. Bununla, Segment Everything, yine Transformer mimarilerini temel alan metin ve görüntü oluşturucularınkine benzer evrensel yetenekler geliştirebilir veya daha yüksek sınıf yapay zeka oluşturmak için bunları sorunsuz bir şekilde entegre edebilir.

Nesneleri arka plandan ayırmak, görüntü ve video düzenlemenin yanı sıra VR ve AR uygulamalarında da merkezi bir görevdir. Bir dil modeliyle birlikte SAM, ses girişi yoluyla nesneleri maskeleyebilir veya kırpabilir ve bunları diğer sahnelere aktarabilir. Bir örnekte Meta, SAM’in VR gözlüğü aracılığıyla görüntülenen nesneleri gerçek zamanlı olarak nasıl doğru bir şekilde renklendirdiğini ve adlandırdığını gösteriyor.


Esnek, sezgisel ve ücretsiz


İşe yarıyor çünkü model, demo proje sayfasında kendinizi görebileceğiniz çok az girdi bilgisi ile yetiniyor: hayvanlar, insanlar, bitki örtüsü, evler, mobilyalar üzerinde genellikle tek bir tıklama – yani teknik olarak birkaç piksellik bir örnek – yeterlidir veya modelin herhangi bir başka parçası ve SAM bağımsız olarak kalan ilişkili piksellerin kodunu çözer.

Segment Everything’in temel fikri, tek bir pikseli sözde “bilgi istemi” olarak kullanmak ve diğer tüm pikselleri bu bağlamla yeniden değerlendirmektir. Farklı alanlarda birkaç tıklama veya daha büyük motif parçalarının etrafındaki çerçeveler gibi başka talepler de mümkündür. Konunun tüm kısımlarını birbirinden ayırıp farklı renklere boyayan otomatik modu da bulunmaktadır. Demo henüz metin komutlarını desteklemiyor. SAM, herhangi bir giriş için geçerli bir maske oluşturmak üzere eğitilmiştir. Karakteristik noktalara tıklayarak, kullanıcı alanları eklemek veya hariç tutmak için sonucu etkileşimli olarak geliştirebilir.

Bilim adamları kaynak kodunu GitHub’da açık kaynak olarak yayınladılar. Araştırma amacıyla Meta ayrıca, etiketler dahil 1,1 milyar şablon içeren 11 milyon görüntüden oluşan bir havuz olan eğitim materyalini ücretsiz olarak kullanıma sunar.


Ayrımcılığa veda mı?


Sadece nispeten basit ağ mimarisi değil, aynı zamanda eğitim veri seti ve Meta’nın sistemi eğitme şekli de dikkat çekicidir: veri seti, bugüne kadar mevcut olan en büyük korpustan 400 kat daha fazla maske içerir. Çok çeşitli konu ve konularda en yüksek kalitede veri olmalıdır. Görüntüler yalnızca sanayileşmiş ülkelerden değil, tüm kıtalardaki yaşamın gerçekliğini temsil etmeyi amaçlıyor.

Bu şekilde, meta-araştırmacılar zaten eğitim verilerindeki önyargı nedeniyle istatistiksel önyargıdan kaçınmaya çalışıyorlar. Çünkü birçok yaygın eğitim verisi koleksiyonunda, bazı insan grupları veya bölgeler yeterince temsil edilmemektedir. Bu tür önyargıları ortadan kaldırmak bazen zor veya imkansız olduğundan, bu çok baskın kalıplara saldıran yapay zekalarla ilgili sorunlar her zaman vardır. Bu nedenle, sistemler görünüşte ayrımcı bir şekilde hareket eder: örneğin, koyu tenli insanları birbirinden ayırt edemeyen yüz tanıma.




SAM, metin talimatları veya etiketli pikseller biçimindeki farklı bilgi istemlerini yorumlayan ve uygun maskeleri hesaplayan bir dönüştürücü ağdır., Meta AI



SAM, metin talimatları veya işaretli pikseller biçimindeki farklı bilgi istemlerini yorumlayan ve uygun maskeleri hesaplayan bir dönüştürücü ağdır.


(Resim: Meta AI)



SAM, görüntü ve bilgi istemi için bir kodlayıcıdan ve maskeyi oluşturan bir kod çözücüden oluşur. İlk ikisi nedeni ve kullanıcı girişini (örneğin, “Taşıdıkları nesneler dahil tüm insanları bölümlere ayır” metin talimatı) yüksek boyutlu bir özellik alanına (gizli alan) kodlar. Maske kod çözücü her ikisini de girdi olarak alır ve en olası segmentasyonları bu temelde hesaplar: yani özellikle görüntüdeki hangi piksellerin muhtemelen istenen nesnelere ait olduğu.

Akıllıca eğitilmiş


İstemden görüntüye dönüştürücüler veya bilgi istemi metin oluşturucuları benzer bir prensipte çalışır. Bununla birlikte, bu amaca uygun eğitim materyali elde etmek nispeten kolaydı, çünkü internette her gün toplu olarak yayınlandı: etiketli resimler ve her türden metinler.Ancak, neredeyse hiç yüksek kaliteli maskeli resim yok, bu yüzden meta -Araştırmacılar çok adımlı bir strateji geliştirdiler: büyük ölçüde ücretsiz ve manuel olarak üretilmiş maskelerin olduğu bir eğitim aşaması, ardından yarı otomatik olan ve açıklama yapanların çeşitliliğini artırmak için zaten maskelenmiş fotoğrafları geliştirmesi gerekecekti. olası sonuçlar. Son olarak, son aşamada SAM, sayısız görüntü maskesi çifti kullanarak parametrelerinde ince ayar yaparak kendini eğitti.

Dolayısıyla, yapay zeka ressamları ve şairleri, yüzeyde daha az muhteşem sonuçlara yol açabilecek, ancak oldukça önemli olan üçüncü bir evrensel temel modelle birleşiyor. Özellikle Meta, DINov2 ile bir sonraki başarısını editörlük son tarihinden hemen önce eklediğinden beri: açıklamalı eğitim verileri olmayan kendi kendini izleyen bir öğrenme segmentatörü.

Cümleler yerine görüntü parçaları


Bunu yapmak için Meta önce 1,2 milyar görüntü topladı ve bunları çeşitli analiz ve filtreleme yöntemleri kullanarak 142 milyon kopyalık dengeli bir koleksiyona indirdi. Meta-araştırmacılar, makine tarafından seçilen seçimleriyle, SAM’de de kullanılan çeşitli görüntü trafo ağlarını (ViT) eğitti.

ViT, Transformers’ın ses verilerindeki büyük başarısından sonra AI araştırmacılarının konsepti görüntü verilerine aktarmaya çalışmasıyla ortaya çıktı. Bunu yapmak için, görüntüyü küçük kareler halinde, örneğin 16×16 piksel olarak kestiler, orijinal olarak bulunan görüntü noktalarının her birine bilgi eklediler (konum kodlaması) ve bir cümlede kelime olarak kullandılar. Bir yapay zekanın böyle bir bulmacayı anlamlandırmada zorlanması beklenir. Bununla birlikte, transformatörlerin dikkat mekanizmasının, görüntü bilgilerini daha iyi soyutlamak için görüntü verileriyle de yararlı olacağı umut ediliyordu. Önceki ViT, evrişimli ağlarınkine benzer sonuçlar üretti; SAM ve DINov2 artık net bir ilerleme gösteriyor.

Gerçekten de, araştırmacıların DINov2 makalelerinde gösterdikleri gibi, AI öğrendiklerini bir dereceye kadar genelleştirebiliyor ve bunu diğer nesnelere uygulayabiliyor gibi görünüyor: örneğin, uçaklar kuş benzeri parçalardan ‘inşa edildi’ ve o araba tekerlekler ayrıca kamyon ve otobüslere aittir.




DINov2 artık manuel olarak düzenlenmiş eğitim verilerine ihtiyaç duymuyor: kendi kendini izleyen eğitimde, temel bileşenleriyle birlikte nesnelerin yerini belirlemeyi öğrendi.  Bir sütunun farklı görüntülerindeki benzer renkli alanlar, segmentatörün transfer hizmetleri de gerçekleştirdiği, yani kafaları, kanatları, bacakları ve tekerlekleri benzer kavramlar olarak yorumladığını gösterir., Kaynak: Meta AI



DINov2 artık manuel olarak düzenlenmiş eğitim verilerine ihtiyaç duymuyor: kendi kendini izleyen eğitimde, temel bileşenleriyle birlikte nesnelerin yerini belirlemeyi öğrendi. Bir sütundaki farklı görüntülerdeki benzer renkli alanlar, segmentatörün transfer hizmetleri de sağladığını, yani kafaları, kanatları, bacakları ve tekerlekleri benzer kavramlar olarak yorumladığını gösterir.


(Resim: Kaynak: Meta AI)



Geçen yıl yapay zeka alanında çığır açan gelişmeler, esas olarak büyük dil modellerinden geldi; Dall-E ve Midjourney gibi etkileyici görüntü üreteçleri bile kısa ama genellikle yetersiz tanımlayıcı metinlerin yorumlanmasına güvenir. Şimdi modelciler ve görüntü uzmanları intikamla geri döndü. Giderek daha fazla trafo mimarisi doğrudan piksellerle çalışır. Nesneler ve sahneler hakkında daha önce kullanılan yöntemlerden çok daha derin bir anlayış kazanabilirsiniz.






(Resim:

11/2023 var

)



İki faktörlü kimlik doğrulama, çevrimiçi hesaplarınızı tek bir paroladan daha iyi korur, ancak bilgisayar korsanları hızlanıyor! Siber suçluların 2 faktörlü korumayı nasıl atlattığını ve kendinizi nasıl koruyacağınızı gösteriyoruz. Ayrıca akıllı ulaşım için beş e-bisikleti test ettik. Hangi şehir kavşağının sizin için uygun olduğunu bulun. Önerilen bir PC yapısı olarak, bir ses iş istasyonumuz var, ChatGPT ile kodladık ve gizlilik korumalı Mullvad tarayıcısını inceledik. 40 yıllık özel c’t’mizde, c’t’in ünlü üçüncü sayfasına bakıyoruz. Bunu ve daha fazlasını c’t 11/2023’te okuyabilirsiniz.









c't Magazine'den daha fazlası



c't Magazine'den daha fazlası




(atr)



Haberin Sonu
 
Üst