Dolly 2.0: Ticari kullanım için ücretsiz olarak sunulan büyük AI dil modeli

Adanali

Member


  1. Dolly 2.0: Ticari kullanım için ücretsiz olarak sunulan büyük AI dil modeli

Yazılım şirketi Databricks, Dolly 2.0’ı açık kaynak olarak yayınladı. Dolly, koyun klonu ve OpenAI’nin benzer şekilde adlandırılmış Görüntü Oluşturucusu (DALL E) ile isimle çağrışımlar yapmakla kalmaz, aynı zamanda açık kaynaklı bir AI modelinin bir klonudur (EleutherAI tarafından Pythia-12B, aşağıda daha fazlası). ChatGPT’ye benzer şekilde, büyük dil modeli, kendisine doğal dil talimatları veren insanlarla etkileşim kurmak için tasarlanmıştır. Satıcıya göre, sürümün özelliği, Dolly 2.0’ın özellikle ticari amaçlar ve uygulamalar için ücretsiz olarak sunulmasıdır. Yayınlanan blog gönderisine göre, OpenAI’den farklı olarak, API’ye erişim için herhangi bir ücret alınmıyor ve kullanıcı verileri üçüncü taraflarla paylaşılmıyor.


12 milyar parametre modeli, araştırma ve ticari kullanım için lisanslanmıştır. Herhangi bir kuruluş, kendi Geniş Dil Modellerini (LLM) oluşturmak ve bunları kendi amaçlarına uyarlamak için kullanabilir. Dolly 2.0, Databricks’e katkıda bulunanlar tarafından şirket içinde oluşturulan bir veri kümesi üzerinde optimize edilmiş, açık kaynaklı, büyük ölçekli, yönergeleri izleyen, metin tabanlı bir yapay zeka dil modelidir. Şirket, “databricks-dolly-15k” ayarı için kullanılan kodu, ağırlıkları ve veri kümesini bir Creative Commons Atıf ShareAlike 3.0 lisansı altında yayınlar: bu nedenle, herkes veri kümesini “ticari uygulamalar da dahil olmak üzere” herhangi bir amaçla kullanabilir, değiştirebilir ve genişletebilir”.


Bununla ilgili özel olan şey, açık kaynak lisansı altında ücretsiz olarak erişilebilir olmasının yanı sıra, veri setinin diğer AI modellerinden ikincil olarak türetilmemiş olmasıdır: 5.000’den fazla Databricks çalışanı, Mart ve Nisan 2023 arasında AI eğitim veri seti üzerinde çalıştı, blog gönderisine göre. Şirkete göre, büyük dil modellerini eğitmek için insan yapımı ilk talimat veri setidir.

Ücretsiz AI: EleutherAI’nin “vekil anne” olarak Pythia serisi


Şu anda popüler olan LLaMA yan ürünlerinden farklı olarak Databricks modeli, EleutherAI’nin Pythia model ailesinin bir yan ürünüdür. Kâr amacı gütmeyen yapay zeka araştırma grubu EleutherAI (İngilizce: “Ücretsiz AI”), 2020’de OpenAI’nin Microsoft ile ortaklık yoluyla kendisini kâr amacı gütmeyen bir şirkete dönüştürmesi ve orijinal açık kaynak hedeflerinden ayrılmasının ardından kuruldu. EleutherAI, Pythia ile Nisan 2023’ün başlarında büyük modellerin bilimsel keşfi için halka açık veri kümelerinde önceden eğitilmiş daha küçük dil modellerinden oluşan bir paket yayınladı.

EleutherAI’nin model ailesi, boyutları 70 milyondan 12 milyar parametreye kadar değişen 16 model ve bu modellerin her biri için 154 kontrol noktasına erişim sunar. Ek olarak, araştırma ağı, araştırmacıların daha fazla araştırma için eğitim verilerini yeniden yapılandırmak için kullanabilecekleri araçlar sağlar. Bu “yüksek düzeyde kontrollü düzeneğin” araştırma sunumuna ek olarak, Pythia modelleri GitHub’dan ücretsiz olarak indirilebilir.

Dolly 1.0 için Databricks, Alpaca ekibinin OpenAI API aracılığıyla ChatGPT kullanarak oluşturduğu Stanford Alpaca projesinden bir veri kümesi kullandı. OpenAI Kullanım Koşulları, API’nin OpenAI’yi bu şekilde elde edilen verilerden ticari olarak rekabetçi hale getirmek için kullanılmasını yasaklar.


Crowdsourcing: Dolly 2.0 için 13.000 orijinal soru


Databricks ekibi, Mart 2022 tarihli bir OpenAI belgesi olan “İnsan Geri Bildirimiyle Talimatları İzleyecek Eğitim Dili Modelleri”nden Dolly 2.0 eğitim ipuçları aldı. Örneğin, OpenAI’nin modeli insan davranışı hakkında öğretmek için 13.000 talimat örneğinden oluşan bir veri seti kullandığını söylüyor. Buradaki zorluk, 13.000 soru-cevap çiftinin her birinin orijinal olması ve ChatGPT’den veya İnternetten kopyalanmaması gerektiğidir, aksi takdirde “veri setini kirletir”. Databricks’in 5.000’den fazla çalışanı, modele özellikler eklemek için yedi alanı kitle kaynaklı olarak kullandı:

  • Açık ve kapalı sorular ve cevaplar – açık sorular için mutlaka doğru bir cevabın olmadığı durumlarda. Kapalı uçlu sorularda yanıt, belirli bir bilgi birikimi veya bir metin alıntısı ile sınırlıdır.
  • Wikipedia’dan bilgi alın ve somut soruları yanıtlayın
  • Wikipedia’daki bilgileri özetleyin
  • Beyin fırtınası: fikirlerin ve çağrışımların açık koleksiyonu
  • Metni sınıflandır
  • Yaratıcı Yazarlık



Bir müşteri talebini özetlemek: Dolly 2.0



Dolly 2.0 bir müşteri talebini özetliyor


(Resim: veri tuğlaları)



Bir “oyunlaştırma” meydan okuması kullanılarak, databricks-dolly-15k eğitim veri setini oluşturan 15.000 soru-cevap çifti bir araya geldi. Databricks, veri setinin gerçeklere dayalı ve yüksek kaliteli olduğunu öne sürüyor çünkü dahil olanların tümü profesyoneller ve LLM’lerle aktif olarak ilgileniyorlar. Databricks’e göre model, sentetik olarak oluşturulmuş eğitim veri kümeleriyle beslenen ikincil LLaMA tabanlı modellere göre halüsinasyonlara daha az eğilimli. Talimatlar ve örnek yanıtlar blog gönderisinde incelenebilir.

Performansı ve nispeten küçük boyutu nedeniyle, model “SOTA” (en son teknoloji) olarak kabul edilmez. Bununla birlikte, editörleri, buna dayalı daha fazla çalışma için bir başlangıç noktası olarak hizmet etmesini bekliyor ve ondan daha güçlü büyük ölçekli dil modelleri ortaya çıkabilir. AI sahnesinde, model kısmen memnuniyetle karşılanıyor: onu açık kaynak olarak erişilebilir kılma yaklaşımı memnuniyetle karşılanıyor ve LAION tarafından açık modeller oluşturmak için uluslararası bir AI bilgi işlem kümesi için devam eden bir dilekçe ile bağlantılı olarak da ilginç olabilir.




Dolly 2.0 tarafından otomatik olarak oluşturulan Tweet



Dolly 2.0, sürümünüz için bir tweet metni oluşturur


(Resim: veri tuğlaları)



LLaMA dallarından farkı


Talep üzerine sadece bilimsel amaçlarla lisanslanabilecek LLaMA modeli metas sızıntısından bu yana, yasa dışı olarak türetilmiş modeller yerden fırladı. Stanford ve Berkeley gibi üniversiteler (LLaMA ile resmi olarak çalışmasına izin verilmiştir) küçük bir bütçe ve kitle kaynak kullanımı ile büyük modellerin küçük kaynaklarla yeniden geliştirilebileceğini göstermektedir. Çoğu zaman “kavram kanıtı” ile kalır: Stanford, işletme maliyetleri uygun olmadığı için kısa bir süre sonra alpaka demosunu çevrimdışına aldı. Meta’nın modeli, OpenAI-Microsoft’unki kadar açık kaynak olarak yayınlanmadığı için yasal kullanım sorunu her zaman çözülmemiştir. Bu nedenle yasal bir gri alanda kullanılmaktadır ve bu tür şablonlar ticari amaçlar için kullanışsızdır. Pratik uygunluk da tutarsızdır, ölçütler genellikle mevcut değildir veya çok ikna edici değildir.

Bir istisna, LLaMA Vicuna dalıküçük boyutu nedeniyle yerel kullanıma uygun olan ve yayıncıları Vicuna’nın “ChatGPT performansının yüzde 90’ını” elde ettiğini iddia eden (bilimsel veri mevcut değil). Açık kaynak olarak adlandırılsa da GPT-4 ile ilgili LLaMA modellerine ve eğitim veri setlerine dayalı olduğu için diğer LLaMA yan dalları gibi yasal olarak gri alandadır. Vicuna, Berkeley, CMU (Carnegie Mellon Pittsburgh), Stanford ve San Diego Üniversitelerinden öğrencilerin üniversiteler arası bir projesidir. Sözde projenin bilimsel bir lisansı vardı ve sızan model verileriyle resmi olmayan bit torrentine dayanmıyordu.

Son zamanlarda, LLaMA’nın çok sayıda dalı hızlı bir şekilde art arda ortaya çıktı. Satıcılar, GPT-4 ve ChatGPT kullanarak OpenAI API’yi kullanarak sürekli olarak kendi ayarlama eğitimi veri kümelerini oluşturmuşlardı, yani sentetik verileri kullanıyorlardı ve kendi veri kümelerini oluşturmadan kendi model eğitimlerini yapmıyorlardı. Yasal olarak ve ayrıca içerik açısından, OpenAI ürünlerini genel halka sunmadığından ve yeni modeller oluşturmak için bunlardan türetilen eğitim veri kümeleri OpenAI tarafından Hizmet Şartlarında yasaklandığından, bu tür ayarlanmış modeller sallantıdadır. onlardan yararlanmaya çalışır. Alpaca, Koala, Vicuna ve GPT4All bu nedenle ticari kullanım için uygun değildir.

Bununla birlikte, OpenAI’nin ticari GPT serisini oluşturmak ve ince ayar yapmak için özel kullanıcı verilerini kullanması da sorunlu olarak görülüyor ve şu anda Kanada, Amerika Birleşik Devletleri ve İtalya’da yasal soruşturma altında.

Veri tuğlaları hakkında bilgi


Databricks, veri mühendisliği, veri bilimi ve veri analitiği için bir çoklu bulut platformu sağlayıcısıdır. Şirket, Spark etrafında otomatik IPython tarzı not defteri ve küme yönetimi için bir platform oluşturan Apache Spark geliştiricileri tarafından 2016 yılında kuruldu – Databricks daha önce bir yapay zeka modelleme sağlayıcısı olarak görünmemişti. Büyük dil modelinin (Dolly) ilk versiyonu yaklaşık iki hafta önce yayınlandı.

Daha fazla bilgi, örnek ve indirme ipuçları için Databricks web sitesindeki blog gönderisine bakın.


(onun)



Haberin Sonu
 
Üst