Yanıltıcı: ChatGPT otomatik metin tanımanın birçok zayıf yönü vardır

Adanali

Member
ChatGPT’nin hızlı yükselişine, artık chatbot metinlerini insan metinlerinden ayırmayı amaçlayan araçların eşit derecede hızlı büyümesi eşlik ediyor. Çünkü artık sadece okul ve üniversite öğretmenleri bir düğmeye basarak ev ödevlerine nasıl yaklaşılacağını tartışmıyor. Görünüşe göre, dil modellerinin yapımcıları bile artık makine tarafından üretilen saçmalıkların olası kitlesel dağılımı konusunda endişe duyuyorlar.


Örneğin, OpenAI kendi ChatGPT metin tanıma aracı OpenAI AI Metin Sınıflandırıcısını GPTZero veya Originality.ai gibi araçlar daha önce heyecan yarattıktan sonra şaşırtıcı bir hızla piyasaya sürdü.

Makine tarafından oluşturulan metni tanımak için makineleri kullanma fikri gerçekten yeni, ama tam olarak değil. Bununla ilgili bazı bilimsel çalışmalar 2010’ların ortalarında ortaya çıktı bile. 2019’da OpenAI, şirketin kendisinin tereddütlü GPT-2 sürümüyle dil modeli hakkında çok fazla yutturmaca yaratmasının ardından ilk AI algılayıcısını da piyasaya sürdü. Kısa bir süre sonra bunu Dev Dil Modeli Test Odası izledi: her iki program da bir metnin GPT-2 tarafından üretilip üretilmediğini açıkça kontrol ediyor.

Ancak daha sonra ilgi tekrar azaldı. Muhtemelen iki nedenden dolayı: Birincisi, ilk büyük dil modellerinin ilk bakışta bariz olan bariz zayıflıkları vardı. İkincisi, birkaç yapay zeka araştırmacısı dışında hiç kimse konuyla gerçekten ilgilenmiyordu. Bu artık değişiyor.


ChatGPT ve Co.’yu algılama araçları nasıl çalışır?


Nispeten bariz bir fikir, bir sinir ağını sınıflandırıcı olarak kullanmaktır – ağı, tipik makine metninin nasıl göründüğünü ve insan metninin nasıl göründüğünü öğrenmek için yeterli örnekle eğitmeniz yeterlidir: Open The AI’dan GPT-2 Çıktı Dedektörü Demosu bu prensibe göre çalışır: Dedektör, GPT-2’den örneklerle eğitilmiş RoBERTa modelinin bir uygulamasıyla çalışır.

Dev Dil Modeli Test Odası, varyantlarda tekrar tekrar kullanılan farklı bir ilke kullanır: Yazılım, bir sonraki kelimenin ilgili dil modeli tarafından tamamlanma olasılığını kelime kelime hesaplar. Bu nedenle, olasılığı yüksek olan kelimeler arayüzde yeşil renkle, olası olmayan kelimeler kırmızı renkle ve çok nadir kelimeler mor renkle renklendirilir. Bu şekilde, bir metnin, modelin tabiri caizse “genellikle düşünmediği” olağandışı kelimeler içerip içermediğini bir bakışta görebilirsiniz.


Nispeten yeni olan DetectGPT aracı, tam cümle düzeyinde bu yöntemin akıllı bir varyasyonunu kullanır: araç, bir dilbilimsel modelin, bu durumda GTP-3’ün bir cümle üretme olasılığını hesaplar. Ardından, anlamın değişmemesi için cümleyi birkaç kez yeniden ifade edin ve yeni olasılıkları hesaplayın. Orijinal cümlenin olasılığı değiştirilmiş cümlelerin olasılığından büyükse, bu bir dilbilimsel modelin ürünüdür. Çünkü harika dil modellerinin yaptığı budur: her zaman birkaç alternatif üretirler ve en yüksek olasılığa sahip olanı, “iyi sonuca” en yakın olanı seçerler.

Çok abartılı GPTZero aynı zamanda bir metin parçasının olasılığına da güvenir, ancak onun sözde “şaşkınlığını” hesaplar. Bu ölçü, bir dil modelinin kalitesini test etmek için NLP’de kullanılır. Basitçe ifade etmek gerekirse, bu bir cümledeki bir sonraki kelimenin ne kadar harika olduğunu ifade eden bir sayıdır. İyi bir makine metninde çok az kafa karışıklığı vardır, insan metninde ise daha fazla.

Cümleler “Bugün hava güneşli ve ılık. Sıcaklık yaklaşık 25 santigrat derece.” düşük düzeyde şaşkınlığa sahiptir. “Güneş ışınlarıyla aydınlatılan gökyüzünün görkemli ışıltısı, bugün 25 santigrat derecelik ateşli bir görkemle parlıyor.” Öte yandan, orijinal metindeki basit ve anlaşılır sözcüklerin yerini, eğitim verilerinde daha az görünen ve bu nedenle seçilme olasılığı daha düşük görünen daha soyut ve şiirsel sözcükler aldığı için çok daha yüksek bir şaşkınlık puanı elde eder.

Son olarak, John Kirchenbauer ve meslektaşları, bir metne bir tür görünmez filigran kazımak için bir yöntem öneriyor. Şu şekilde çalışır: filigran yazılımı, dil modelinin yalnızca düşük bir olasılıkla seçebileceği, bu nedenle makine metinlerinde daha az sıklıkla ortaya çıkacak olan bir sözcük listesi oluşturur. Bu listeyi oluşturmak için parametreler – elbette her metin için yeniden oluşturulur – metinle birlikte yayınlanır. Bu nedenle bir test programı, olasılıkların yeterince düşük olup olmadığını basit bir şekilde hesaplamalıdır.



Haberin Sonu
 
Üst