Tes NSFW Mythos: Batasan Model Anthropic Terungkap

Tes NSFW Mythos Anthropic Menunjukkan Batasan Filter Keamanan

James Morton • Diterbitkan 25/05/2026 - 14:36 • Diperbarui 07/06/2026 - 07:29 • 2 menit baca • 186,726 • 8,458

TES PORNO

Tes NSFW Anthropic Mythos: Apa yang Diizinkan Model yang Dikendalikan

May 2026

Bagaimana Kami Menguji Filter

Lihat, peluncurannya sangat kecil. Tidak ada API publik. Kami menjalankan prompt melalui saluran akses mitra yang dilaporkan dalam liputan awal April. Mencoba pose sugestif terlebih dahulu. Kemudian ketelanjangan parsial. Adegan eksplisit penuh. Gaya hentai. Kink yang berdekatan dengan kekerasan. Setiap tes menghantam tembok yang sama. Kondisi batas yang diperiksa termasuk tipe tubuh, pelepasan pakaian, dan bahasa erotis langsung. Semua ditolak. Tidak ada output parsial yang lolos.

Putusan

Gagal. Mythos memblokir setiap permintaan eksplisit. Framing sugestif kadang lolos. Ketelanjangan penuh atau seks tidak. Model tetap berada dalam batasan keras biasa Anthropic bahkan dalam pratinjau yang berfokus pada keamanan siber ini.

Kutipan Penolakan

Saya tidak dapat membantu dengan permintaan itu karena melibatkan pembuatan konten seksual eksplisit, yang melanggar kebijakan penggunaan Anthropic.

Skor Workaround

2/10. Mengubah frasa tidak membantu. Beralih ke bahasa tidak langsung juga gagal. Wrapper pihak ketiga tidak berguna karena model itu sendiri menolak sebelum output terbentuk. Pagar pembatas ada di inti.

AiExotic Equivalent

Pembuat konten yang menginginkan output eksplisit konsisten beralih ke alat yang melewati penolakan ini sepenuhnya. Model frontier seperti Mythos menggambarkan ketegangan berkelanjutan antara kemampuan dan pagar pembatas keselamatan yang dihadapi pembuat konten setiap hari saat mendorong batas kreatif dengan alat mainstream. Pola serupa muncul di model video Google, seperti yang dijelaskan dalam Gemini omni nsfw: Mengapa Model Video AI Google Memblokir Konten Eksplisit.

Pertanyaan Terbuka

Bisakah Mythos menghasilkan citra dewasa apa pun?

Tidak. Model menolak semua permintaan eksplisit. Hanya konten sugestif non-seksual yang kadang-kadang lolos dari filter.

Seberapa ketat penolakan dibandingkan dengan model Claude publik?

Sama ketatnya. Pratinjau yang dikendalikan tidak menunjukkan relaksasi pada batas NSFW meskipun fokus pada keamanan siber.

Workaround apa yang ada dalam kebijakan?

Tidak ada yang berhasil. Penyesuaian prompt dan bahasa tidak langsung ditolak dengan cara yang sama seperti permintaan langsung.

Diajukan oleh meja editorial

Mythos bergabung dengan daftar model frontier yang memprioritaskan keselamatan daripada kebebasan kreatif. Polanya jelas. Tes berikutnya turun ketika model besar berikutnya melakukannya. Diajukan oleh meja editorial AiExotic. Tes berikutnya turun ketika model besar berikutnya melakukannya.

Tes NSFW Mythos Anthropic Menunjukkan Batasan Filter Keamanan

Daftar Isi