Sophos AI Memaparkan Cara Mengatasi Model AI Berbahaya di Black Hat Europe

Pada acara Black Hat Europe yang diadakan di London tahun ini, Senior Data Scientist SophosAI, Tamás Vörös, akan memberikan presentasi selama 40 menit berjudul “LLMbotomy: Shutting the Trojan Backdoors” pada pukul 13:30. Presentasi ini adalah pengembangan dari pembicaraan yang telah diberikan Vörös pada konferensi CAMLIS sebelumnya, dan membahas lebih dalam tentang potensi risiko yang ditimbulkan oleh Large Language Models (LLM) yang terinfeksi Trojan dan bagaimana risiko tersebut dapat diminimalkan oleh pengguna yang menggunakan LLM yang berpotensi dimanipulasi.

Penelitian SophosAI ini menantang pemahaman konvensional mengenai keamanan LLM. Penelitian yang ada sejauh ini sebagian besar berfokus pada ancaman eksternal terhadap model-model ini, seperti serangan “prompt injection” yang memanfaatkan data yang tertanam dalam instruksi sebelumnya atau serangan berbasis input yang diberikan ke model. Namun, penelitian SophosAI yang dipresentasikan oleh Vörös ini berfokus pada ancaman yang tertanam di dalam LLM itu sendiri, seperti Trojan backdoor yang dimasukkan ke dalam LLM selama fase pelatihannya, yang dapat diaktifkan oleh input tertentu yang dirancang untuk memicu perilaku berbahaya.

Ancaman Trojan pada LLM: Mengapa Anda Harus Khawatir

Penelitian tradisional seputar LLM umumnya lebih banyak membahas serangan eksternal, seperti input pengguna yang berbahaya atau mengeksploitasi kelemahan dalam cara model memproses perintah. Walaupun ancaman eksternal ini jelas mengkhawatirkan, penelitian SophosAI telah mengidentifikasi risiko baru yang jauh lebih licik: Trojan backdoor yang tertanam dalam model selama fase pelatihan mereka.

Trojan backdoor adalah komponen berbahaya yang disisipkan ke dalam LLM yang dapat diaktifkan dengan input tertentu yang telah dirancang dengan cermat. Trojan ini bisa sengaja diperkenalkan oleh individu dengan niat jahat yang terlibat dalam pelatihan model, atau dapat terjadi akibat dari “data poisoning” yang tidak disengaja, di mana data pelatihan itu sendiri dimanipulasi untuk menyertakan pola berbahaya. Begitu teraktifkan, Trojan ini bisa menyebabkan LLM berperilaku tidak terduga, memberikan jalan bagi penyerang untuk merusak sistem, mencuri data, atau menyebabkan kerusakan tanpa terdeteksi.

Masalah dengan Trojan backdoor ini adalah bahwa mereka tersembunyi dalam arsitektur model dan bisa tetap tidak terdeteksi hingga dipicu oleh input tertentu. Berbeda dengan serangan tipikal yang bergantung pada faktor eksternal, Trojan dalam LLM menghadirkan tantangan unik karena mereka dapat tetap tidak terdeteksi untuk waktu yang lama, hanya muncul ketika kondisi yang tepat terpenuhi.

Penelitian SophosAI: Metode untuk Menonaktifkan Trojan dalam LLM

Dalam penelitian mereka, SophosAI telah menemukan metode yang menjanjikan untuk mendeteksi dan menetralkan Trojan yang tertanam dalam LLM. Vörös dan timnya memperkenalkan teknik yang disebut “noising,” yang menargetkan neuron-neuron tertentu dalam LLM. Teknik ini bekerja dengan mengidentifikasi pola aktivasi pada neuron yang penting untuk fungsionalitas model. Setelah neuron-neuron kritis ini diidentifikasi, mereka dapat diberi “noising” atau gangguan, yang secara efektif menonaktifkan sebagian besar Trojan backdoor tanpa mengorbankan kinerja atau fungsionalitas model secara keseluruhan.

Metode “noising” ini bekerja dengan mengganggu jalur saraf yang digunakan oleh Trojan untuk berfungsi. Melalui teknik ini, SophosAI dapat secara efektif menetralkan Trojan yang seharusnya menyebabkan model berperilaku tidak semestinya saat dipicu oleh input tertentu. Ini adalah terobosan yang signifikan dalam keamanan AI, karena memberikan cara untuk melawan ancaman tertanam yang sulit terdeteksi.

Penelitian ini adalah langkah penting dalam mengurangi risiko yang terkait dengan LLM yang terinfeksi Trojan, memberikan cara untuk menetralkan ancaman-ancaman ini tanpa perlu membuang atau melatih ulang model tersebut. Pendekatan ini memastikan bahwa LLM dapat digunakan dengan aman di lingkungan yang membutuhkan tingkat keamanan yang tinggi, mengurangi risiko pelanggaran data, akses tidak sah, atau kegiatan berbahaya lainnya.

Mengapa Menonaktifkan Trojan dalam LLM Sangat Penting

Dengan semakin berkembangnya penggunaan LLM dalam berbagai aplikasi—dari chatbot dan sistem rekomendasi hingga alat pengambilan keputusan dan analitik data—sangat penting untuk memastikan bahwa model-model ini aman dan tidak rentan terhadap manipulasi. Trojan backdoor dapat dimanfaatkan untuk menjalankan tindakan berbahaya, seperti mencuri informasi sensitif, menyebarkan disinformasi, atau mempengaruhi proses pengambilan keputusan berdasarkan niat jahat.

Melalui penelitian yang dipresentasikan oleh SophosAI, Vörös tidak hanya menjelaskan bagaimana Trojan ini bisa disisipkan ke dalam LLM, tetapi juga memberikan metode untuk melawannya. Penelitian ini sangat relevan mengingat semakin meningkatnya penggunaan model AI dalam aplikasi-aplikasi kritis, di mana kerentanannya, meskipun kecil, bisa memiliki konsekuensi yang sangat besar.

Apa Selanjutnya?

SophosAI berencana untuk merilis laporan lengkap mengenai penelitian ini setelah acara Black Hat Europe. Laporan tersebut akan menggali lebih dalam tentang bagaimana Trojan disisipkan dalam LLM, dan bagaimana teknik “noising” dapat digunakan untuk mendeteksi dan menonaktifkannya. Selain itu, laporan tersebut akan memberikan panduan bagi pengembang dan peneliti tentang cara melindungi model AI mereka dari ancaman-ancaman semacam ini.

Seiring dengan semakin terintegrasinya LLM dalam industri dan aplikasi sehari-hari, kebutuhan akan langkah-langkah keamanan yang kuat untuk melindungi model-model ini menjadi semakin mendesak. Penelitian oleh SophosAI ini merupakan langkah krusial dalam memastikan bahwa LLM tetap aman, dapat diandalkan, dan bebas dari ancaman tersembunyi yang bisa dimanfaatkan oleh aktor jahat.

Kesimpulan

Penelitian yang dipresentasikan oleh SophosAI, yang dipimpin oleh Tamás Vörös, di Black Hat Europe mengungkapkan bahaya tersembunyi yang ditimbulkan oleh Trojan backdoor yang tertanam dalam Large Language Models. Dengan memperkenalkan teknik inovatif “noising,” SophosAI memberikan solusi untuk menetralkan Trojan ini, memastikan bahwa LLM dapat digunakan dengan aman tanpa mengorbankan keamanan.

Penelitian ini adalah kontribusi penting dalam upaya berkelanjutan untuk membuat model AI lebih aman dan dapat dipercaya. Seiring dengan terus berkembangnya teknologi AI, kita harus tetap waspada terhadap potensi risiko dan mengambil langkah-langkah proaktif untuk melawannya. Dengan inovasi seperti yang dipresentasikan oleh SophosAI, kita dapat memastikan bahwa AI tetap menjadi alat yang berguna tanpa jatuh ke tangan manipulasi berbahaya.