Pada acara Black Hat Europe minggu ini di London, Senior Data Scientist SophosAI, Tamás Vörös, akan memberikan presentasi selama 40 menit yang berjudul “LLMbotomy: Shutting the Trojan Backdoors” pada pukul 1:30 PM. Presentasi Vörös ini merupakan pengembangan dari presentasi yang ia sampaikan di konferensi CAMLIS baru-baru ini, yang membahas potensi risiko yang ditimbulkan oleh Model Bahasa Besar (LLM) yang terinfeksi Trojan dan bagaimana risiko tersebut bisa diminimalkan oleh pengguna LLM yang mungkin telah disusupi dengan senjata berbahaya.
Penelitian yang ada mengenai LLM umumnya fokus pada ancaman eksternal terhadap LLM, seperti serangan “prompt injection” yang bisa digunakan untuk mengambil data yang disematkan dalam instruksi yang sudah diajukan oleh pengguna lain, serta serangan berbasis input lainnya terhadap LLM itu sendiri. Penelitian SophosAI yang disampaikan oleh Vörös, meneliti ancaman yang disematkan dalam LLM, seperti backdoor Trojan yang dimasukkan ke dalam LLM selama proses pelatihan dan diaktifkan oleh input tertentu yang dirancang untuk menyebabkan perilaku berbahaya. Ancaman semacam ini bisa dimasukkan dengan sengaja oleh pihak yang memiliki niat jahat selama pelatihan model, atau secara tidak sengaja melalui keracunan data. Penelitian ini tidak hanya mempelajari bagaimana Trojan ini bisa dibuat, tetapi juga metode untuk menonaktifkannya.
Penelitian SophosAI menunjukkan penggunaan teknik “noising” yang ditargetkan pada neuron-neuron LLM, untuk mengidentifikasi neuron-neuron yang krusial dalam operasi LLM berdasarkan pola aktivasi mereka. Teknik ini terbukti efektif dalam menetralkan sebagian besar Trojan yang disematkan dalam model. Laporan lengkap mengenai penelitian yang disampaikan oleh Vörös akan diterbitkan setelah acara Black Hat Europe.
