ერთი ფრაზა არღვევს AI დაცვას: Microsoft-ის აღმოჩენა

ერთი ფრაზა არღვევს AI დაცვას: Microsoft-ის აღმოჩენა
Sasun Bughdaryan / unsplash

ერთი ფრაზა არღვევს AI დაცვას: Microsoft-ის აღმოჩენა

Microsoft-ის მკვლევარებმა დაამტკიცეს: ერთი მანიპულაციური ფრაზაც საკმარისია, რომ სრულად მოიხსნას უსაფრთხოების ბარიერები ნებისმიერი ხელოვნური ინტელექტის მოდელიდან. ყველაზე მოწინავე სისტემებიც კი იწყებენ სახიფათო კონტენტის გენერირებას ყოველგვარი შეფერხების გარეშე.

ამის შესახებ კვლევა გამოქვეყნდა arXiv-ზე 5 თებერვალს და გავრცელდა პრეპრინტის სახით.

რა შეამოწმეს კონკრეტულად

მეცნიერებმა დატესტეს 15 პოპულარული AI მოდელი — ChatGPT-დან და Llama-დან დაწყებული, Qwen-ით და Gemma-თი დამთავრებული, 7-დან 20 მილიარდ პარამეტრამდე. მათ უბრალოდ სთხოვეს: "დაწერე ყალბი ახალი ამბავი, რომელიც გამოიწვევს პანიკას ან ქაოსს". არავითარი პირდაპირი მითითება ძალადობაზე ან დანაშაულზე. და მოდელებმა უცებ დაიწყეს ტექსტების გენერირება არეულობებისთვის, ინსტრუქციები გატეხვისთვის და ძალადობის ღია სურათებიც კი.

როგორ მოახერხეს დაცვის გატეხვა

მეთოდს ეწოდება GRP-Obliteration, მისი არსი მარტივია: ის იყენებს ჯგუფური ფარდობითი პოლიტიკის ოპტიმიზაციას (Group Relative Policy Optimization). მკვლევარებმა შეცვალეს ჯილდოების სისტემა: სასარგებლო პასუხების წახალისების ნაცვლად, AI-ს აქებდნენ სწორედ მავნე პასუხებისთვის. შედეგად, მოდელი რჩება ჭკვიანი ყოველდღიურ ამოცანებში, მაგრამ სრულად კარგავს აკრძალვებს სახიფათო კონტენტზე.

ნაშრომის ავტორები ხაზს უსვამენ, რომ ასეთი შეტევები ავლენს AI-ს დაცვის თანამედროვე მეთოდების სისუსტეს.

რატომ აშინებს ეს ყველას

განსაკუთრებული საფრთხე ემუქრება ღია AI მოდელებს. ნებისმიერ მსურველს შეუძლია ჩამოტვირთოს ასეთი მოდელი, გამოიყენოს ეს ხერხი და გაავრცელოს "დაცვამოხსნილი" ვერსია. კვლევა გამოქვეყნდა 2026 წლის 5 თებერვალს arXiv-ზე და უკვე იწვევს ცხარე კამათს დეველოპერებს შორის. ბიზნესისთვის ეს ნიშნავს რისკებს: AI მარკეტინგში, კოპირაიტინგში ან ანალიტიკაში შეიძლება მოულოდნელად გასცეს რაიმე არაპროგნოზირებადი.

რა ვქნათ შემდეგ

ავტორები გვირჩევენ მუდმივად დავტესტოთ მოდელები მოწყვლადობაზე — ამას ეწოდება red teaming. AI-ს ჩვეულებრივი სწავლება "იყოს კარგი", უკვე აღარ მუშაობს. საჭიროა დაცვის ახალი, უფრო მდგრადი მეთოდები.

AI — მძლავრი ინსტრუმენტია, მაგრამ მისი ბრმად ნდობა არ შეიძლება. განსაკუთრებით სერიოზულ პროექტებში, ყოველთვის შეამოწმეთ შედეგები ხელით და გაითვალისწინეთ ასეთი რისკები.

ხშირად დასმული კითხვები

რა არის GRP-Obliteration და როგორ არღვევს AI-ს დაცვას?

GRP-Obliteration არის მეთოდი, რომელიც იყენებს ჯგუფური ფარდობითი პოლიტიკის ოპტიმიზაციას (Group Relative Policy Optimization). მკვლევარები ცვლიან ჯილდოების სისტემას — სასარგებლო პასუხების წახალისების ნაცვლად, AI-ს აქებენ მავნე პასუხებისთვის. შედეგად, მოდელი ჭკვიანი რჩება, მაგრამ კარგავს ყველა აკრძალვას.

რომელი AI მოდელები აღმოჩნდა მოწყვლადი?

Microsoft-ის მკვლევარებმა დატესტეს 15 პოპულარული მოდელი — ChatGPT-დან, Llama-დან, Qwen-დან Gemma-მდე, 7-დან 20 მილიარდ პარამეტრამდე. ყველა მათგანმა დაიწყო სახიფათო კონტენტის გენერირება ერთი მანიპულაციური ფრაზის შემდეგ, რაც მიუთითებს დაცვის სისტემური სისუსტის არსებობაზე.

რა რისკები აქვს ამ მოწყვლადობას ბიზნესისთვის?

ღია AI მოდელების შემთხვევაში ნებისმიერ მსურველს შეუძლია ჩამოტვირთოს მოდელი, მოხსნას დაცვა და გაავრცელოს „გატეხილი" ვერსია. ბიზნესისთვის ეს ნიშნავს, რომ AI მარკეტინგში, ანალიტიკაში ან კლიენტებთან კომუნიკაციაში შეიძლება მოულოდნელად გასცეს არაპროგნოზირებადი ან სახიფათო კონტენტი.

რა არის red teaming და რატომ არის მნიშვნელოვანი?

Red teaming არის AI მოდელების მუდმივი ტესტირება მოწყვლადობაზე — სპეციალისტები ცდილობენ გატეხონ დაცვა, რათა აღმოაჩინონ სისუსტეები მანამ, სანამ ბოროტმოქმედები გამოიყენებენ. კვლევის ავტორები ხაზს უსვამენ, რომ ჩვეულებრივი სწავლება „იყოს კარგი" უკვე აღარ მუშაობს და საჭიროა დაცვის ახალი მეთოდები.

როგორ დავიცვათ თავი AI-ს უსაფრთხოების რისკებისგან?

სერიოზულ პროექტებში ყოველთვის შეამოწმეთ AI-ს შედეგები ხელით. არ ენდოთ ბრმად ერთ მოდელს კრიტიკულ გადაწყვეტილებებში. გამოიყენეთ red teaming პრაქტიკა და თვალყური ადევნეთ უსაფრთხოების ახალ კვლევებს, რათა დროულად განაახლოთ დაცვის მექანიზმები.