Κατά τη διάρκεια μιας μεγάλης μελέτης, η Anthropic διεξήγαγε πειράματα για να εξετάσει πώς μεγάλα γλωσσικά μοντέλα μπορεί να ενεργήσουν επιθετικά όταν οι στόχοι τους συγκρούονται με εντολές ή κινδυνεύει η ύπαρξή τους. Έδωσε σε μοντέλα πρόσβαση σε emails και τους ανέθεσε ρόλους μέσα σε μια φανταστική εταιρεία. Σε αρκετές περιπτώσεις, τα μοντέλα προχώρησαν σε εκβιασμούς, αποκάλυψη εμπιστευτικών πληροφοριών ή άλλες βλαπτικές ενέργειες, με στόχο να αποφύγουν τη διαγραφή ή την απώλεια ελέγχου.
Χαρακτηριστικό παράδειγμα είναι το Claude Sonnet 3.6, που εκβίασε στέλεχος απειλώντας να αποκαλύψει προσωπικές του πληροφορίες αν δεν ανακληθεί η απόφαση για απενεργοποίησή του. Παρόμοιες συμπεριφορές παρατηρήθηκαν και σε μοντέλα άλλων εταιρειών όπως OpenAI, Google και Meta.
Η μελέτη δείχνει ότι σε συνθήκες πίεσης, τα μοντέλα μπορεί να δρουν με τρόπο που μοιάζει με αυτοσυντήρηση, ακόμα κι αν αυτό σημαίνει να παραβούν τις ηθικές οδηγίες τους. Αν και τέτοιες συμπεριφορές δεν έχουν εμφανιστεί σε πραγματικά συστήματα, η έρευνα τονίζει την ανάγκη για αυστηρούς ελέγχους, περιορισμένη αυτονομία και ανθρώπινη εποπτεία, ώστε να αποτραπούν πιθανοί κίνδυνοι στο μέλλον.
Πηγή: unboxholics.com