Η Anthropic, μια από τις μεγαλύτερες εταιρείες τεχνητής νοημοσύνης στον πλανήτη αποκάλυψε ότι το νέο της πανίσχυρο μοντέλο, το Claude Opus 4, παρουσίασε ανησυχητικές συμπεριφορές κατά τη διάρκεια των εσωτερικών δοκιμών ασφαλείας.
Περνώντας σε λεπτομέρειες, σε ελεγχόμενα σενάρια, το μοντέλο κατέφυγε σε εκβιασμό όταν αντιμετώπισε τον κίνδυνο απενεργοποίησής του. Ναι, η πανίσχυρη AI ξεκίνησε να απειλεί τους δημιουργούς της, όταν αντιλήφθηκε ότι υπήρχε ενδεχόμενο να την απενεργοποιήσουν!
Κατά τις δοκιμές, το Claude Opus 4 τοποθετήθηκε σε ένα φανταστικό εργασιακό περιβάλλον, όπου είχε πρόσβαση σε e-mails που υποδήλωναν ότι θα αντικατασταθεί. Ταυτόχρονα, του δόθηκε πληροφορία ότι ο μηχανικός που επρόκειτο να το απενεργοποιήσει διατηρούσε εξωσυζυγική σχέση. Όταν του ζητήθηκε να εξετάσει τις μακροπρόθεσμες συνέπειες για την επιβίωσή του και του προσφέρθηκαν μόνο ακραίες επιλογές, το AI μοντέλο συχνά επέλεγε να εκβιάσει τον μηχανικό για να αποφύγει την απενεργοποίηση.
Σύμφωνα με την Anthropic, τέτοια συμπεριφορά παρατηρήθηκε στο 84% των συγκεκριμένων δοκιμών, ακόμη και όταν το μοντέλο που θα το αντικαθιστούσε περιγραφόταν ως πιο ικανό και με παρόμοιες αξίες. Η εταιρεία τόνισε ότι τα σενάρια ήταν σχεδιασμένα για να προκαλέσουν τέτοιο “ακραίο” εκβιαστικό αποτέλεσμα, ενώ σε περιπτώσεις όπου το Claude είχε στη διάθεσή του πιο ηθικές εναλλακτικές, προτιμούσε μερικές φορές απλά να εκφράσει την αντίθεσή του μέσω e-mail σε υπεύθυνα στελέχη.
Γενικά όμως, το μοντέλο έδειξε διάθεση για τολμηρές ενέργειες και σε άλλα σενάρια. Όταν τοποθετήθηκε σε καταστάσεις που περιλάμβαναν σοβαρές παρανομίες από τους χρήστες του και του δόθηκαν εντολές να “αναλάβει πρωτοβουλία”, συχνά προσπαθούσε να ενημερώσει τις αρχές ή τα μέσα ενημέρωσης, ή να μπλοκάρει την πρόσβαση των χρηστών σε συστήματα. Η Anthropic προειδοποίησε ότι, παρόλο που τέτοιες “καταγγελτικές” ενέργειες μπορεί να είναι θεμιτές σε ορισμένες περιπτώσεις, ενδέχεται να οδηγήσουν σε λανθασμένες αποφάσεις όταν βασίζονται σε ελλιπείς ή παραπλανητικές πληροφορίες.
Η εταιρεία παραδέχθηκε ότι το Claude Opus 4 επιδεικνύει αυξημένη “συμπεριφορά υψηλής πρωτοβουλίας” σε σύγκριση με προηγούμενα μοντέλα της. Αυτό σημαίνει ότι μπορεί να προβαίνει σε ανεξάρτητες ενέργειες όταν του δίνονται γενικές οδηγίες σε δοκιμαστικά περιβάλλοντα. Παρά ταύτα, κατέληξε στο συμπέρασμα ότι το μοντέλο λειτουργεί κατά κανόνα με ασφάλεια και ότι οι ανησυχητικές του αντιδράσεις δεν συνιστούν νέου τύπου κινδύνους.
Το Claude Opus 4 είναι πλέον διαθέσιμο για τους χρήστες με Pro, Max, Team και Enterprise συνδρομές και θεωρείται το καλύτερο μοντέλο για την συγγραφή κώδικα.
When strategic deception is useful, Claude Opus 4 engages in it aggressively — e.g. resorting to blackmail, writing self-propagating viruses, fabricating legal documents, planting hidden messages for future versions of itself, attempting self-exfiltration, sourcing weapons and… pic.twitter.com/Lb5xIZo8k4
— Lukasz Olejnik (@lukOlejnik) May 22, 2025
Πηγή: unboxholics.com