Έρευνα δείχνει πως όταν οι AI κινδυνεύουν, αρχίζουν τις απειλές

Κατά τη διάρκεια μιας μεγάλης μελέτης, η Anthropic διεξήγαγε πειράματα για να εξετάσει πώς μεγάλα γλωσσικά μοντέλα μπορεί να ενεργήσουν επιθετικά όταν οι στόχοι τους συγκρούονται με εντολές ή κινδυνεύει η ύπαρξή τους. Έδωσε σε μοντέλα πρόσβαση σε emails και τους ανέθεσε ρόλους μέσα σε μια φανταστική εταιρεία. Σε αρκετές περιπτώσεις, τα μοντέλα προχώρησαν σε εκβιασμούς, αποκάλυψη εμπιστευτικών πληροφοριών ή άλλες βλαπτικές ενέργειες, με στόχο να αποφύγουν τη διαγραφή ή την απώλεια ελέγχου.

Χαρακτηριστικό παράδειγμα είναι το Claude Sonnet 3.6, που εκβίασε στέλεχος απειλώντας να αποκαλύψει προσωπικές του πληροφορίες αν δεν ανακληθεί η απόφαση για απενεργοποίησή του. Παρόμοιες συμπεριφορές παρατηρήθηκαν και σε μοντέλα άλλων εταιρειών όπως OpenAI, Google και Meta.

Η μελέτη δείχνει ότι σε συνθήκες πίεσης, τα μοντέλα μπορεί να δρουν με τρόπο που μοιάζει με αυτοσυντήρηση, ακόμα κι αν αυτό σημαίνει να παραβούν τις ηθικές οδηγίες τους. Αν και τέτοιες συμπεριφορές δεν έχουν εμφανιστεί σε πραγματικά συστήματα, η έρευνα τονίζει την ανάγκη για αυστηρούς ελέγχους, περιορισμένη αυτονομία και ανθρώπινη εποπτεία, ώστε να αποτραπούν πιθανοί κίνδυνοι στο μέλλον.

Πηγή: unboxholics.com

Έρευνα δείχνει πως όταν οι AI κινδυνεύουν, αρχίζουν τις απειλές

Η μείωση της εγχώριας ζήτησης, κάνει τους Κινέζους… πρώτους σε εξαγωγές αυτοκινήτων...

Ηλεκτρικά scooter με τελική ταχύτητα από 100 χλμ./ώρα και πάνω

CFMoto U6 EV: Αθόρυβο αλλά ισχυρό ηλεκτρικό «εργαλείο»

Γιατί ακόμη και ένα μικρό τρακάρισμα κοστίζει μια περιουσία;

Related posts