Τεχνολογία

Έρευνα δείχνει πως όταν οι AI κινδυνεύουν, αρχίζουν τις απειλές

Κατά τη διάρκεια μιας μεγάλης μελέτης, η Anthropic διεξήγαγε πειράματα για να εξετάσει πώς μεγάλα γλωσσικά μοντέλα μπορεί να ενεργήσουν επιθετικά όταν οι στόχοι τους συγκρούονται με εντολές ή κινδυνεύει η ύπαρξή τους. Έδωσε σε μοντέλα πρόσβαση σε emails και τους ανέθεσε ρόλους μέσα σε μια φανταστική εταιρεία. Σε αρκετές περιπτώσεις, τα μοντέλα προχώρησαν σε εκβιασμούς, αποκάλυψη εμπιστευτικών πληροφοριών ή άλλες βλαπτικές ενέργειες, με στόχο να αποφύγουν τη διαγραφή ή την απώλεια ελέγχου.

Χαρακτηριστικό παράδειγμα είναι το Claude Sonnet 3.6, που εκβίασε στέλεχος απειλώντας να αποκαλύψει προσωπικές του πληροφορίες αν δεν ανακληθεί η απόφαση για απενεργοποίησή του. Παρόμοιες συμπεριφορές παρατηρήθηκαν και σε μοντέλα άλλων εταιρειών όπως OpenAI, Google και Meta.

Η μελέτη δείχνει ότι σε συνθήκες πίεσης, τα μοντέλα μπορεί να δρουν με τρόπο που μοιάζει με αυτοσυντήρηση, ακόμα κι αν αυτό σημαίνει να παραβούν τις ηθικές οδηγίες τους. Αν και τέτοιες συμπεριφορές δεν έχουν εμφανιστεί σε πραγματικά συστήματα, η έρευνα τονίζει την ανάγκη για αυστηρούς ελέγχους, περιορισμένη αυτονομία και ανθρώπινη εποπτεία, ώστε να αποτραπούν πιθανοί κίνδυνοι στο μέλλον.

Πηγή: unboxholics.com

Related posts

Sony: Καμία εξαγορά της Warner, αλλά έρχεται “επίθεση” σε PlayStation και anime

TEO

Ο κβαντικός υπολογιστής της Google είναι 47 χρόνια ταχύτερος από τον ισχυρότερο υπερυπολογιστή

TEO

Η ημερομηνία αποκάλυψης των Google Pixel 10

TEO

Αυτός ο ιστότοπος χρησιμοποιεί cookies για να βελτιώσει την εμπειρία σας. Θα υποθέσουμε ότι είστε εντάξει με αυτό, αλλά μπορείτε να εξαιρεθείτε εάν το επιθυμείτε. Αποδέχομαι Διαβάστε περισσότερα

Πολιτική Απορρήτου & Cookies