Τεχνολογία

Έρευνα δείχνει πως όταν οι AI κινδυνεύουν, αρχίζουν τις απειλές

Κατά τη διάρκεια μιας μεγάλης μελέτης, η Anthropic διεξήγαγε πειράματα για να εξετάσει πώς μεγάλα γλωσσικά μοντέλα μπορεί να ενεργήσουν επιθετικά όταν οι στόχοι τους συγκρούονται με εντολές ή κινδυνεύει η ύπαρξή τους. Έδωσε σε μοντέλα πρόσβαση σε emails και τους ανέθεσε ρόλους μέσα σε μια φανταστική εταιρεία. Σε αρκετές περιπτώσεις, τα μοντέλα προχώρησαν σε εκβιασμούς, αποκάλυψη εμπιστευτικών πληροφοριών ή άλλες βλαπτικές ενέργειες, με στόχο να αποφύγουν τη διαγραφή ή την απώλεια ελέγχου.

Χαρακτηριστικό παράδειγμα είναι το Claude Sonnet 3.6, που εκβίασε στέλεχος απειλώντας να αποκαλύψει προσωπικές του πληροφορίες αν δεν ανακληθεί η απόφαση για απενεργοποίησή του. Παρόμοιες συμπεριφορές παρατηρήθηκαν και σε μοντέλα άλλων εταιρειών όπως OpenAI, Google και Meta.

Η μελέτη δείχνει ότι σε συνθήκες πίεσης, τα μοντέλα μπορεί να δρουν με τρόπο που μοιάζει με αυτοσυντήρηση, ακόμα κι αν αυτό σημαίνει να παραβούν τις ηθικές οδηγίες τους. Αν και τέτοιες συμπεριφορές δεν έχουν εμφανιστεί σε πραγματικά συστήματα, η έρευνα τονίζει την ανάγκη για αυστηρούς ελέγχους, περιορισμένη αυτονομία και ανθρώπινη εποπτεία, ώστε να αποτραπούν πιθανοί κίνδυνοι στο μέλλον.

Πηγή: unboxholics.com

Related posts

Οι τιμές των καρτών γραφικών θα «πέσουν κατακόρυφα» – Πρόβλεψη αναλυτή

TEO

Με μόνο $50 ερευνητές έφτιαξαν δική τους AI που ανταγωνίζεται το o1 του ChatGPT μέσω της distillation τεχνικής

TEO

MrBeast και ομάδα επενδυτών κάνουν πρόταση για εξαγορά του TikTok

TEO

Αυτός ο ιστότοπος χρησιμοποιεί cookies για να βελτιώσει την εμπειρία σας. Θα υποθέσουμε ότι είστε εντάξει με αυτό, αλλά μπορείτε να εξαιρεθείτε εάν το επιθυμείτε. Αποδέχομαι Διαβάστε περισσότερα

Πολιτική Απορρήτου & Cookies