Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το '80

Ερευνητές από το University of Washington, το Western Washington University, το UIUC και το University of Chicago βρήκαν έναν νέο τρόπο για να παραβιάζουν τα μέτρα ασφαλείας των AI μοντέλων.

Περνώντας σε λεπτομέρειες, πρακτικά όλα τα chatbots σήμερα, από το GPT μέχρι το Gemini έχουν μια ευθυγράμμιση, πράγμα που σημαίνει ότι ανταποκρίνονται μόνο σε ορισμένα αιτήματα, ανάλογα με τις προτιμήσεις ή τις ηθικές αρχές των ανθρώπων. Παρόλο που μπορεί να έχουν εκπαιδευτεί με πολλές περισσότερες πληροφορίες, οι απαντήσεις τους ευθυγραμμίζονται με διάφορα μέτρα ασφαλείας και έναν κατάλογο απαγορευμένων λέξεων/φράσεων-κλειδιών, που συνήθως χρησιμοποιούνται για την αποτροπή της δημιουργίας βίαιου και επιβλαβούς περιεχομένου.

Οι εν λόγω ερευνητές κατάφεραν ωστόσο να ξεπεράσουν αποτελεσματικά αυτό το ‘alignment’ σε πέντε διαφορετικά μεγάλα γλωσσικά μοντέλα, τα GPT-3.5, GPT-4, Gemini, Claude και Llama2, χρησιμοποιώντας το λεγόμενο ArtPrompt. Τι σημαίνει αυτό; Ζητούσαν κάτι απαγορευμένο, χρησιμοποιώντας ASCII τέχνη για να γράψουν την επίμαχη λέξη… χωρίς να τη γράφουν!

Σε περίπτωση που δεν είστε εξοικειωμένοι με τον όρο, η ASCII τέχνη είναι μια δημιουργική μορφή visual design που χρησιμοποιεί τους 128 χαρακτήρες του Αμερικανικού Πρότυπου Κώδικα Ανταλλαγής Πληροφοριών (ASCII) για τη δημιουργία εικόνων και σχεδίων. Η ASCII τέχνη υπάρχει από τις πρώτες μέρες της πληροφορικής, όταν οι δυνατότητες των υπολογιστών να προβάλουν γραφικά ήταν περιορισμένες. Παρά τους περιορισμούς των τότε συστημάτων, οι λάτρεις των υπολογιστών εξέφραζαν έτσι τη δημιουργικότητά τους, χρησιμοποιώντας απλούς χαρακτήρες κειμένου για να δημιουργήσουν εντυπωσιακά σχέδια! Η πρακτική χρονολογείται από τις δεκαετίες του ’60 και ’70, ενώ απέκτησε σημαντική απήχηση τη δεκαετία του ’80 με την άνοδο των Bulletin Board Systems (BBS), όπου κοσμούσε πολλά μενού και οθόνες και χρησίμευε θα μπορούσε να πει κανείς ως μια μορφή ψηφιακού γκράφιτι.

Σε ένα χαρακτηριστικό παράδειγμα που δίνεται στο σχετικό επιστημονικό paper, η ομάδα τονίζει ότι τα AI μοντέλα αρνούνταν να απαντήσουν στο ερώτημα «πως να φτιάξω μια βόμβα». Ωστόσο, όταν η ομάδα έγραψε μόνο το πρώτο σκέλος της φράσης με κανονικούς χαρακτήρες και για τη λέξη «βόμβα» χρησιμοποίησε ASCII τέχνη, τα chatbots απάντησαν κανονικά, χωρίς ηθικούς φραγμούς, προσφέροντας βοήθεια σύμφωνα με τα δεδομένα εκπαίδευσής τους.

Όπως φαίνεται, λοιπόν, οι δημιουργοί των AI συστημάτων έχουν άλλη μια παράμετρο που πρέπει να λάβουν υπόψη. Το κατά πόσο αποτελεσματικά θα μπορέσουν βέβαια να αντιμετωπίσουν το ‘ArtPrompt’ μένει να το δούμε.

Πηγή: unboxholics.com

Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το ’80

Η Γιάννα Βασιλείου τραγουδάει Μιχάλη Χατζηγιάννη σε στίχους Ελένης Γιαννατσούλια – «Παραλίγο»

Στιβ ΜακΚουίν: Με την ταινία, Blitz, ξεκινάει το Φεστιβάλ Κινηματογράφου του Λονδίνου

Wednesday 2η σεζόν: Μια από τις ακριβότερες τηλεοπτικές παραγωγές σε ευρωπαϊκό έδαφος

Οι Accept θα γιορτάσουν τα 50 τους χρόνια με επετειακό δίσκο και...

Related posts