Τεχνολογία

Νέος ανταγωνιστής για το ChatGPT: Καινούργια AI από Κίνα νικάει σε διάφορα τεστ

Η κινεζική startup DeepSeek παρουσίασε το DeepSeek-V3, ένα υπερ-μεγάλο γλωσσικό μοντέλο ανοιχτού κώδικα που ανεβάζει τον πήχη στην τεχνητή νοημοσύνη. Με 671 δισεκατομμύρια παραμέτρους και αρχιτεκτονική mixture-of-experts (MoE), το μοντέλο ενεργοποιεί επιλεκτικά ένα υποσύνολο παραμέτρων για βελτιστοποίηση της απόδοσης σε συγκεκριμένες εργασίες. Σύμφωνα με συγκριτικές δοκιμές, το DeepSeek-V3 ξεπερνά μοντέλα ανοιχτού κώδικα, όπως το Llama-3.1-405B της Meta, και ανταγωνίζεται επιδόσεις κλειστών μοντέλων από εταιρείες όπως η Anthropic και η OpenAI. Το μοντέλο διατίθεται υπό την άδεια της DeepSeek μέσω της πλατφόρμας Hugging Face.

Το DeepSeek-V3 διαθέτει καινοτομίες όπως η auxiliary loss-free load-balancing strategy, η οποία βελτιστοποιεί τη χρήση του νευρωνικού δικτύου, και το multi-token prediction (MTP), που επιτρέπει ταχύτερη παραγωγή κειμένου. Με εκπαίδευση σε 14,8 τρισεκατομμύρια tokens, το μοντέλο επεκτείνει το context length του σε δύο φάσεις, φτάνοντας έως και τα 128.000 tokens.

Παρά το τεράστιο μέγεθός του, το κόστος εκπαίδευσης περιορίστηκε στα 5,57 εκατομμύρια δολάρια, σημαντικά χαμηλότερο από τα εκατοντάδες εκατομμύρια που απαιτούνται συνήθως για μοντέλα αντίστοιχης κλίμακας.

Οι δοκιμές απόδοσης αναδεικνύουν ότι το DeepSeek-V3 κυριαρχεί σε benchmarks με επίκεντρο τα κινεζικά δεδομένα και τα μαθηματικά. Για παράδειγμα, στο Math-500, το μοντέλο σημείωσε την κορυφαία βαθμολογία στον κόσμο, δηλαδη 90,2, ξεπερνώντας το επόμενο καλύτερο αποτέλεσμα των 80 του Qwen 2.5-72B. Αν και το Claude 3.5 Sonnet της Anthropic παραμένει ανταγωνιστικό σε ορισμένες εργασίες, το DeepSeek-V3 αποδεικνύει τη δύναμη των ανοιχτών μοντέλων να πλησιάζουν τις επιδόσεις των κλειστών συστημάτων σε πολλές εφαρμογές.

Το DeepSeek-V3 είναι διαθέσιμο για επιχειρήσεις μέσω της πλατφόρμας DeepSeek Chat και μέσω API, με ανταγωνιστική τιμολόγηση για να ενθαρρύνει τη χρήση.

Αυτή η κυκλοφορία υπογραμμίζει την πρόοδο της τεχνητής νοημοσύνης ανοιχτού κώδικα, μειώνοντας τη διαφορά με τα κλειστά συστήματα και διευρύνοντας τις επιλογές για επιχειρήσεις και τους χρήστες που αναζητούν προηγμένες και οικονομικά αποδοτικές λύσεις AI.

Πηγή: unboxholics.com

Related posts

Η 13η γενιά της Intel καταφθάνει τον Οκτώβριο με έως 24 πυρήνες και έως 5.8GHz

TEO

Το Xiaomi Mi Band 7 έκανε την εμφάνιση του στην αγορά

TEO

Το Huawei Nova Y70 Plus έρχεται με 8MP selfie κάμερα και 6,000mAh μπαταρία

TEO

Αυτός ο ιστότοπος χρησιμοποιεί cookies για να βελτιώσει την εμπειρία σας. Θα υποθέσουμε ότι είστε εντάξει με αυτό, αλλά μπορείτε να εξαιρεθείτε εάν το επιθυμείτε. Αποδέχομαι Διαβάστε περισσότερα

Πολιτική Απορρήτου & Cookies