LOADING

Type to search

Featured Tech ΝΕΑ

Ακούστε τη φαντασία σας: Η ElevenLabs θα λανσάρει AI για ηχητικά εφέ

Avatar
Share

Μετά την επιτυχή κατάκτηση της τέχνης του κλώνου φωνής με βάση τη μηχανική μάθηση (ML) και τη σύνθεσης φωνής, η ElevenLabs, η δύο χρονών AI εταιρεία που ιδρύθηκε από πρώην υπαλλήλους της Google και της Palantir, προχωρά στη διεύρυνση του χαρτοφυλακίου της με ένα νέο μοντέλο κειμένου-προς-ήχο.

Μετά από ενδείξεις πριν από λίγες ώρες, η τεχνητή νοημοσύνη θα επιτρέπει στους δημιουργούς να δημιουργούν ηχητικά εφέ απλά περιγράφοντας τη φαντασία τους με λέξεις. Αναμένεται να εμπλουτίσει το περιεχόμενο με έναν νέο τρόπο στην εποχή των AI-driven ψηφιακών εμπειριών.

Το μοντέλο δεν είναι διαθέσιμο δημοσίως ακόμα, αλλά η ElevenLabs έχει επιδείξει τις δυνατότητές του δημοσιεύοντας ένα λεπτό teaser που περιλαμβάνει βίντεο που παράγονται από το νέο μοντέλο της OpenAI, το Sora, και ενισχυμένα με ήχους της ίδιας της τεχνητής νοημοσύνης. Η εταιρεία έχει επίσης δημιουργήσει μια σελίδα εγγραφής και καλεί τους πιθανούς χρήστες να εγγραφούν σε μια λίστα αναμονής για πρόσβαση σε πρόωρη πρόσβαση για το μοντέλο.

Η ElevenLabs η οποία ιδρύθηκε το 2022 έχει ερευνήσει την τεχνητή νοημοσύνη για να καταστήσει τον ήχο και το βίντεο περιεχόμενο – από ταινίες έως podcasts – προσβάσιμο σε διάφορες γλώσσες και γεωγραφίες. Η εταιρεία έχει παρουσιάσει μια σειρά προσφορών για να επιτύχει αυτό, συμπεριλαμβανομένων μοντέλων κειμένου-προς-φωνή και φωνής-προς-φωνής που μπορούν να παράγουν τεχνητή φωνή από ένα κομμάτι περιεχομένου (κείμενο/ήχος/βίντεο) σε 29 διαφορετικές γλώσσες, προσφέροντας φυσική φωνή και συναισθήματα (φυσική φωνή του αρχικού ομιλητή σε φωνή-προς-φωνής).

Ενώ και οι δύο αυτές οι εργαλειοθήκες συνεχίζουν να βλέπουν ευρεία υιοθέτηση από επιχειρήσεις και άτομα που παράγουν περιεχόμενο, υπήρξε επίσης η ανοδική πορεία του αποκλειστικά από την τεχνητή νοημοσύνη δημιουργημένου περιεχομένου, χάρη σε εργαλεία όπως το Runway, το Pika και πιο πρόσφατα το OpenAI (με το Sora). Αυτά τα προϊόντα παράγουν ρεαλιστικά AI βίντεο από απλά κείμενα εντολών, αλλά αυτό που λείπει είναι ο προεπιλεγμένος ήχος. Εδώ θα εισέλθει το νέο μοντέλο της ElevenLabs, επιτρέποντας στους χρήστες να παράγουν ηχητικά εφέ για το περιεχόμενό τους περιγράφοντας αυτό που θέλουν.

Όταν χρησιμοποιηθεί, αυτή η προσφορά μπορεί εύκολα να επιτρέψει στους δημιουργούς της τεχνητής νοημοσύνης να ενισχύσουν το έργο τους με ήχους φόντου που θα έπρεπε να το συνοδεύουν φυσικά. Το ηχητικό εφέ μπορεί να είναι οτιδήποτε, από κελαηδιστά πουλιά μέχρι κινούμενα οχήματα και κόρνες. Μπορεί ακόμα να είναι άνθρωποι που μιλούν, τρώνε ή περπατούν σε έναν πολυσύχναστο δρόμο.

“Στην ElevenLabs, ποτέ δεν έχουμε δείξει μόνο τα μοντέλα κειμένου-προς-φωνή μας δημόσια. Ωστόσο, έχουμε πολλά περισσότερα σε ανάπτυξη. Και όταν η OpenAI ανακοίνωσε το μοντέλο τους Sora – το οποίο παράγει απίστευτα βίντεο αλλά χωρίς ήχο – αποφασίσαμε να δείξουμε ένα sneak peek της νέας μας σειράς προϊόντων,” έγραψε ο Luke Harries, που είναι υπεύθυνος ανάπτυξης στην ElevenLabs, ενώ ξαναδημοσίευε το post που παρουσίαζε μια σειρά από βίντεο που δημιουργήθηκαν από το Sora και ενισχύθηκαν με ήχους της τεχνητής νοημοσύνης της εταιρείας.

Πέρα από το δημιουργημένο από την τεχνητή νοημοσύνη περιεχόμενο, οι ήχοι που παράγονται από το νέο μοντέλο θα μπορούσαν ακόμα να εφαρμοστούν σε απλές ομιλίες που παράγονται από κείμενο ή οποιοδήποτε άλλο βίντεο – κλιπ Instagram, διαφήμιση ή τρέιλερ παιχνιδιού – που χρειάζεται ένα άγγιγμα φόντου. Παραμένει να δούμε πώς θα χρησιμοποιηθεί και ποια είδους ποιότητα θα παράγει.

Η νέα τεχνολογία κειμένου-προς-ήχο μπορεί να δώσει στην ElevenLabs ένα πλεονέκτημα πρώτου κινήτρου, αλλά είναι σημαντικό να σημειωθεί ότι πολλές άλλες εταιρείες που είναι ενεργές στον χώρο της τεχνητής νοημοσύνης ομιλίας έχουν επίσης τη δυνατότητα να εξελιχθούν σε αυτό το τομέα. Αυτό περιλαμβάνει γνωστούς παίκτες όπως οι MURF.AI, Play.ht και WellSaid Labs.

Σύμφωνα με την Market US, ο παγκόσμιος αγορά για τέτοια εργαλεία ανήλθε σε $1,2 δισεκατομμύρια το 2022 και εκτιμάται ότι θα αγγίξει σχεδόν τα $5 δισεκατομμύρια το 2032, με μια Ετήσια Αναλογία Ανάπτυξης Ελαφρώς άνω του 15,40%.

Tags:

You Might also Like