Μπορείτε να περιμένετε ακόμα περισσότερους YouTubers με τεχνητή νοημοσύνη στο μέλλον
Share

Πριν από λίγες ημέρες, η ερευνητική ομάδα της Google παρουσίασε επίσημα το νέο μοντέλο δημιουργίας με τεχνητή νοημοσύνη, ικανό να δημιουργεί ελεγχόμενα βίντεο μεταβλητού μήκους από μία μόνο ανθρώπινη φωτογραφία. Με την ονομασία VLOGGER, το μοντέλο δεν απαιτεί εκπαίδευση για κάθε άτομο και δεν βασίζεται στην ανίχνευση προσώπου και την περικοπή, ικανό να παράγει την πλήρη εικόνα που δείχνει έναν άνθρωπο-στόχο να μιλάει και να κινείται, συμπεριλαμβανομένου του κεφαλιού και των χειρονομιών.
“Το πλαίσιό μας είναι ένας αγωγός δύο σταδίων που βασίζεται σε στοχαστικά μοντέλα διάχυσης για τη μοντελοποίηση της αντιστοίχισης ένα προς πολλά από την ομιλία σε βίντεο”, έγραψε η ομάδα στην ερευνητική εργασία. “Το πρώτο δίκτυο λαμβάνει ως είσοδο μια ηχητική κυματομορφή για να δημιουργήσει ενδιάμεσους ελέγχους κίνησης του σώματος, οι οποίοι είναι υπεύθυνοι για το βλέμμα, τις εκφράσεις του προσώπου και τη στάση κατά τη διάρκεια του μήκους του βίντεο-στόχου. Το δεύτερο δίκτυο είναι ένα μοντέλο χρονικής μετάφρασης από εικόνα σε εικόνα που επεκτείνει μεγάλα μοντέλα διάχυσης εικόνας, λαμβάνοντας τους προβλεπόμενους ελέγχους σώματος για να δημιουργήσει τα αντίστοιχα καρέ. Για να εξαρτηθεί η διαδικασία από μια συγκεκριμένη ταυτότητα, το δίκτυο λαμβάνει επίσης μια εικόνα αναφοράς ενός προσώπου”.
Επιπλέον, η τεχνητή νοημοσύνη αποκαλύφθηκε ότι μπορεί να επεξεργαστεί υπάρχοντα βίντεο, αξιοποιώντας το μοντέλο διάχυσης που διαθέτει για να αλλάξει την έκφραση του υποκειμένου. Τέλος, η ομάδα αποκάλυψε ότι το μοντέλο μπορεί να χειριστεί τη μετάφραση βίντεο, τροποποιώντας τις περιοχές των χειλιών και του προσώπου ενός υπάρχοντος βίντεο ώστε να ταιριάζει με νέο ηχητικό περιεχόμενο σε διαφορετική γλώσσα.
–πηγή–