Η Google ισχυρίζεται ότι η τεχνητή νοημοσύνη κειμένου σε εικόνα προσφέρει «πρωτοφανή φωτορεαλισμό»
Share
Η Google έδειξε ένα σύστημα τεχνητής νοημοσύνης που μπορεί να δημιουργήσει εικόνες με βάση την εισαγωγή κειμένου. Η ιδέα είναι ότι οι χρήστες μπορούν να εισάγουν οποιοδήποτε περιγραφικό κείμενο και το AI θα το μετατρέψει σε εικόνα. Η εταιρεία λέει ότι το μοντέλο διάχυσης Imagen, που δημιουργήθηκε από την Brain Team στο Google Research, προσφέρει «έναν πρωτοφανή βαθμό φωτορεαλισμού και ένα βαθύ επίπεδο κατανόησης της γλώσσας».
Δεν είναι η πρώτη φορά που βλέπουμε μοντέλα τεχνητής νοημοσύνης όπως αυτό. Το DALL-E του OpenAI (και ο διάδοχός του) δημιούργησε τίτλους καθώς και εικόνες λόγω του πόσο επιδέξια μπορεί να μετατρέψει το κείμενο σε οπτικό. Η έκδοση της Google, ωστόσο, προσπαθεί να δημιουργήσει πιο ρεαλιστικές εικόνες.
Για να αξιολογήσουν το Imagen σε σχέση με άλλα μοντέλα κειμένου σε εικόνα, οι ερευνητές δημιούργησαν ένα σημείο αναφοράς που ονομάζεται DrawBench. Αυτή είναι μια λίστα με 200 προτροπές κειμένου που εισήχθησαν σε κάθε μοντέλο. Ζητήθηκε από μια μερίδα ανθρώπων να αξιολογήσουν κάθε εικόνα. «Προτιμούν το Imagen έναντι άλλων μοντέλων σε συγκρίσεις δίπλα-δίπλα, τόσο στην ποιότητα του δείγματος όσο και την ευθυγράμμιση εικόνας-κειμένου», είπε η Google.
Αξίζει να σημειωθεί ότι τα παραδείγματα που εμφανίζονται στον ιστότοπο Imagen είναι επιμελημένα. Ως εκ τούτου, αυτές μπορεί να είναι οι καλύτερες από τις καλύτερες εικόνες που δημιούργησε το μοντέλο. Μπορεί να μην αντικατοπτρίζουν με ακρίβεια τα περισσότερα από τα οπτικά που δημιούργησε.
Όπως το DALL-E, το Imagen δεν είναι διαθέσιμο στο κοινό. Η Google δεν πιστεύει ότι είναι ακόμη κατάλληλο για χρήση από τον γενικό πληθυσμό για διάφορους λόγους. Πρώτον, τα μοντέλα κειμένου σε εικόνα συνήθως εκπαιδεύονται σε μεγάλα σύνολα δεδομένων που αφαιρούνται από τον ιστό και δεν επιμελούνται, γεγονός που δημιουργεί μια σειρά προβλημάτων.
Για παράδειγμα, το Imagen έχει κληρονομήσει τις «κοινωνικές προκαταλήψεις και τους περιορισμούς των μεγάλων γλωσσικών μοντέλων» και μπορεί να απεικονίζει «επιβλαβή στερεότυπα και αναπαράσταση».
Ωστόσο, μπορείτε να δοκιμάσετε το Imagen σε περιορισμένη βάση. Στον ιστότοπό του, μπορείτε να δημιουργήσετε μια περιγραφή χρησιμοποιώντας προεπιλεγμένες φράσεις.
πηγή: engadget.com
_
ΑΚ