Ormai non si fa altro che parlare di IA in qualsiasi campo, e la fotografia non è da meno: fotografare con l’Intelligenza Artificiale ormai è più che possibile, è anche molto facile, divertente e ha degli interessanti potenziali.
Ma cosa significa nel concreto?
Ci sono tante modalità di fotografia applicata all’IA e viceversa, come abbiamo già visto in questo articolo dedicato a come sfruttare l’AI nel photoediting, così come nella fotografia con smartphone (se hai seguito il nostro corso Smartphotographer Pro, saprai già che uno degli elementi fondamentali che permettono di fare con i piccoli sensori degli smartphone foto belle quasi quanto con una reflex è la fantomatica Intelligenza Artificiale incorporata nel software del telefono).

Ma dimmi la verità…ti è mai capitato di scattare una foto attraverso la tastiera del tuo pc?
Se non lo hai mai fatto allora è arrivato il momento di provare questa particolare esperienza!
Tastiera e monitor: un’insolita macchina fotografica
Hai mai sentito parlare di text to image?
È una tecnica di AI a cui fanno riferimento alcuni algoritmi che da un semplice testo elaborano un’immagine. In altre parole tastiera e monitor del tuo pc diventano una macchina fotografica che ti consente di “scattare” fotografie in un modo del tutto nuovo.
Sono tanti i software che si basano sul text to image, e anche se i loro nomi sono strani, (AI Stable Adobe Firefly, Canva, Diffusion, BlueWillow, DALL·E 2, Imagen Muse, Midjourney, Stable Diffusiom, etc.), ti assicuro che sono molto semplici da utilizzare.
Gli applicativi text to image lavorano tutti allo stesso modo, ti chiedono solamente una frase in input e, sulla base del suo significato, ti mostrano una figura che la rappresenta.
Essa dipende molto dalla frase che scrivi, un po’ come avviene su Google dove testi di ricerca diversi, con il medesimo significato, danno origine a risultati differenti. Allo stesso modo, testi diversi con il medesimo significato danno origine a immagini differenti.
Ti anticipo che i software text to image non hanno ancora raggiunto una precisione ottimale, se avrai modo di usarli ti accorgerai che alcune immagini elaborate non rispecchiano fedelmente il significato della tua frase oppure presentano errori grossolani (mani con 6 dita o similari).
Sappi che sul text to image c’è grande attenzione, e ti assicuro che presto molti miglioramenti saranno fatti. Per il momento sono state poste ottime basi di questa nuova tecnologia e, andando avanti, essa raggiungerà una sempre maggiore precisione.
C’è però un aspetto che ti voglio far presente: anche se le fotografie elaborate con l’ausilio dell’Intelligenza Artificiale sono realistiche e sembrano vere, in verità, non rappresentano alcuna realtà vissuta, altro non sono che pura finzione.
Il confine tra fotografia e altri tipi di arte quindi diventa molto labile, e a seconda dei contesti questo genere di foto potrebbe o non potrebbe essere considerata tale. Ma lo vedremo più in basso.
Bene, proseguiamo. Ti ho spiegato cos’è il text to image, adesso è venuto il momento di darti qualche dritta su come provarlo.
Text to image: alcuni siti che lo usano
Ci sono alcuni siti internet che ti danno la possibilità “gratuita” di utilizzare il text to image senza bisogno di alcuna installazione, altri invece tii chiedono un abbonamento a pagamento.
Gli algoritmi text to image sono anche chiamati “generatori di immagini”.
Detto questo, ti consiglio di cercare su Google la frase “generatori di immagini online” e di scegliere il portale che reputi più interessante. Sappi che non ti saranno regalate molte prove, ma quelle liberamente offerte basteranno per farti una prima idea.
Per te una breve rassegna di alcuni dei siti internet che utilizzano il text o image. Li ho visitati e ho sperimentato i loro algoritmi, al fine di renderti le cose più semplici. Sappi che per provarli ho utilizzato la medesima frase: “sopra il tavolo ci sono un libro e una mela”.
1. ChatGPT
ChatGPT è il software di IA per antonomasia; è stato sviluppato da OpenAI,una società divenuta molto famosa grazie all’accelerazione dell’Intelligenza Artificiale avvenuta negli ultimi tre anni.
È disponibile sia gratuitamente che a pagamento e per la generazione delle immagini text-to-image utilizza un software integrato di nome DALL-E. Non è possibile, però, utilizzare quest’ultimo gratuitamente.
ChatGPT ti richiede una semplice registrazione ed un paio di domande sul tuo conto; mette subito a tua disposizione uno spazio nel quale puoi digitare qualunque frase (prompt). Alla tua frase il software risponderà come se tu stessi comunicando attivamente con un’altra persona. Ti comunicherà che per generare delle immagini dovrai passare alla versione Plus a pagamento.
Ecco il risultato ottenuto alla domanda di generare l’immagine che abbiamo voluto provare:
Come vedi il risultato è stato di tipo grafico e non fotografico, perché non abbiamo dato ulteriori specifiche. È bastato poi chiedere di riprovare con una più realistica, come una fotografia, per ottenere questa:

Un’immagine davvero realistica e ben fatta, con solo un breve imput testuale. La scena è ben illuminata con luce naturale che entra da un lato, creando un’atmosfera calda e accogliente, tutte scelte stilistiche fatte in autonomia dall’AI, ma avremmo potuto ottenere qualiasi altro risultato con un prompt più specifico.
Come vedi l’elemento che “smaschera” la foto come fatta dall’intelligenza artificiale è proprio il libro: facendo attenzione noterai che le scritte sono casuali e contengono linee ed elementi non realistici.
Hai appena scoperto uno dei limiti della tecnologia text-to-image: spesso non è (ancora) in grado di inserire testi corretti nelle foto.
2. Artguru
www.artguru.ai/it/ è fra i siti più semplici da utilizzare. Non ti chiede alcuna autenticazione e ti mostra subito un’interfaccia grafica molto user friendly fatta di soli tre oggetti: una casella di testo (textbox) dove scrivere il tuo periodo, un pulsante da pigiare per dare inizio alle elaborazioni e una picturebox per visualizzare l’immagine elaborata.
Segue l’immagine generata dal sito dopo avere scritto la mia frase.
Essa è davvero molto realistica, ma posso assicurarti che nessuno ha messo sul tavolo questi oggetti e men che meno li ha fotografati. Come ti ho già spiegato le fotografie generate dal text to image sono pura finzione.
3. Fotor
www.fotor.com è un altro sito che ti offre gratuitamente il text to image.
Per provarlo devi necessariamente creare un account e registrarti. Una volta fatta la registrazione ti vengono regalati subito otto crediti. Essi sono validi per un solo giorno, e una volta terminati, per averne altri otto dovrai aspettare l’indomani.
Ogni prova ti “costa” due crediti. Hai, dunque, quattro prove a tua disposizione.
L’interfaccia grafica è anche in questo caso molto semplice, ma non intuitiva come quella messa a disposizione da Artgur.
Di seguito la fotografia elaborata da Fotor dopo avere scritto la solita frase.
Questa immagine è, a mio parere, meno realistica di quella elaborata da Artgur. Noterai che essa non contiene alcuna mela, pertanto non rappresenta al meglio la frase elaborata. Ci sono, però, oggetti cui non è stato fatto alcun riferimento nel testo inserito in ingresso all’algoritmo.
4. Firefly
https://firefly.adobe.com/ è un software text to image della già famosa Adobe che molti conoscono per via dei documenti in formato pdf.
Anche Adobe chiede la registrazione di un account per poter utilizzare Firefly. La sua interfaccia grafica, al pari di Artguru, è molto user friendly. L’immagine elaborata è di seguito mostrata.
Questa fotografia è davvero essenziale: un tavolo, in questo caso molto grezzo, due libri e una mela.
5. Magicstudio
https://magicstudio.com/ è un altro sito che ti consente di provare il text to image. Oltre a chiederti la registrazione, richiede anche alcune informazioni sulle tue aspirazioni fotografiche.
La GUI è molto semplice e, rispetto alle altre, ti chiede due impostazioni: lo stile e l’orientamento della fotografia.
Io ho scelto lo stile Professional e l’orientamento Squareper l’elaborazione della mia frase. L’immagine generata è riportata di seguito.
La fotografia sembra essere scattata dentro una residenza antica e nobiliare. Sai già che non è vera.
Sopra il tavolo non ci sono mele. Anche in questo caso la figura elaborata non rappresenta fedelmente il significato della frase.
6. Google
www.google.it ti offre la possibilità di generare immagini attraverso la barra di ricerca del suo motore di ricerca, senza dovere aprire siti o servizi.
Dato che questa nuova funzionalità, almeno per il momento, è attiva solamente negli USA, dovrai scrivere la tua frase in inglese facendola precedere dal breve periodo “draw an image of” che significa appunto “disegna un’immagine di”.
Dietro questo nuovo sistema c’è Imagen, il software di Google creato per il text to image. Sono sufficienti appena due secondi e il motore di ricerca più utilizzato al mondo ti genera nove fotografie.
A te la scelta di quella che più ti piace.
Questa novità fa parte di un programma chiamato Search Generative Experience (SGE) che si pone l’obiettivo di offrire sempre più servizi agli utenti di tutto il mondo.
È verosimile pensare che, molto presto, questa innovazione sarà disponibile in altre parti del mondo insieme a tanti altri idiomi.
Per provare questa nuova funzionalità di Google, ho scritto nella barra di ricerca la solita frase in lingua inglese, e cioè “draw image of on the table there is a book and an apple” e, fra le fotografie generate, ho scelto quella che ti mostro nella figura seguente.
In essa sono presenti quattro libri e una mela sopra un tavolo.
Consigli per fare fotografie realistiche con il text-to-image
Per ottenere fotografie realistiche utilizzando il text-to-image, dovrai usare prompt quanto più specifici possibile.
Prima di tutto, fornisci descrizioni dettagliate e chiare, includendo elementi come illuminazione, angolazione e contesto.
Usa riferimenti visivi per guidare il modello, ad esempio specificando dove vuoi gli oggetti, e assicurati che i prompt siano completi.
Sperimenta con diverse parole chiave e frasi per vedere come influenzano l’immagine generata. Al termine di ogni generazione puoi sempre cliccare sull’opzione per ri-generare il risultato e vedere cos’altro ti propone l’AI.
Sfrutta le capacità avanzate del modello, come la regolazione dei colori e delle texture, per affinare il realismo. Puoi anche fornire indicazioni come un determinato stile fotografico, e in alcuni modelli (come ChatGPT) puoi fornire un’immagine di esempio da cui partire.
Infine, non esitare a fare modifiche in post-produzione per perfezionare il risultato finale e aggiungere un tocco di autenticità.
Intelligenza Artificiale e fotografia: come funziona
Il text to image, di fatto, nasce dal connubio tra Intelligenza Artificiale e fotografia. Alla base di questa nuova tecnologia ci sono sia le reti neurali artificiali sia il machine learning (apprendimento automatico); le prime sono modelli matematici che si ispirano al funzionamento del nostro cervello, e sono composte da nodi, detti neuroni artificiali, tra loro connessi e ordinati in una struttura a strati.
Il machine learning o apprendimento automatico, è quella parte dell’Intelligenza Artificiale (IA) che si occupa dello sviluppo di algoritmi in grado di fare apprendere le macchine elaborazione dopo elaborazione ed “esperienza” dopo “esperienza”, allo stesso modo di come noi, esseri umani, traiamo benefici dai nostri trascorsi.
Ecco, tutto questo è ciò che sta dietro la quasi magica tecnologia che ci permette di tirare fuori fotografie da una semplice scritta sul nostro computer.
Ma concretamente cosa significa tutto questo per la fotografia tradizionale?
Vantaggi e svantaggi del text to image
La possibilità di generare una fotografia “artistica” attraverso un semplice testo è qualcosa di veramente entusiasmante; questa utilità, oltre ad accontentare una larga platea di fotografi, accontenta anche tutti quei professionisti, per esempio graphic designer e pubblicitari, che lavorano molto con le immagini.
Gli svantaggi, purtroppo, non sono pochi: si va dalle fake news alle infowar (guerra d’informazione); c’è anche da considerare che la possibilità di creare volti umani realistici privi di reale identità può facilmente diventare un’arma efficace nelle mani dei truffatori.
Ci sono anche aspetti, non ancora risolti, del copyright relativo sia alle immagini che gli algoritmi text to image utilizzano per la composizione delle figure elaborate, sia per quest’ultime.
Gli applicativi text to image attingono a database contenenti milioni di immagini “catturate” su internet, e molte di esse sono creazioni di artisti e fotografi che non hanno mai dato il loro consenso all’utilizzo semplicemente perché non gli è mai stato chiesto.
Per questa ragione alcune agenzie fotografiche hanno già deciso di vietare l’uso di immagini generate dal text to image al fine di proteggere le creazioni di tutti quei fotografi in “carne e ossa”.
Altre piattaforme, invece, non hanno ancora preso una decisione in merito, ma presto dovranno farlo perché non rimane poi così tanto tempo vista la notevole velocità con cui si diffonde questa nuova tecnologia.
Spero di averti trasmesso qualche informazione in più sul binomio Intelligenza Artificiale – Fotografia.
Qualunque uso tu decida di fare di questa tecnologia, ricordati delle sue implicazioni etiche, ma il mio consiglio è di provare e capirne vantaggi e svantaggi.
Una tecnologia non è buona o cattiva, lo è solo in funzione di come viene usata, e il modo migliore per proteggerci è sempre conoscerla e governarla.
Buona luce, o in questo caso, buoni prompt.
Un abbraccio,
Massimiliano Calandrino
