想象一下,想象出任何你想要的圖像,從居住在月球的宇航員的超現(xiàn)實(shí)肖像到在零重力圖書館下棋的貓的異想天開(kāi)的水彩畫。
這就是圖像生成人工智能的魔力,這項(xiàng)技術(shù)在短短幾年內(nèi)就改變了視覺(jué)創(chuàng)作的格局。
使用生成式人工智能進(jìn)行圖像創(chuàng)作的演變
20 世紀(jì) 70 年代,Harold Cohen 的 Aaron 等先驅(qū)模型播下了通過(guò)生成式 AI 進(jìn)行圖像創(chuàng)作的種子,該模型使用簡(jiǎn)單的規(guī)則來(lái)創(chuàng)作抽象藝術(shù)。
人工智能 (AI) 有著悠久的歷史,并且在過(guò)去的幾十年里不斷取得進(jìn)步,神經(jīng)網(wǎng)絡(luò)逐漸學(xué)會(huì)捕捉現(xiàn)實(shí)世界圖像的復(fù)雜性。
然而,直到 2010 年代中期,該領(lǐng)域才真正爆發(fā)。
2014 年,生成對(duì)抗網(wǎng)絡(luò) (GAN) 出現(xiàn),讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互競(jìng)爭(zhēng):一個(gè)生成圖像的生成器和一個(gè)試圖將圖像與真實(shí)照片區(qū)分開(kāi)來(lái)的鑒別器。
這種對(duì)抗性訓(xùn)練突破了現(xiàn)實(shí)主義的界限,為 StyleGAN2 等模型鋪平了道路,該模型可以生成逼真的圖像并通過(guò)改變其風(fēng)格來(lái)操縱現(xiàn)有圖像。
生成人工智能領(lǐng)域的關(guān)鍵參與者
以下參與者在圖像生成人工智能領(lǐng)域占據(jù)主導(dǎo)地位:
OpenAI 的 Dall-E 2 和 Dall-E 3
這些模型因其能夠根據(jù)文本提示生成極其逼真和超現(xiàn)實(shí)的圖像而聞名。
他們的作品常常喚起一種夢(mèng)幻般的驚奇感,激發(fā)探索和藝術(shù)表達(dá)。
谷歌 AI 的 Imagen
該模型擅長(zhǎng)生成符合特定視覺(jué)風(fēng)格的圖像,非常適合概念藝術(shù)創(chuàng)作和圖形設(shè)計(jì)等任務(wù)。
它還可以將現(xiàn)有照片的元素融入到其輸出中,提供現(xiàn)實(shí)主義和藝術(shù)自由的獨(dú)特融合。
中途
該平臺(tái)提供了用戶友好的界面,并專注于文本提示的藝術(shù)詮釋。
它的輸出往往更加抽象和繪畫,往往傾向于超現(xiàn)實(shí)或幻想美學(xué)。
DreamStudio(穩(wěn)定擴(kuò)散)
這個(gè)開(kāi)源平臺(tái)賦予用戶對(duì)圖像生成過(guò)程的高度控制。
他們可以調(diào)整各種參數(shù)和設(shè)置來(lái)微調(diào)模型的輸出,使其成為那些想要更多實(shí)踐創(chuàng)意體驗(yàn)的人的理想選擇。
生成式人工智能在圖像創(chuàng)作中的爆炸式增長(zhǎng)
圖像生成人工智能市場(chǎng)正在經(jīng)歷爆炸性增長(zhǎng)。
Grand View Research 2023年報(bào)告顯示,到2030年,全球市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到34.4億美元,復(fù)合年增長(zhǎng)率(CAGR)為32.4%。
這種激增是由于對(duì)視覺(jué)內(nèi)容的需求不斷增長(zhǎng)、人工智能技術(shù)的進(jìn)步以及用戶友好平臺(tái)的可訪問(wèn)性不斷提高而推動(dòng)的。
In the first half of 2023, the generative AI for art space saw a significant surge in investments, attracting over $5 billion, according to a report by CB Insights. This represents a substantial portion of the overall AI investment landscape, highlighting the growing interest and potential in this field. The trend shows no signs of slowing down, fueled by the likes of Microsoft’s $10-billion OpenAI deal and Amazon’s $4-billion Anthropic investment.
The evolution of generative AI in image creation is swiftly erasing the boundaries between human and machine creativity. With advancing technology, we anticipate more sophisticated models adept at grasping intricate prompts, producing diverse artistic styles and fostering collaboration.
Dall-E 3 remains one of the most sought-after generative AI models due to its exceptional image quality and creative potential. Here’s a step-by-step guide to using it:
Currently, Dall-E 3 is in closed beta, accessible only through a waitlist system. Users can register for the waitlist on OpenAI’s website.
Once granted access, users can craft a clear and concise textual prompt describing the image they want to generate. Users will need to be specific about details like composition, style and lighting. The more descriptive the prompt, the better the model can understand the user’s vision.
Example prompt: Generate an image portraying a mythical landscape where blockchain-powered tokens are the life force, with intricate designs symbolizing secure and transparent financial ecosystems.
Dall-E 3 allows users to generate multiple variations of the image based on the initial prompt. Users can refine their prompt or use the “Outpainting” feature to add additional details to their generated image.
Once users are satisfied with an image, they can download it in various formats for further use. It is worth noting that users must adhere to OpenAI’s usage guidelines regarding commercial and non-commercial applications.
OpenAI lays down the content policy and terms that users must abide by regarding the commercial use of the images produced by Dall-E. Generally, an individual owns the images they create using Dall-E.
This ownership includes the rights to reprint, sell and utilize these images for merchandising, regardless of whether the images were generated through free or paid credits.
A Dall-E credit is a unit OpenAI uses to quantify and manage the usage of the Dall-E image generation system. Users are offered these credits to use Dall-E to create images.
There are two types of credits:
OpenAI 通常為用戶提供免費(fèi)積分,主要是在注冊(cè)時(shí)或作為促銷優(yōu)惠的一部分。
這些積分允許用戶免費(fèi)生成圖像。
在 2023 年 4 月 6 日之前注冊(cè) Dall-E 的早期采用者有資格獲得免費(fèi)積分。
這些積分在發(fā)放后一個(gè)月到期,并每月補(bǔ)充。
例如,如果積分是在 12 月 19 日收到的,則將在 1 月 19 日補(bǔ)充。對(duì)于在任何一個(gè)月的 29、30 或 31 日加入的人,他們的免費(fèi)積分將在隨后每月的 28 日補(bǔ)充。
付費(fèi)學(xué)分
免費(fèi)積分用完后,用戶可以購(gòu)買額外的積分以繼續(xù)使用 Dall-E。
這些付費(fèi)積分通常是打包或捆綁購(gòu)買的。
人們可以通過(guò)點(diǎn)擊“購(gòu)買積分”按鈕來(lái)購(gòu)買 Dall-E 積分,該按鈕位于其帳戶頁(yè)面或個(gè)人資料照片下的下拉菜單中。
定價(jià)和每個(gè)積分可生成的圖像數(shù)量由 OpenAI 確定,并可能隨時(shí)間或不同用戶級(jí)別而變化。
使用 Dall-E 需要多少錢?
使用 Dall-E 的成本根據(jù)用戶選擇的使用計(jì)劃而有所不同。
OpenAI 在注冊(cè)時(shí)提供一定數(shù)量的免費(fèi)積分,可用于生成有限數(shù)量的圖像。
一旦這些免費(fèi)積分用完,用戶可以選擇以 15 美元的價(jià)格分批購(gòu)買 115 代的額外積分。
對(duì)于 Dall-E 3,分辨率為 1024×1024 的標(biāo)準(zhǔn)質(zhì)量圖像每張圖像的成本為 0.04 美元,而分辨率為 1024×1792 或 1792×1024 的標(biāo)準(zhǔn)質(zhì)量圖像的成本為每張圖像 0.08 美元。
分辨率為 1024×1024 的高清質(zhì)量圖像的價(jià)格為每張圖像 0.08 美元,而分辨率為 1024×1792 或 1792×1024 的高清質(zhì)量圖像的價(jià)格為每張圖像 0.12 美元。
Dall-E 2