清華行思與隨筆: 試用線上 AI Stable Diffusion 2.1 (高清版) 軟體繪圖記

2023年1月11日星期三

試用線上 AI Stable Diffusion 2.1 (高清版) 軟體繪圖記

試用線上 AI Stable Diffusion 2.1 (高清版) 軟體繪圖記

雷諾瓦 (Renoir) 風格

莫內 (Monet) 風格

林布蘭 (Rembrandt) 風格

米勒 (Millet) 風格

馬內 (Manet) 風格

德拉克羅瓦 (Delacroix) 風格

塞尚 (Cezanne) 風格

土魯斯 (Toulouse-Lautrec) 風格

秀拉 (Seurat) 風格

莫莉索 (Morisot) 風格

梵谷 (Van Gogh) 風格

高更 (Gauguin) 風格

馬諦斯 (Matisse) 風格

畢卡索 (Picasso) 風格

洛克威爾 (Rockwell) 風格

中國繪畫風格?

中國風人物畫?

前幾年閱讀一些關於AI 的科普書，看到有人發展軟體，可以產生各種畫派的畫作，很覺新奇，但認為是只有專業人士才有技術以及適當工具做得到，將其當作新知趣聞來看。

不久前看到報導，有一線上 AI Stable Diffusion 軟體，只要輸入主題，就可產生各種畫作，急忙上網一試，發現極為好用，同時根據其網站說明，Stable Diffusion 是一種潛在的文本到圖像擴散模型，能夠在給定任何文本輸入的情況下生成照片般逼真的圖像，培養自主自由以產生令人難以置信的圖像，使許多人能夠在幾秒鐘內創造出令人驚嘆的圖片。

同時網站上聲明不收集和使用任何個人信息，也不存儲使用者的文本或圖像，並對輸入的內容沒有限制。只需輸入提示，然後單擊生成按鈕，無需代碼即可生成圖像！經常問的問題以及解答可見附註 (註一) 。

最近在歡送將赴南部某大學擔任校長的清華多年同事時，有意送件薄禮誌念，剛好藉此名目試用 AI Stable Diffusion 軟體繪圖，就以「女教授就任大學校長」為提示，並指定以多位主要是「印象派」大師為主風格呈現，請 Stable Diffusion 繪圖，試用之下，興味盎然，做各種嘗試，其中包括莫內、馬內、雷諾瓦、塞尚、梵谷、畢卡索等多位名家風格，產生的作品，有些頗能表達意象，由於個人的參與僅限於出題，僅可供談助，仍是不好意思送出的禮物，但把玩之際，也有深一層的體會。

如以「女教授就任大學校長」為提示，但加註為國畫時，一般呈現的女性多為日本裝束，即使提示僅為「中國風人物畫」，人物也都似日本人，顯示其資料庫少有真正中國風圖像。另一方面，提示用中文也通。由於創建的圖像是完全開源的，所以相信不久後欠缺中文圖像問題應可改善。

根據維基百科 [註二] Stable Diffusion是2022年發布的深度學習文生圖模型（英語）。它主要用於根據文字的描述產生詳細圖像，儘管它也可以應用於其他任務，如內補繪製、外補繪製，以及在提示詞（英語）指導下產生圖生圖的翻譯。

Stable Diffusion的代碼和模型權重已公開發布，可以在大多數配備有適度GPU的電腦硬體上運行。而以前的專有文生圖模型（如 DALL-E 和 Midjourney）只能通過雲端運算服務存取。

Stable Diffusion模型是在由512 × 512解析度圖像組成的數據集上訓練出來的，這意味著txt2img生成圖像的最佳組態也是以 512× 512的解析度生成的，偏離這個大小會導致生成輸出品質差。Stable Diffusion 2.0 版本後來引入了以768 × 768 解析度圖像生成的能力。本文使用 Stable Diffusion 2.1 版本，圖像應至少有768 × 768 解析度。

與 DALL-E 等模型不同，Stable Diffusion 提供其原始碼以及預訓練的權重。其許可證禁止某些使用案例，包括犯罪，誹謗，騷擾，人肉搜尋，「剝削…未成年人」，提供醫療建議，自動建立法律義務，偽造法律證據，以及「基於…社會行為或…個人或人格特徵…或受法律保護的特徵或類別而歧視或傷害個人或群體」。由於藝術風格和構圖不受著作權保護，因此通常認為使用Stable Diffusion生成藝術品圖像的使用者不應被視為侵犯視覺相似作品的著作權，使用者擁有其生成的圖像的權利，並可自由地將其用於商業用途。

[註一] 經常問的問題以及解答包括:
一、Stable Diffusion 模型是在什麼基礎上訓練的？
Stable Diffusion 的基礎數據集是 LAION 5b 的 2b 英語語言標籤子集 https://laion.ai/blog/laion-5b/，這是德國慈善機構 LAION 創建的互聯網通用爬梳程式。

二、使用 Stable Diffusion 生成的圖像的版權是什麼？
AI 生成的圖像和版權領域很複雜，並且因司法管轄區而異。

三、藝術家可以選擇加入或退出以將他們的作品包含在訓練數據中嗎？
LAION 5b 模型數據沒有選擇加入或選擇退出。它旨在成為 Internet 的語言圖像連接的一般表示。

四、我在哪裡可以訪問 Stable Diffusion Online 網站？
https://stablediffusionweb.com

五、通過 Stable Diffusion Online 創建的圖像的版權是什麼？
通過 Stable Diffusion Online 創建的圖像是完全開源的，明確屬於 CC0 1.0 Universal Public Domain Dedication。

六、什麼樣的 GPU 能夠運行 Stable Diffusion，在什麼設置下運行？
大多數 NVidia 和 AMD GPU 具有 6GB 或更多。

七、什麼是擴散模型？
生成模型是一類機器學習模型，可以根據訓練數據生成新數據。

八、我們可以期待更多功能嗎？
絕對地。我們正在努力。

九、如何寫出有創意的高質量提示？
請嘗試我們的提示數據庫。

[註二] https://zh.m.wikipedia.org/zh-tw/Stable_Diffusion

清華行思與隨筆

標籤

2023年1月11日星期三

試用線上 AI Stable Diffusion 2.1 (高清版) 軟體繪圖記

沒有留言:

張貼留言

標籤

2023年1月11日 星期三

試用線上 AI Stable Diffusion 2.1 (高清版) 軟體繪圖記

沒有留言:

張貼留言

2023年1月11日星期三