AI 生成圖像,詠唱師咒語
上次寫相關主題是2023/3月,已經是一年之前。一年之間,AI 主题股票升了多少?AI 科技進展了多少?(參考:哲學與投資 (17) 從學習語言,到認知世界 (2) AI 時代,英文是最強大的 PROGRAMMING LANGUAGE ?)
首先聲明,本人不是專業 AI 創作者,只是一個業餘愛好者,有興趣去玩玩研究,在此分享一下,歡迎大家留言。
我研究的動機,有一個實際應用,在寫blog時可以作為插圖,不用再去網上偷圖,而且希望可以tailor made更加配合文章。如何可以達到自己想要的效果,我從這方向考慮以下各點:
Image Type / Quality(影像種類/質素)
這個是最high level影響整個印象的觀感。很多時候用似不似真實作為衡量標準,相信第一個角度因為可以取代現在慣常利用不少金錢成本去做到的攝影效果。不過似真實是其中一個考慮標準,而不是唯一的標準。因為創作或者攝影最終為表達創作者的意念,意念是什麼只有你才知道。
而且你想要的可能正是一個虛幻而不真實的效果,例如:好似漫畫、CG等。
Image View(視角)
影像的視角和角度很大程度影響最終的效果,如果有攝攝影的朋友會明白,同一個景點利用wide angle、standard,tele可以拍出不同的效果。
Subject(主體)
主體是整個影像的靈魂,如果可以達到想要的效果,很視乎你的想像力和使用文字的能力,英文是AI 生成mother language,學好英文必定有幫助。
例如主體是人,涉及大量的考慮,包括:面部、表情、眼神、頭髮、衣著、動作等。處身的環境和背景,光線,還有是氣氛的描越是更加抽像。
以上是主體的整體效果,需要你的美學和想像力的能力,加上運用英文的能力。參考(抄考)和使用得多,都會有助提升英文的能力。
Prompt Keywords 例子
Image Type / Quality 影像種類/質素
- image capturing
- close-up photo
- product shot
- photorealistic
- Hyper realistic
- Hyperdetailed
- Ultra realism
- HD quality image
- 4K image quality
- Blur zoom with long period of exposure
- Double exposure
- Street photography style
- Masterpiece
- Superia 400 film
- Portra 400 film
- 3D game isometric scene
- film photo capture
- 1960's sepia tone photo
- oil painting
- renaissance painting style
- 3D Lego art
- pixel art
- sticker art
- pencil art
- Black charcoal drawing
Image View 視角
- side view
- a drone view
- perspective view
- overhead view, flat lay
- macro view
- GoPro top angle view looking down
- Nikon 50mm F/1.4 lens
AI 生成例子
pixel art, robot carrying Nvidia GPU
不是要求真實,都可以有趣味。
overhead view flat lay, Nvidia GPU chip in middle, interior design magazine. bottled orange juice, vintage camera, product shot
真實的物件質感,可以作為Nvidia文章的插圖。
Asian girl eating ice-cream
用少量的文字,AI要猜想你的要求,是否你的要求?quality是可以,但比較標準,未必有特別風格。
Asian girl eating ice-cream, sit in cosy cafe near window, soft lighting from outside, window glass reflection of street, HD quality image, photorealistic
可以想想如何加入更多文字,去描述更多細節,就是你的想像力和運用文字能力。
Image of a African young woman with white shirt and white trousers
非洲人臉的光澤,可能正配合AI 生成的質感。
image of French man 50 years old, white shirt white trousers, studio lighting, black and white professional portrait, hyper detailed, 4K image quality
黑白人像的質感。
Asian girl, standing on 1960's Taiwan street, cosy feeling, black and white grainy film photo
可以把不同keywords組合,AI的影像就是太完美或者太膠面,令到更加真實感,需要多些不完美。
film photo capture, Asian girl 20 years old, serene facial expression, afternoon warm atmosphere, soft lighting, hot, wet
使用多些關乎感覺和氣氛的keywords,有不想不到的效果。
image of a nighttime trail camera grainy black and white photo of man wearing spacesuit in the woods
真實的感覺和氣氛,都可以來自光線和環境,主體和環境是不太合邏輯的組合。
Sci-Fi movie image, asian young man face with body as half machine half human, wearing futuristic armoured suit in white colour, carry heavy machine gun, background is abandoned factory in fire, 4k quality, hyperrealistic image
動作有點生硬,可能是電影海報感覺出事,面有點膠,喜歡悬身上的裝備的未來感。
sci-fi movie scene, inside a public washing room, a giant monster, monster with long tentacles flow out fluid, monster in red and pink colour, water on the floor with reflection
完全虛構,有時有驚喜。
realistic portrait, Italian man 70 years old, serene facial expression, very little freckles, white shirt, city street background, early morning vibe, low light, backlight, 35mm lens, film snapshot style
盡力用多些描述形容詞。
realistic portrait, alien 80 years old, red colour space suit, city street background, early morning vibe, studio lighting, 35mm lens, film snapshot style
Prompt改動少少,膠面表現Alien不錯。
view from drone, Wall Street in the early morning vibe, after raining, floor with reflection, only little people on street, cosy feeling, HD high quality, ultra realistic
第二張較有氣氛。
image capturing Hong Kong street on 1940's, victoria colonial style buildings, grainy black and white photo
模擬歴史圖片,可以接受,街上路人細節不錯。
軟件
- 去年最初試用Midjourney和Stable Diffusion,但是由於server side的算力,gen圖像有限制,否則要乖乖付費。
- 然後試用GitHUB去download Stable Diffusion去我的Macbook Pro (M1 2020 Oct model),要command line去install搞一輪,對於一般人有不低技術門檻,好處是自己算力自己付電費,壞處gen圖好慢,一幅需要幾分鐘。
- 然後試用Microsoft Designer至今,好處無需install,又沒收費,電腦或者手機browser去website就用到:
由於是可以免費使用,背後server side的算力是可想而知,Microsoft是十分仁慈。可以想想Windows和Office365的Copilot和Bing,這多少解釋了Microsoft加上Meta是Nvidia GPzu的Top Buyer。
Microsoft Designer還有Graphic Design功能,方便你製作文件時,AI生成圖像可以加入文字和圖案,感覺專業,如下圖:(參考:NVIDIA 和 CEO JENSEN HUANG 成為爭論焦點)
有說Microsoft Designer和Bing的Image Creator,背後是一樣的。我試過由Bing去使用Image Creator,得到message是此地區暫時不能使用。
又有說Microsoft Designer和Open AI的DALL-E其實是一樣,不過使用DALL-E只需簡單的Prompt就可以得複雜的影像效果。相信DALL-E把輸入的Prompt做了優化,加鹽加醋,對於技巧不高的初學者是好處,不過每個創作者的要求可以不同,創作者一定要學好使用Prompt的技巧。
另外見到一個叫Krita的AI 生成圖像工具,人像效果超級真實,大家有興趣可以硏究。
Facebook有不少資源,值得好好學習:
Bing DALL-E 3 and ALL AI 生成式藝術小小詠唱師
思考
本文花了不少篇幅介紹Prompt嘅用法,歡迎大家copy及改動去試試,多些使用,你會明白更多AI工具及應用背後,會有第一身及更加埋身的理解,不是單純靠參考大行的報告,你會對投資AI相關主題有更多的認知。
我在試玩的過程中,更加驚奇是AI training data的數量,如何令到AI幾乎明白所有影像及所有時代的風格,如何建立AI model去記錄所得,例如:40年代的行人衣著及動態和其他時代略有不同,AI model的複雜性化為算力需求,是在Nvidia、TSM、ASML等背後推動的AI 科技發展之實在呈現。
《AI 投資時代.真的值得參與嗎?》
《科技戰國.尋找科技價值投資的故事》
https://facebook.com/duncaninvest
https://instagram.com/duncannewinvest
Telegram
https://t.me/duncaninvest
謝謝支持!
參考文章
哲學與投資 (17) 從學習語言,到認知世界 (2) AI 時代,英文是最強大的 PROGRAMMING LANGUAGE ?
咁係因為你悲觀,AI 有無清楚的 BUSINESS MODEL?
NVIDIA GTC (2024/3月),CAUSAL TALK
NVIDIA 2023 Q4 業績,渡過了充滿質疑的 2023 年
分餅仔,半導體公司 ASML / TSM / AMD / INTEL (2022/Q4)
ARM 可能不授權阿里巴巴使用 NEOVERSE V 晶片設計,NEOVERSE 有何重要性?
ASML INVESTOR DAY 2022,未來半導體行業是危?是機?
當 AI 遇上雲計算,NVIDIA 和 MICROSOFT / ORACLE 合作的 DEAL
NVIDIA GTC (2022/9月) ,NVIDIA 仍然是 NVIDIA,只是做回自己
看台績電業績,高性能計算 HPC (HIGH PERFORMANCE COMPUTING)
謝謝分享!我最近幾篇文章的thumbnail 都用了midjouney gen 圓片,不過prompt 都係簡單兩句,例如:Sam Altman hands full of money, cartoon style, old man with lots of question marks over his head。但如果gen 一些圖片要求很多手聚在一起,four hands of different people on top of each other (四隻手疊在一起),結果是啲手有七隻手指。仲有未solve 到的問題,如果叫佢再gen 同一幅,但有一些改動,仲末做到
ReplyDelete常常report有手問題
Delete我一年前用Stable Diffusion,樣貌有啲怪怪,現在用Microsoft Designer的樣貌ok,好多太靚
發現另外一個方向科幻怪獸等,核突,多啲手指,成為優點
好鐘意呢篇, 但係公司 BLOCK 晒 AI 有關既 WORKSITE, 所以自己只可以係手機用 POE 到玩, 體檢無咁好, 同埋做出黎既成品質素我覺得差大 VARIETY。
ReplyDelete多謝二當家
Delete文入面microsoft designer link。香港係任用無block。用自己網絡試吓
我自己多數用電腦。睇得清楚啲,可以去我facebook,我分享新嘅image
https://facebook.com/duncaninvest