初探 MidJourney – 用 AI 產生圖片的影像創作工具

電腦不只會種花生,現在電腦還會根據關鍵字和文句拼貼圖片了,近期有幾個圖像生成工具非常火紅,Midjourney 就是其中之一,剛好有機會拿到邀請碼。就週末來試玩一下。

現階段沒有開放公開註冊,就是要在官網登記,或等人發 Midjourney 的 Discord bot 邀請連結,一定要等拿到邀請連結,才能真正開始使用軟體,進去開始使用免費做圖額度做圖,還有看到別人做圖的過程、免費額度用完了就要繳最低 $10 美元起的月費,使用 /subcribe 指令訂閱繳費、每種月費階層有不同規範限制(但創作的功能是一樣的,不會說因為錢繳的少就得到比較醜的圖),繳月費訂閱之後,才能用 /invite 指令產生邀請連結給別人。


(另外還有 $50 的方案,有 /private 功能,算的圖才不會被大家看到)

一個沒有 UI 介面的軟體

Midjourney 這軟體的 UI 風格是亮色系還是暗色系? 在現代還抱著陳腐的觀念就俗了,要用 Midjourney 不用下載什麼 APP,Google Play Store 跟 App Store 的上架審查完全管不到他。甚至不一定要用電腦,連手機、平板就可以輕鬆使用,因為這工具只要打字就能做圖啊

Midjourney 的操作很簡單也很困難,就是在對話框輸入指令 /imagine,等他跑出指令框,然後用文字敘述腦海中的圖片需求,與輸入相關參數,按下 Enter

等待一下子(運算速度依有沒有用到 $30 月費的 /relax 模式,還是正常的高速模式、系統當下的使用人數而定),通常在一兩分鐘內就會得到一組共 4 張快速預覽圖:

可以點下面的按鈕選擇要算出某一張圖的實際大圖(Upscale),或是用某一張圖的參數重算一張(Variations),U 幾 V 幾就是圖片順序。
[1][2]
[3][4]

基本上做圖過程就是一直試關鍵字跟改參數,一直選 V 幾,然後算到滿意為止。
但是最後選 U 幾算出來的完整大圖,有時候會跟剛剛的預覽圖有微妙的差異,可以再按 light upscale redo 試著重算一張…

就跟一些 chatbot 形式的工具一樣,目前幾乎整個算圖功能與其他主功能都在 Discord 社群平台裡面操作,有在追蹤一些自媒體(遊戲實況主/YouTuber)、投資(加密貨幣/NFT)資訊、專業技術討論區的人,對於 Discord (簡稱DC) 應該很熟悉吧? Telegram 要分頻道比較麻煩,LINE 這種歐美沒啥人用的東西,FB 粉專/社團這種越改越爛的東西,跟 Discord 真的沒得比,Discord 在 windows, macOS, iOS, iPadOS, Android, 網頁版都能用,某種意義上來說也算真正的跨平台。

Midjourney 初期的官方網站首頁非常簡潔,沒有領導者的話、沒有公司理念、沒有組織架構圖、沒有什麼分享給X個好友換邀請碼,沒有功能試用點下去跑到刷卡表單、沒有半張圖、沒有叫人訂閱網頁推播通知,沒有全平台按讚訂閱開小鈴鐺的彈跳視窗、沒有放一堆圖庫人像照&假推薦文案、畫面上沒有東西亂飛亂動,什麼雜物跟套路都沒有,就是一個 Beta 申請表單、一個登入 Discord 的連結,還有單純一段話

An independent research lab. Exploring new mediums of thought. Expanding the imaginative powers of the human species.

主服務、官方公告和其他頁面都要有 Discord 邀請碼連結之後才能進去,創作者要「做圖」就到 Discord 的聊天訊息框裡面打指令,整個服務只有少數功能是在瀏覽器另外開網頁來呈現,例如訂閱繳費與方案說明、刷卡(是串stripe)、公開 gallery(feed)、排名評分頁(ranking) 之類的。

現階段就只要綁定 Discord 帳號或是透過 Stripe 線上刷卡,完全不用提供什麼個資,不用實名制、不用填一堆個人興趣喜好聯絡資訊,不用授權自己雲端硬碟的相簿、檔案去給人家當素材,暫時沒有像 發票app 一樣邪惡。

剩下大部分的功能也都是依靠輸入指令,然後得到資訊,像 /info/ideas 等等。
我嘗試抽空想幫這玩意做一個介面化的 Generator 來玩玩,但只像一個假文字產生器一樣而已,也沒有時間再去優化,要更完美的話:
– 去官方的 feed 頁面爬資料,或到各 Discord channel 裡面挑選好看的圖,把每張圖的指令一一人工整理出來。
– 把常用的風格或元素單字用圖片呈現,官方的 dictionary, styles 有類似的功能,每次重新整理都會換一批,但不夠多。

但網頁顯示圖片不只相當耗主機流量和空間,又面臨一個有趣的問題,拿別人用 AI 算出來的圖來用,算偷圖嗎?

Midjourney AI 算圖工具的使用門檻

做網頁開發可能聽過「這不就套件套一套就好,也要收錢」,講得很容易,光是拿出一台全新的電腦,讓一個人從無到有透過 npm 下載個套件,沒經驗的人可能都搞老半天。

跟往常的 AI 工具不一樣,Midjourney 不用進行複雜的設定,不用準備用工作站等級電腦,運算過程都在雲端中完成,要使喚 Midjourney 做圖的門檻相當低了,就是把想像中的畫面用文字敘述出來,告訴電腦。甚至如果用語音輸入文字,真的能達成靠嘴巴做圖的夢想。

打中文指令也算得出圖,就像上面那段我只是打一組單純測試字體顯示,毫無意義的字南去經三國,東來過五湖 in styles of sketch,電腦就能湊出一個畫面。但是用中文只能侷限在華語圈的資源,而且大家都懷疑 AI 其實不懂中文,常常都在亂猜,能用英文的範圍更廣,也有機會得到更正確的圖。


封神榜,Crepuscular Ray in style of 3D printing, octane render,Mechanical Armor


nature, minimalist, steak package design Designed by Aaron Nieh --wallpaper(本圖未經過任何後製)


nature, minimalist, steak package design Designed by Aaron Nieh(本圖未經過任何後製)

讓電腦模仿聶永真風格做牛排包裝設計? minimalist 要加。不然完全會變成別種東西,兩張圖只是尺寸參數不同,就得到完全不同的東西。

就像在圖庫網打關鍵字找圖一樣,希望畫面中有樹,打 tree, jungle, forest, rainforest 都會出現不同東西,英文要有基本程度。
除了語言之外當然也要有專業知識,建議要懂視覺設計、3D繪圖、CG電腦圖學類的專有名詞、各種風格或媒材的專有名詞、一些風格鮮明的藝術家名字、攝影學名詞,例如 octane render, isometric view, aerial view, crepuscular ray, mucha…官方 FAQ 裡面光是龐克風格英文單字就列了 20 幾種,不然就會跟一般設計行業的工作者碰到的一樣,客戶自己也講不出具體方向的情況下,只能無限改稿。
要拿來產生人物圖的話,最好要懂各種 pose 和所有人體部位的名詞,但現階段很容易得到有斷肢、五官異常、錯位的可怕圖片,如下圖為想嘗試湊出一張跟 John cena 坐在車子裡拿冰淇淋唱歌相同的構圖,但是失敗。


a man hold ice cream in the car, spotlight, photography

還有一個使用門檻,例如前幾天在社群看到一個人詢問說已經付費,但沒有拿到邀請碼可以分享的發問貼文,一看擷圖,是付費買了Discord Nitro,而不是買 Midjourney 的 Membership Plan,可能要會操作 Discord 也是一個門檻吧? 不然可能會問說手機怎麼整天通知響個不停,留言怎麼一直被洗下去,要點哪裡才能開始做圖,找不到自己的圖和訊息…之類的。

AI 重構組合的圖片,在法律與道德要怎麼定義?

在電繪圈對於二創、疊圖、臨摹、致敬、抄襲、改圖合成、模仿別人的構圖、模仿別人姿勢畫圖…等,經常有各種糾紛,在 logo 設計等領域又各有不同的爭議,尤其是著作人格權、著作財產權、所有權、耗盡原則、專利不保障想法…更是非常複雜,這年頭設計免費比稿可能會被網路社群撻伐,但是免費法律諮詢卻好像相當合理,真是奇怪。
我不懂法律,總之對我而言最簡單的分法,Midjourney 是國外公司的軟體,台灣政府管不到他,而創作者都在台灣的話,台灣法律有定義的歸法律管,法律管不到的歸道德管。

官方的明文條款說明

在 Midjourney 官方的 FAQ 中有提到,目前的政策是

1.If you’re using the images as an employee of a company that makes more than 1M/yr USD in revenue, you need to purchase a ‘Corporate’ plan.
2.If you’re using images in anything related to blockchain technologies, you need to pay a 20% royalty on any revenue over $20k/mo.

年收超過百萬美元,要升級到公司方案。用於區塊鏈項目時(如賣 NFT),超過 2 萬美元部分需支付 20% 專利費。

terms of service中提到

If you are a Paid Member, Midjourney grants to You the rights to deal in the Assets you create without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, and/or sell copies of the Assets, subject to the following restrictions:

Standard License Terms 內容,Midjourney 授予付費會員不受限制地使用創建的資產的權利,包含但不限於複製、修改、合併、發布、分發和/或出售副本的權利,

If you knowingly infringe someone else’s intellectual property, and that costs us money, we’re going to come find you and collect that money from you. We might also do other stuff, like try to get a court to make you pay our attorney’s fees. Don’t do it.

(Google 翻譯) 第10項的一小段,如果您在知情的情況下侵犯了他人的知識產權,這讓我們付出了代價,我們會來找您並從您那裡收取這筆錢。我們可能還會做其他事情,例如嘗試讓法院讓您支付我們的律師費。不要這樣做。

實務使用情況

而在 Midjourney 的情況中,從上面兩段的使用情況概述就知道,這種東西基本上就沒有什麼使用說明,一切就是看使用者自己輸入什麼關鍵字和句子,而且同樣的句子也不會得到一樣的圖,剩下的還有參考官方放在 GitBook 的一個 Midjourney docs,裡面內容非常簡單,大概就是教說怎樣設定產出的圖片尺寸、或是加 --no XXX 可以把圖片中的某物、某色排除掉之類的。

跟 LINE bot 或 FB messenger bot 比較像是在獨立私密空間內自己跟機器人對話的感覺比較不一樣。Discord bot 通常是在公開討論串(room/thread/channel)打字傳訊息,在 Midjourney 的 Discord channel 裡面「做圖」的時候,所有人都可以看到別人用什麼指令做出了什麼圖,別人看到我的圖也會跟我討論。大家也可以去按別人的圖下面 U 幾和 V 幾的按鈕,非常的公開透明,除非買月費 $50 或是企業(一年$600美金)的方案,才有 private 的空間。

What if I don’t want my images to appear in the gallery?
We are building a open-by-default community focused on collective exploration and fun. If you have a need to opt-out of this and be private-by-default you can upgrade to a $50/mo private plan at any time by typing /private or purchase a ‘Corporate’ plan.

那有各種現象跟可能發生的問題就值得討論
1.因為現在是邀請制,沒拿到邀請就什麼都不能用,找有邀請的人出借 Discord 帳號也是不太可能的,帳號裡可能還有其他各種討論群嘛! 那如果我當二房東,誰要玩的話就把做圖指令給我,我在 Midjourney 裡面操作,然後把圖給你,酌收一點辛苦費,這樣有問題嗎?
2.承上,有人只有想法,我把他的想法轉化成指令,或是有人本來只有基本的幾個關鍵字,我用使用經驗幫他優化指令,產出更接近所需的圖片,酌收一點辛苦費,這樣有問題嗎?
3.在 Discord channel 裡面從別人的指令學到單字和句型,甚至用跟他一樣的句子做圖,這樣算偷嗎? 但這不就跟本科系的學習訓練過程一樣,在那個環境裡大家互相切磋/偷學,而不是像自學派自己摸索。(ps.用同樣的句子也不會產生完全一樣的圖,完全就是像在擲骰子一樣)


看到跟我同一 channel 的人拿中國古典名著書名在試,我也跟著試試看,這張圖的指令就三個字...金瓶梅

4.承上,直接把別人 upscale 的圖存下來用(是一個 Google Cloud Storage 的網址),這樣算偷嗎?
ps.因為 Midjourney 現有機制,最低付費等級$10美元,一個月有算圖張數額度,也不能用 /relax 模式。而高階一點的付費模式,則是有「高速算圖」的小時數或張數限制,不急的話可以用 /relax 模式,以免扣打很快用光。所以存別人的圖來用,某方面來說可以減少開銷。
5.承上,可以用指令 /imagine 圖片網址 ,用別人的某一張圖做 Variations 延伸產生新圖,這樣算抄襲還是偷圖嗎?
6.在 Midjourney 中,可以輸入各種現實世界存在的作品、藝術家、設計師、風格當關鍵字名詞,讓 Midjourney 用不知道哪來的資料訓練出來的 AI 機器模型和演算法做圖,這樣做出來的圖很明顯有前述藝術家的影子,這樣算抄襲嗎? 那又要怎麼定義原創,先去辦法律手續先註冊的就是原創?


Luffy, Zoro and Nami standing before going merry ship

7.把第4點的圖跟自己的圖,自己重新後製(例如可能一張圖是場景,一張圖是角色),雖然兩張圖主體的構圖內容、質感、筆觸、造型都是 Midjourney 做的,那第4點的原創作者可以覺得這張合併後的圖有他的功勞,應該要掛名或是付錢?
8.承上,某甲在網路社群看到別人的關鍵字,複製之後到 Midjourney 產生了圖片,某乙用某甲的圖,配上自己寫的文案,做成某種商業用途的作品,某甲或是網路社群的發文者,可以覺得這作品有他的功勞,應該要掛名或是付錢?
9.在論壇或討論區看到某些使用使用技巧、某些好用的英文關鍵字分享,每個後面都有作者名字,還寫說如需轉載與引用請標明出處,一看有的只是把官方的 docs 翻成中文,有些英文單字就是相關產業工作者都知道的單字,大家都用一樣的單字,算抄襲嗎?
10.社群上一堆美圖,感覺只是會下關鍵字就好了,自己都不用動筆,這樣也可以叫數位影像創作者嗎?


cats and shibas Inu dogs play ball under apple tree, in the style of Shinkai Makoto, volumetric lighting, national geographic

但要實際使用才知道,什麼文句組成建議都是假的,還是很容易得到亂七八糟如鬼故事般的圖(如上圖),社群上的美圖背後,可能都是別人花了不知道花了多久爬 discord 的討論串學習別人的關鍵字,幾小時的使用經驗、幾千次的運算額度和試錯、一張圖不知道持續多少次的 Variations 得來的。

有點像以前的 FB 的廣告投手會測試受眾、各種廣告設定,看哪個跑起來比較會轉單,一個在測試 Midjourney 的機器人,一個在測試廣告系統的 AI 機器人,兩者應該沒有什麼不一樣吧?

AI 工具製圖真香?

常逛展的人可能都碰過一些數位藝術作品,例如可能對著麥克風講一段話,然後螢幕上就會產生一段電腦動態圖像,但產生的程式藝術圖像通常都很抽象,在展場的氛圍會覺得那是藝術,放在小北百貨可能會以為那個是螢幕壞掉或顯卡破圖。互動藝術的圖跟 Midjourney 靠關鍵字胡亂拼湊的圖是一樣的東西嗎? 背後的原理大不相同,一個是直接的程式產出結果,一個是用大量的資料訓練 AI 模型和演算法產生結果,唯一的共通點大概是連作者也無法百分之百保證使用者 input 什麼,就一定能得到什麼 output 吧。

電腦輔助產生圖片不是什麼新玩意,以前上課時老師還會說,不要小看 Photoshop,一個濾鏡,裡面兩三個選項,背後可能就是一個資工博士或研究室的論文甚至是專利,Photoshop 每年更新的縫圖、去背之類的圖片瞎猜功能,還有 DreamDALL·E 2Imagen魯班華智冰, Disco Diffusion 等等,都是各大企業投入不少預算和時間的電腦影像處理相關專案,2022/5 月開始公測的 Midjourney 又帶動一波風潮,到社群網站搜尋相關的 hashtag,都可以看到一堆看似有模有樣的美圖。

10美元方案夠用嗎?

除了拿到邀請碼之後可以在新手頻道內免費測試,還是要付費訂閱才比較好用,最低的月費 $10 元方案,運算額度號稱大約可以做出 200 張圖,但自己實際上做到 190 張就把額度用完,接下來就再也無法製作新的圖片了,系統會提示

You have run out of credits! Please extend your billing limit by clicking the button below: 5$, 10$, 20$, 50$

而月費 $30 美元在每月高速運算額度用完後,還可以用 /relax 模式繼續做圖片,只是運算速度比較慢。
一般國際間付費的大型圖庫網,不論是企業帳號、或是一些特殊的延伸授權,好看的照片兩三張絕對不止這個金額。AI 雖然很容易失控,但如有適當的使用場景,例如只是要當提案草稿、試探客人喜歡的風格、找想法、探尋視覺方向、色系,或是生成一些材質圖或背景裝飾圖,這些在 MJ 裡面都只靠一些關鍵字就能做到,金額看起來是非常划算的,剩下大概就是這類 AI 產出的圖像如果發生爭議,法律會如何認定的問題。

是專業人士會失業,還是使用者等著被養套殺?

從 Midjourney 的圖片網址來看,可能背後整套系統都架在 GCP 上面,日後功能更完善,開始養套殺、收費漲價應該也是可以預期的,甚至刻意把 AI 調笨,讓大家需要購買更多運算額度才能得到想要的圖? 到時候 AI 算圖真香的魅力可能就會消失呢? 還是大家願意接受搞本地端運算/邊際運算,房子裡放幾台像礦機一樣高耗電高發熱的設備,算一張圖算一天?

數位廣告系統依現有名單去找類似受眾、依興趣條件、依網站操作事件,讓 AI 去找客人。寫 FB 文章都不做規劃,直接把內容放在線上社群平台,然後靠平台的演算法找到對的人曝光內容給他看,這些都行之有年了,行銷人員有失業嗎?
Github Copilot 出來,以後就靠只會訂行事曆跟訂會議室的「專案管理人員」開一些亂七八糟的規格,就能做出客戶滿意的產品?
自動駕駛距離L6只差幾級,雖然系統跟法規都不完善,那以後開搬家公司、瓦斯行、物流公司就都不用請人了嗎?
那為什麼 Midjourney 的作品也開始在台灣的網路社群流傳後,就開始有人發表什麼插畫師、設計師準備失業的言論? 真是太小看各行業了。

我倒覺得只是商人為了賺錢推出一些玩具,後續看玩具能不能持續發展成工具,甚至能否帶動整個產業應用工具的轉變而已。
可能就跟以前的老師常常講,碰到從手繪轉電繪/數位印刷完稿、從底片時代轉到數位相機的那個時代,新工具一開始肯定又貴,缺點又很多,就看問題點能不能持續改進,就算工具跟作業流程變了,畫錯可以 Ctrl+Z,畫線可以用貝茲曲線工具、電繪軟體有防抖動線條修正跟N百種筆觸、照片要做出某種效果可以套濾鏡?
數位相機、電腦、平板、觸控筆後面重要的還是那顆腦袋,完全沒有相關知識,想做出理想中的作品,也許…

延伸閱讀

Tags: #adobe#ai#UI
留言:

Previous

比 Google Family Link 還強的 Android 手機監控神器

Next

一篇前端討論區抱怨文讓大家 Tailwind 功力更上一層(附上 Bootstrap 比較)

相關推薦文章