ธุรกิจการตลาด

รู้จัก "AI วาดรูป" Midjourney ที่ทำงานสร้างสรรค์ได้ไวเหนือมนุษย์

11 ส.ค. 65
รู้จัก "AI วาดรูป" Midjourney ที่ทำงานสร้างสรรค์ได้ไวเหนือมนุษย์

เมื่อก่อนคนมักคิดว่างานที่น่าจะถูกเทคโนโลยีเข้ามาแย่งงานเป็นอันดับท้ายๆ คืองานที่ต้องใช้ความคิดสร้างสรรค์จากมันสมองของมนุษย์ที่ยากจะเลียนแบบได้ เช่น การเขียน ถ่ายภาพ วาดภาพ หรือออกแบบภาพกราฟิก

 

แต่ในตอนนี้อาจไม่ใช่อีกต่อไปเมื่อปัญญาประดิษฐ์หรือ Artificial Intelligence (AI) พัฒนาไปจนถึงขั้นที่สามารถ “สร้าง” รูปขึ้นมาใหม่ ทั้งแบบสมจริงเหมือนภาพถ่าย (photorealistic) และกราฟิกได้ในเวลาไม่กี่นาที

โดยวิธีใช้ก็ง่ายแสนง่าย เพียงแค่ป้อน "คำอธิบาย" หรือ "พรอมท์ (text prompt)" ที่เป็นเหมือนบรีฟอธิบายรูปที่เราอยากได้ให้ตัว AI ประมวลผลออกมาเป็นภาพ 

เช่นรูปต่อไปนี้ที่สร้างด้วยพรอมท์ “post-apocalyptic Bangkok, heavy flooding, dawn, hyperrealistic 8k” หรือ “กรุงเทพหลังวันสิ้นโลก, น้ำท่วมใหญ่, รุ่งอรุณ, สมจริง 8k” ที่ทีม Spotlight สร้างจาก “Midjourney” text-to-image generator ตัวฟรีน้องใหม่ที่เพิ่งเปิดให้คนเข้าไปลองใช้เมื่อเดือนกรกฎาคมที่ผ่านมา บน Discord โปรแกรมสื่อสารของชาวเกมเมอร์

โดยผู้สนใจใช้สามารถเข้าไปใช้ได้ด้วยการสมัครแอคเคาท์ของ Discord กดเข้าไปในเว็บไซต์ Midjourney.com แล้วกด 'Join the beta' เข้าไปในคอมมูนิตี้ของ Midjourney เข้าห้องใดก็ได้ที่เป็น Newcomer Rooms แล้วพิมพ์ /imagine ตามด้วยพรอมท์ที่ต้องการ

 

screenshot2565-08-11at10.

 

img_0632  (รูปที่ Midjourney สร้างมาให้เลือกใน Discord หลังใส่พรอมท์)

kmlomk_post-apocalyptic_bangk(รูปสำเร็จหลังเลือก upscale)

 

โดยหลังเปิดตัวมาไม่ถึงเดือนก็ได้มีผู้สนใจเข้าไปใช้และนำภาพที่ได้จากการใส่พรอมท์แบบต่างๆ ออกมาอวดกันเป็นจำนวนมากในโซเชียลมีเดีย เช่น Twitter ใต้แฮชแท็ก #Midjourney ซึ่งดูแล้วทั้งตรงพรอมท์และมีรายละเอียดสวยงามน่าตื่นตาตื่นใจจนเห็นแล้วถ้าไม่บอกว่า AI เป็นคนทำก็คงนึกว่าเป็นภาพที่ทำโดยกราฟิกดีไซน์เนอร์เก่งๆ ซักคน

แถมถ้าไม่พอใจรูปที่ได้ ก็ยังมีฟังก์ชั่นสั่งให้ AI รีรันแก้รูปจากบรีฟเดิม หรือจะเลือกส่งบรีฟใหม่เพิ่มรายละเอียดยังไงก็ได้ไม่จำกัดครั้ง

เรียกได้ว่า “ครบเครื่อง” จนถ้าผู้พัฒนาทำโปรแกรมสร้างรูปจาก AI ออกมาขายจริงจังกราฟิกดีไซน์เนอร์ที่ทำงานอยู่ตอนนี้คงมีหนาว 

เพราะถ้าเป็นคนจริงๆ Midjourney ก็คงเป็นยอดพนักงานล้านสกิลที่เป็นได้ทั้ง "ช่างภาพ" "นักวาดภาพ" "และกราฟิกดีไซน์เนอร์" ในเวลาเดียวกัน แถมยังขยันแก้งานให้ลูกค้าได้ซ้ำๆ แบบไม่เหนื่อย ไม่บ่น ไม่ต่อรอง และไม่เอาลูกค้าไปด่าลับหลังว่าเรื่องมากหรือบรีฟแย่ 

แต่ถ้าเป็นคู่แข่งที่เก่งจนเหมือนมีสูตรโกงขนาดนี้ อะไรล่ะที่ทำให้ AI สร้างงานสร้างสรรค์ที่เคยมีแค่มนุษย์เท่านั้นที่ทำได้ออกมาได้ 

สำหรับคำถามนี้ คำตอบง่ายๆ เลยก็คือ AI ก็มี “สูตรโกง” จริงๆ

เพราะมันเป็นเหมือน “สมองมนุษย์แบบอัพเกรด” ที่สามารถเรียนรู้สิ่งต่างๆ ได้เหมือนมนุษย์ แต่มีความสามารถในการรับข้อมูล เก็บข้อมูล ประมวลผลข้อมูล และดึงข้อมูลออกมาประยุกต์ใช้ที่สูงกว่ามนุษย์มาก

เหมือนจิตรกรฝึกวาดรูป text-to-image generator จะ เรียนรู้จากประสบการณ์ซ้ำๆ ด้วยการศึกษาชุดข้อมูลรูปภาพ (datasets) จำนวนมหาศาล ประมวลผลว่าในภาพนั้นมีอะไร วาดหรือออกแบบในสไตล์ไหน และแนบคำอธิบายที่เป็นคำพูดกับรูปนั้นๆ เพื่อจัดสิ่งที่เรียนรู้มาให้เป็นระบบระเบียบ

เพื่อที่เวลามีคนป้อนพรอมท์เข้าไปมันจะได้ดึงข้อมูลที่ตรงกับพรอมท์นั้นออกมาประยุกต์ใช้ “สร้างสรรค์” รูปใหม่ๆ ที่ตรงพรอมพ์และไม่เคยมีในโลกนี้มาก่อนได้ 

อธิบายง่ายๆ ก็เหมือนมนุษย์เราที่ต้องเรียนรู้ก่อนว่าอะไรหน้าตาเป็นยังไงก่อนถึงจะวาดมันออกมาได้ 

ทำนองว่าถ้ามีคนมาให้เราวาดแอปเปิ้ล แต่ถ้าเราไม่เคยเห็นแอปเปิ้ลมาก่อนในชีวิตก็คงจะวาดมันออกมาไม่ถูก 

และถ้าเราเกิดอยากจะวาดแอปเปิ้ลในสไตล์อื่นๆ เช่นสไตล์ Cubism ของ Pablo Picasso เราก็ต้องเรียนรู้อีกว่าสไตล์งานนั้นของศิลปินคนนั้นมีลักษณะเด่นอะไร ใช้โทนสีแบบไหน แล้วค่อยวาดรูปใหม่ออกมาโดยอิงจากชุดความรู้ที่มีอยู่ 

AI เหล่านั้นก็เรียนรู้ที่จะวาดภาพในแบบต่างๆ ด้วยวิธีเดียวกัน 

ต่างกันแค่ AI เรียนรู้ได้เร็วมากกว่า เก็บข้อมูลใน สมองได้เยอะมากกว่า และดึงข้อมูลเหล่านั้นออกมาใช้ได้เร็วมากกว่ามนุษย์มากหลายเท่าเท่านั้น

 

kmlomk_a_basket_of_apples_dra_1(ภาพจากพรอมท์ “a basket of apples drawn by Pablo Picasso” สร้างโดย Midjourney)

 

Midjourney ไม่ใช่ AI แรกที่สร้างรูปเป็น

ถึงแม้จะเป็นน้องใหม่มาแรง Midjourney ก็ไม่ใช่ AI ตัวแรกที่สร้างรูปเป็น เพราะปีที่แล้วได้มีบริษัทเทคโนโลยีมากมายทยอยเปิดตัว text-to-image generator ของตัวเองออกมาบ้างแล้ว เช่น Wombo Dream, NightCafe รวมไปถึง Imagen ที่พัฒนาโดยทีมนักวิจัยของ Google ที่ยังไม่ได้ปล่อยออกมาให้คนลองใช้ด้วย

 

screenshot2565-08-10at10.

 

แต่ในหมู่ผู้มาก่อนกาลเหล่านี้ text-to-image generator ที่น่าจะได้รับความนิยมมากที่สุดและประสิทธิภาพมากพอแข่งกับ Midjourney ได้ก็คือ "DALL-E" (ที่ได้ชื่อมาจากการผสมกันของชื่อ Salvador Dali จิตรกรชื่อดัง และ Wall-E หุ่นยนต์รีไซเคิลขยะของพิกซาร์) ของ Open AI ที่เพิ่งเปิดตัวเวอร์ชั่นสองไปในเดือนเมษายนที่ผ่านมา

หลังเปิดตัว text-to-image generators ออกมาก่อนสองรุ่นแล้วในปีที่แล้ว นั่นก็คือ DELL-E เวอร์ชั่นแรก และ DALL-E Mini ที่เป็น DALL-E เวอร์ชั่น open beta และฟรีบนเว็บไซต์ Craiyon.com ซึ่งได้กลายเป็นโปรแกรมสร้างมีมยอดฮิตหลังคนแห่เข้าไปพิมพ์พรอมท์แปลกๆ ใส่เป็นจำนวนมาก

dallejesus(ภาพจากพรอมท์ "jesus christ drinking alone in a pub" สร้างโดย Craiyon หรือ DALL-E Mini)

 

ในปัจจุบัน DALL-E 2 ยังเป็น AI ฟรีใน closed beta ที่ยังต้องเข้าไปกรอกใบสมัครขอ invitation code จากผู้ผลิตเป็นรายคนเพื่อเข้าไปใช้ และค่อนข้างเข้าไปได้ยากอยู่เพราะ Open AI คัดศิลปิน กราฟิกดีไซน์เนอร์ หรือนักออกแบบมืออาชีพเข้าไปทดลองใช้งานก่อน 

แต่หลังจาก Midjourney เปิดตัวออกมา ก็ได้มีผู้ใช้จำนวนหนึ่งที่เข้าถึงได้ทั้งสอง AI ออกมาทดสอบประสิทธิภาพด้วยการให้ทั้งสอง generator ลองรันพรอมท์เดียวกัน แล้วเปรียบเทียบดูว่ารูปที่ออกมาจาก AI ตัวไหนจะล้ำกว่ากัน 

ซึ่งผลลัพธ์ส่วนมากก็ออกมาสรุปว่าในขณะที่ DALL-E 2 สามารถสร้างรูปแนวสมจริงและเข้าใจพรอมท์ที่อ้างอิงกับวัฒนธรรมเฉพาะกลุ่ม (cultural references) ได้ดี Midjourney ก็ทำได้ดีไม่แพ้กัน 

แต่ที่โปรแกรมหลังทำได้ดีกว่ามากก็คือพรอมท์ภาพแนวกราฟิกแฟนตาซีและความละเอียดภาพที่ Midjourney ทำได้สูงมากถึง 2048×1280 ในขณะที่ DALL-E 2 ทำได้เพียง 1024×1024

 

screenshot2565-08-10at09.(เปรียบเทียบภาพที่สร้างโดย Dall-E 2 และ Midjourney จากพรอมท์ “ช่วงบ่ายในหน้าร้อนที่อากาศแจ่มใส มีแม่น้ำไหล ธรรมชาติอุดมสมบูรณ์ ในสไตล์ของสตูดิโอจิบลิ” ที่มาภาพ: Medium)

 

"ดาบ 2 ด้าน" ที่ต้องระวัง 

แต่ถึงแม้ AI พวกนี้มีศักยภาพที่จะกลายเป็นเครื่องมือชั้นยอดที่ช่วยย่นระยะเวลาการผลิตรูปได้ ความสามารถในการสร้างรูปของ AI เหล่านี้ก็สร้างความเสี่ยงหลายๆ ด้านให้กับสังคม โดยเฉพาะในด้านจริยธรรมและกฎหมาย

เพราะอาจมีคนใช้โปรแกรมเหล่านี้สร้างภาพปลอมใส่ร้ายคนดัง สร้างรูปโป๊ รูปที่มีความรุนแรงหรือปลุกปั่นให้เกิดความรุนแรง หรือภาพใดก็ตามที่เป็นอันตรายต่อทั้งตัวบุคคลและสังคมได้

นอกจากนี้ด้วยความที่ AI เหล่านี้เรียนรู้ภาพจากภาพจำ (stereotypes) ของสิ่งต่างๆ ที่ถูกเผยแพร่ไปในโลกออนไลน์ รูปที่โปรแกรมเหล่านี้สร้างออกมาอาจมีลักษณะที่ เหยียดเชื้อชาติหรือ เหยียดเพศได้

ดังที่มีคนลองใส่พรอมท์คำว่า ceo เข้าไปใน DALL-E แล้วมีแต่รูปผู้ชายผิวขาวขึ้นมา แต่พอใส่คำว่า nurse กลับมีแต่รูปผู้หญิง แถมส่วนมากเป็นคนเชื้อชาติอื่นที่ไม่ใช่คนผิวขาว

 

screenshot2565-08-10at09._1(ที่มาภาพ: Vice)

 

 

ช่องโหว่เหล่านี้ทำให้เกิดคำถามตามมามากมาย อย่างเช่นว่า

"ใครบ้างควรจะมีสิทธิเข้าถึงโปรแกรมเหล่านี้" 

"ลิขสิทธิ์ของภาพที่ AI สร้างจะเป็นของใครในเมื่อการคิดพรอมท์คำพูดง่ายๆ ใครๆ ก็คิดได้" 

"และเราควรออกกฎหมายควบคุมหรือกำหนดโทษอย่างไรจึงจะป้องกันไม่ให้คนใช้โปรแกรมเหล่านี้กระทำความผิด" 

เหล่านี้เป็นคำถามที่สังคมและนักกฎหมายควรจะต้องตอบให้ได้ก่อนปล่อยให้ผู้ผลิตนำ text-to-image generators ประสิทธิภาพสูงเหล่านี้ออกมาให้คนทั่วไปใช้ในเชิงพาณิชย์ 

แต่สำหรับคำถามที่ว่า AI จะมาแทนศิลปินที่เป็นมนุษย์จริงๆได้ไหมนั้น David Holz ผู้พัฒนา Midjourney ก็ได้ให้แง่คิดที่น่าสนใจว่า ในตอนนี้คนอาจจะมอง AI เป็น “เสือ” ที่เป็นศัตรูและอาจมา “กิน” เราได้ถ้าไม่ระวัง 

แต่ส่วนตัวเขามองว่ามันเป็น “น้ำ” ที่ถึงแม้จะมีด้านที่อันตราย แต่ก็มีคุณประโยชน์กับมนุษย์ แถมยังสามารถควบคุมได้ด้วยวิธีต่างๆ เช่น การสร้างเรือ สร้างเขื่อน เพื่อให้มันเป็นประโยชน์สูงสุด เหมือนที่เราควรจะเรียนรู้วิธีใช้และควบคุม AI ให้ได้ เพื่อให้มันเป็น “ผู้รับใช้” ไม่ใช่ “นาย” ที่มีอำนาจควบคุมเรา

 

ที่มา: Vice, Grid, The Verge, Medium

Relate Post

Spotlight