เปิดตัว Wan 2.7: ก้าวกระโดดในการสร้างภาพ AI แบบรวมศูนย์
Wan 2.7 คืออะไร?
แผนกวิจัย AI ของ Alibaba ได้พัฒนาอย่างเงียบๆ เพื่อสร้างสิ่งสำคัญ และ Wan 2.7 คือผลลัพธ์ที่ได้ เปิดตัวเป็นเวอร์ชันล่าสุดของซีรีส์ Wan ของ Alibaba โมเดล AI แบบรวมศูนย์นี้จัดการกับความท้าทายที่ต่อเนื่องที่สุดประการหนึ่งใน AI เชิงสร้างสรรค์: การสร้างภาพที่ดูสมจริงอย่างแท้จริง — พร้อมใบหน้าที่ถูกต้องตามมนุษย์ ข้อความที่ฝังอยู่ซึ่งอ่านได้ และการควบคุมองค์ประกอบแบบละเอียด — ทั้งหมดนี้มาจากระบบเดียวที่สอดคล้องกัน
ต่างจากโมเดลรุ่นก่อนที่เชี่ยวชาญในด้านใดด้านหนึ่ง Wan 2.7 วางตำแหน่งตัวเองว่าเป็นผู้เชี่ยวชาญรอบด้าน ไม่ว่าคุณจะเป็นนักการตลาดที่ต้องการภาพผลิตภัณฑ์ที่สวยงาม นักออกแบบเกมที่ร่างแนวคิดตัวละคร หรือผู้สร้างเนื้อหาที่สร้างแบรนด์โซเชียลมีเดีย Wan 2.7 มุ่งมั่นที่จะตอบสนองความต้องการทั้งหมดโดยไม่ต้องบังคับให้คุณต้องสลับเครื่องมือหลายอย่าง
คำว่า "แบบรวมศูนย์" มีความสำคัญที่นี่ มันบ่งบอกว่า Wan 2.7 ไม่ได้จัดการกับการสร้างใบหน้า การแสดงข้อความ และการควบคุมสไตล์เป็นไปป์ไลน์ที่แยกจากกัน แต่ความสามารถเหล่านี้ถูกรวมเข้ากับสถาปัตยกรรมเดียว ซึ่งส่งผลให้ผลลัพธ์มีความสอดคล้องกันมากขึ้นและประสบการณ์การสร้างสรรค์ที่ราบรื่นขึ้น ในภูมิทัศน์ที่เต็มไปด้วยโมเดลเฉพาะทาง ความสอดคล้องนี้คือตัวสร้างความแตกต่างที่แท้จริง
นวัตกรรมสำคัญของ Wan 2.7
สามเสาหลักกำหนดสิ่งที่ทำให้ Wan 2.7 โดดเด่น:
- การสังเคราะห์ใบหน้าเสมือนจริง: โมเดลได้รับการฝึกอบรมด้วยชุดข้อมูลที่ขยายใหญ่ขึ้นของลักษณะใบหน้าของมนุษย์ การแสดงออก และสภาวะแสง ซึ่งช่วยลดผลกระทบจาก "หุบเขาที่น่าขนลุก" (uncanny valley) ที่แพร่หลายในภาพบุคคลที่สร้างโดย AI ได้อย่างมาก
- การแสดงข้อความในภาพที่แม่นยำ: ในอดีต เครื่องมือสร้างภาพ AI มีปัญหาในการสร้างข้อความที่อ่านได้ภายในภาพ Wan 2.7 จัดการปัญหานี้ด้วยโมดูลการแสดงผลข้อความโดยเฉพาะ ซึ่งรักษาความสอดคล้องของแบบอักษรและความสามารถในการอ่านได้แม้ในขนาดที่เล็ก
- พารามิเตอร์ควบคุมแบบละเอียด: ผู้ใช้สามารถมีอิทธิพลต่อองค์ประกอบ โทนแสง จานสี และตำแหน่งของวัตถุผ่านการป้อนข้อความที่ใช้งานง่ายและการป้อนข้อมูลควบคุมที่มีโครงสร้าง — ไม่จำเป็นต้องมีความเชี่ยวชาญด้านเทคนิคเชิงลึก
เมื่อรวมกันแล้ว นวัตกรรมเหล่านี้ทำให้ Wan 2.7 เป็นตัวเลือกที่น่าสนใจสำหรับมืออาชีพที่เคยต้องใช้เครื่องมือถึงสามหรือสี่อย่างเพื่อบรรลุสิ่งที่โมเดลเดียวนี้สามารถทำได้ เป็นก้าวสำคัญไปข้างหน้า ไม่ใช่แค่การอัปเดตแบบเพิ่มส่วน
เจาะลึกความสามารถของ Wan 2.7: ใบหน้าที่สมจริงและข้อความ
การสร้างใบหน้ามนุษย์เสมือนจริง
การสร้างใบหน้าเป็นเหมือนการทดสอบขั้นสุดท้ายสำหรับโมเดลภาพ AI มายาวนาน มนุษย์มีความอ่อนไหวต่อความไม่สมบูรณ์ของใบหน้าอย่างยิ่ง — ตาที่ไม่สมมาตรเล็กน้อย พื้นผิวผิวที่ไม่เป็นธรรมชาติ หรือเส้นผมที่ไม่เป็นธรรมชาติทันทีจะถูกระบุว่าเป็น "สร้างโดย AI" โดยผู้ชมส่วนใหญ่ Wan 2.7 มุ่งเป้าไปที่ปัญหานี้โดยตรง
การสังเคราะห์ใบหน้าของโมเดลอาศัยกลไกการให้ความสนใจ (attention mechanisms) ที่ปรับปรุงแล้ว ซึ่งจัดลำดับความสำคัญของความสมมาตรของใบหน้าและแสงตามบริบท เมื่อคุณป้อนข้อความให้ Wan 2.7 สร้างภาพบุคคลในสภาพแวดล้อมเฉพาะ — เช่น ภาพถ่ายหัวระดับมืออาชีพภายใต้แสงสตูดิโอที่นุ่มนวล — โมเดลไม่ได้แค่สร้างใบหน้าและวางลงบนพื้นหลังเท่านั้น มันจะพิจารณาว่าแหล่งกำเนิดแสงจะโต้ตอบกับโทนสีผิวอย่างไร เงาตกกระทบใบหน้าอย่างไร และการแสดงออกของวัตถุสัมพันธ์กับอารมณ์ของฉากอย่างไร
นัยสำคัญในทางปฏิบัติมีมาก ทีมการตลาดสามารถสร้างภาพโมเดลที่หลากหลายและครอบคลุมโดยไม่ต้องเสียค่าใช้จ่ายในการถ่ายภาพสตูดิโอ สตูดิโอเกมสามารถสร้างต้นแบบการออกแบบตัวละครได้อย่างรวดเร็ว นักเขียนและสำนักพิมพ์สามารถสร้างหน้าปกที่มีตัวละครมนุษย์ที่ไม่ดูเหมือนหลุดออกมาจากหนังสยองขวัญ เพดานคุณภาพได้เพิ่มขึ้นอย่างมากด้วย Wan 2.7 และสำหรับกรณีการใช้งานระดับมืออาชีพจำนวนมาก ผลลัพธ์ก็พร้อมสำหรับการผลิตจริง
เป็นที่น่าสังเกตว่าความสอดคล้องของใบหน้าในการสร้างหลายครั้ง — การสร้าง "ตัวละคร" เดียวกันในท่าทางหรือสภาพแวดล้อมที่แตกต่างกัน — ยังคงเป็นความท้าทายที่กำลังพัฒนาในอุตสาหกรรม Wan 2.7 ก้าวหน้าในส่วนนี้ด้วยการป้อนภาพอ้างอิง แม้ว่าจะยังไม่สมบูรณ์ก็ตาม อย่างไรก็ตาม สำหรับกรณีการใช้งานภาพเดียว ผลลัพธ์ก็น่าประทับใจ
การรวมข้อความในภาพอย่างราบรื่น
ถามนักออกแบบว่าอะไรทำให้พวกเขารู้สึกหงุดหงิดมากที่สุดกับเครื่องมือสร้างภาพ AI และ "ข้อความที่ผิดพลาด" จะปรากฏขึ้นที่ด้านบนสุดของทุกรายการ ตัวอักษรที่สับสน คำที่สะกดผิด และแบบอักษรที่อ่านไม่ออกเคยเป็นเรื่องตลกที่เกิดขึ้นซ้ำๆ ในชุมชนสร้างสรรค์ AI — จนกระทั่งเมื่อไม่นานมานี้
Wan 2.7 ถือว่าการแสดงผลข้อความเป็นคุณสมบัติสำคัญ เมื่อพรอมต์รวมถึงองค์ประกอบข้อความเฉพาะ — เช่น ป้ายผลิตภัณฑ์ หัวเรื่องบนป้ายโฆษณา ป้ายหน้าร้าน — โมเดลจะใช้เส้นทางการแสดงผลพิเศษที่ให้ความสำคัญกับความแม่นยำของอักขระ ในการทดสอบ วลีสั้นๆ และคำเดี่ยวๆ ออกมาอย่างชัดเจนและอ่านได้เกือบตลอดเวลา ข้อความยาวๆ ยังคงมีข้อผิดพลาดเป็นครั้งคราว แต่การปรับปรุงจากรุ่นก่อนหน้านั้นมีนัยสำคัญ
สำหรับการใช้งานเชิงพาณิชย์ นี่คือสิ่งที่เปลี่ยนแปลงเกม กราฟิกโซเชียลมีเดีย แบบจำลองโฆษณา เนื้อหาแบรนด์ และภาพประกอบบรรณาธิการ ล้วนได้รับประโยชน์จากข้อความในภาพที่เชื่อถือได้ นักออกแบบสามารถใช้ Wan 2.7 เพื่อสร้างร่างภาพร่างสุดท้ายของแนวคิดภาพ — พร้อมข้อความตัวอย่าง — แทนที่จะต้องรวมข้อความหลังการผลิตทุกครั้ง
การควบคุมและการปรับแต่งด้วย Wan 2.7
กลไกการควบคุมขั้นสูง
การควบคุมความคิดสร้างสรรค์เป็นจุดที่เครื่องมือสร้างภาพ AI หลายตัวทำได้ไม่ดี คุณสามารถอธิบายสิ่งที่คุณต้องการในพรอมต์ได้ แต่โมเดลจะทำตามที่ต้องการ Wan 2.7 ท้าทายสิ่งนี้ด้วยระบบการควบคุมแบบหลายชั้นที่ให้ผู้ใช้มีอิทธิพลที่มีความหมายต่อผลลัพธ์
คุณสมบัติการควบคุมหลัก ได้แก่:
- การปรับโครงสร้าง: ผู้ใช้สามารถระบุสเก็ตช์คร่าวๆ การอ้างอิงท่าทาง หรือแผนที่ความลึกเพื่อนำทางการจัดวาง องค์ประกอบ โมเดลจะเคารพข้อมูลโครงสร้างเหล่านี้ในขณะที่เติมรายละเอียดเสมือนจริง
- การยึดสไตล์: สามารถใช้ภาพอ้างอิงเพื่อล็อคสไตล์ภาพ — การไล่ระดับสี การรักษาทางศิลปะ หรือสุนทรียภาพของการถ่ายภาพ — ในชุดของการสร้างสรรค์
- การป้อนข้อความเชิงลบ: การป้อนข้อความเชิงลบที่ปรับแต่งอย่างละเอียดช่วยให้ผู้ใช้สามารถยกเว้นองค์ประกอบที่ไม่ต้องการได้อย่างชัดเจน ลดความจำเป็นในการสร้างใหม่หลายครั้ง
- การควบคุมอัตราส่วนภาพและมติ: ตั้งแต่โพสต์โซเชียลที่เป็นสี่เหลี่ยมไปจนถึงภาพครอปแบบภาพยนตร์มุมกว้าง Wan 2.7 จัดการรูปแบบผลลัพธ์ที่หลากหลายโดยไม่ลดทอนคุณภาพที่ขอบ
การควบคุมเหล่านี้ไม่ได้ถูกซ่อนอยู่ในเอกสารสำหรับนักพัฒนา แต่สามารถเข้าถึงได้ผ่านไวยากรณ์พรอมต์ที่มีโครงสร้าง และบนแพลตฟอร์มที่รวม Wan 2.7 เข้าไว้ด้วยผ่านองค์ประกอบ UI ที่มองเห็นได้ ซึ่งทำให้กระบวนการนี้เข้าถึงได้สำหรับครีเอทีฟที่ไม่ใช่นักเทคนิค
ประสบการณ์ผู้ใช้และเวิร์กโฟลว์
โมเดลที่ทรงพลังจะมีประโยชน์ก็ต่อเมื่อสามารถใช้งานได้ง่ายเท่านั้น Wan 2.7 ได้รับการออกแบบโดยคำนึงถึงการผสานรวมกับเวิร์กโฟลว์ API มีความชัดเจนและมีเอกสารประกอบที่ดี ทำให้ง่ายสำหรับนักพัฒนาในการฝังโมเดลลงในเครื่องมือสร้างสรรค์ที่มีอยู่ ระบบจัดการเนื้อหา หรือแอปพลิเคชันที่กำหนดเอง
สำหรับผู้ใช้ปลายทางที่ทำงานผ่านอินเทอร์เฟซบนเว็บ ประสบการณ์การใช้งานเป็นแบบซ้ำและตอบสนองได้ดี เวลาในการสร้างนั้นแข่งขันได้ และวงจรการป้อนกลับระหว่างการปรับแต่งพรอมต์และการแสดงผลด้วยภาพนั้นแน่นหนาพอที่จะรู้สึกเหมือนเป็นการทำงานร่วมกันอย่างแท้จริง แทนที่จะเป็นการรอคอย ผู้เริ่มต้นสามารถได้ผลลัพธ์ที่น่าพอใจด้วยพรอมต์คำอธิบายง่ายๆ ในขณะที่ผู้ใช้ที่มีประสบการณ์สามารถปลดล็อกความลึกทั้งหมดของระบบควบคุมตามความต้องการที่เพิ่มขึ้น
ประสิทธิภาพและการทดสอบเกณฑ์มาตรฐานของ Wan 2.7
การเปรียบเทียบกับเวอร์ชันก่อนหน้าและคู่แข่ง
เมื่อวัดกับรุ่นก่อนหน้า Wan 2.1 การปรับปรุงใน Wan 2.7 นั้นชัดเจนและสม่ำเสมอ คะแนนความสมจริงของใบหน้าบนเกณฑ์มาตรฐานมาตรฐานแสดงให้เห็นถึงความถี่ของสิ่งแปลกปลอมที่ลดลงอย่างเห็นได้ชัด ความแม่นยำของข้อความในรูปภาพที่สร้างขึ้นได้รับการปรับปรุงอย่างมีนัยสำคัญ และการศึกษาความชอบของผู้ใช้ — ที่ผู้ประเมินที่เป็นมนุษย์เปรียบเทียบผลลัพธ์แบบเคียงข้างกัน — โดยทั่วไปจะให้ผลลัพธ์ของ Wan 2.7 สำหรับความสอดคล้องโดยรวมและผลงานระดับมืออาชีพ
เมื่อเทียบกับคู่แข่งเช่น Midjourney v6, Stable Diffusion 3 และ DALL-E 3, Wan 2.7 สามารถแข่งขันได้ในหลายหมวดหมู่และเป็นผู้นำในบางหมวดหมู่ ความสามารถในการแสดงข้อความนั้นถือได้ว่าดีที่สุดในกลุ่มโมเดลที่มีให้ใช้งานสาธารณะ ความสมจริงของใบหน้าสามารถแข่งขันกับกลุ่มชั้นนำได้ ในจุดที่ต้องเผชิญกับการแข่งขันที่แข็งแกร่งกว่าคือในผลงานศิลปะที่มีสไตล์สูงหรือนามธรรม ซึ่งโมเดลที่มีประวัติการฝึกอบรมความคิดสร้างสรรค์ที่ยาวนานกว่ายังคงมีข้อได้เปรียบ
สถาปัตยกรรมแบบรวมยังทำให้ Wan 2.7 มีข้อได้เปรียบด้านความสอดคล้อง เนื่องจากใบหน้า ข้อความ และองค์ประกอบฉากถูกสร้างขึ้นผ่านโมเดลเดียวกัน แทนที่จะเป็นการประกอบจากไปป์ไลน์ที่แยกจากกัน ผลลัพธ์จึงมีความสอดคล้องกันอย่างเป็นธรรมชาติซึ่งยากที่จะทำได้เมื่อต้องต่อผลลัพธ์จากหลายโมเดลที่เชี่ยวชาญ
รากฐานทางเทคนิคและสถาปัตยกรรม
โดยพื้นฐานแล้ว Wan 2.7 สร้างขึ้นบนสถาปัตยกรรม diffusion ที่ใช้ transformer — ซึ่งเป็นแนวทางพื้นฐานเดียวกันกับที่ขับเคลื่อนโมเดลสร้างภาพชั้นนำส่วนใหญ่ สิ่งที่ทำให้แตกต่างคือวิธีการที่ทีมของ Alibaba จัดโครงสร้างเลเยอร์ attention เพื่อจัดการอินพุตแบบหลายรูปแบบ (พรอมต์ข้อความ รูปภาพอ้างอิง คำแนะนำเชิงโครงสร้าง) และวิธีการคัดเลือกข้อมูลการฝึกอบรมเพื่อเน้นคุณภาพใบหน้าและการอ่านข้อความ
โมเดลใช้แนวทางการฝึกอบรมแบบหลายระดับ โดยเปิดรับรูปภาพที่ความละเอียดต่างๆ ในระหว่างการฝึกอบรม ซึ่งช่วยให้สามารถรักษาคุณภาพในขนาดเอาต์พุตที่แตกต่างกันได้ โมดูลการแสดงผลข้อความเฉพาะจะทำงานขนานไปกับไปป์ไลน์การสร้างหลัก โดยอ้างอิงรูปร่างอักขระกับชุดข้อมูลตัวพิมพ์ที่เรียนรู้เพื่อตรวจจับและแก้ไขข้อผิดพลาดก่อนที่ภาพสุดท้ายจะถูกสร้างขึ้น
แอปพลิเคชันและอนาคตของ Wan 2.7
กรณีการใช้งานในอุตสาหกรรมสร้างสรรค์
การใช้งานจริงสำหรับ Wan 2.7 ครอบคลุมอุตสาหกรรมที่หลากหลาย:
- การตลาดและการโฆษณา: สร้างภาพแคมเปญ ตัวอย่างสินค้า และภาพโมเดลที่หลากหลายด้วยต้นทุนการผลิตที่น้อยกว่ามากเมื่อเทียบกับแบบดั้งเดิม
- การตีพิมพ์และบรรณาธิการ: สร้างปกหนังสือ ภาพประกอบนิตยสาร และหัวข้อบทความที่แสดงบุคคลจริง
- การพัฒนาเกม: สร้างต้นแบบการออกแบบตัวละคร แนวคิดสภาพแวดล้อม และองค์ประกอบ UI ได้อย่างรวดเร็ว
- อีคอมเมิร์ซ: สร้างภาพสินค้าไลฟ์สไตล์โดยไม่ต้องใช้การจัดแสงแบบเต็มรูปแบบ
- เนื้อหาโซเชียลมีเดีย: สร้างเทมเพลตภาพแบรนด์พร้อมข้อความที่ถูกต้องและการจัดการสุนทรียศาสตร์ที่สอดคล้องกัน
ในแต่ละบริบทเหล่านี้ การผสมผสานระหว่างความสมจริงของใบหน้า ความแม่นยำของข้อความ และความลึกของการควบคุมของ Wan 2.7 จะช่วยแก้ปัญหาเฉพาะที่ก่อนหน้านี้ทำให้ภาพที่สร้างโดย AI เป็นเพียงจุดเริ่มต้น แทนที่จะเป็นจุดสิ้นสุด
ข้อควรพิจารณาด้านจริยธรรมและข้อจำกัด
การพูดคุยเกี่ยวกับการสร้างใบหน้าด้วย AI ขั้นสูงจะสมบูรณ์ไม่ได้หากไม่กล่าวถึงภูมิทัศน์ทางจริยธรรม ความสามารถในการสังเคราะห์ใบหน้าเหมือนจริงของ Wan 2.7 ทำให้เกิดความกังวลที่ถูกต้องเกี่ยวกับ deepfakes การสร้างภาพโดยไม่ได้รับความยินยอม และการแทนที่โมเดลและช่างภาพของมนุษย์
Alibaba ได้ใช้มาตรการกรองเนื้อหาและข้อจำกัดด้านนโยบายการใช้งานแล้ว แต่เช่นเดียวกับเครื่องมือสร้างภาพ AI ทั้งหมด การบังคับใช้นั้นไม่สมบูรณ์ ผู้ใช้และผู้ดำเนินการแพลตฟอร์มมีความรับผิดชอบร่วมกันในการรับรองว่าเทคโนโลยีถูกนำไปใช้อย่างมีจริยธรรม การเปิดเผยเกี่ยวกับเนื้อหาที่สร้างโดย AI — การติดป้ายกำกับรูปภาพว่าเป็น AI-made — เป็นบรรทัดฐานใหม่ของอุตสาหกรรมที่ผู้ใช้ที่มีความรับผิดชอบควรนำมาใช้อย่างแข็งขัน
ในด้านเทคนิค ยังคงมีข้อจำกัด ฉากที่ซับซ้อนมากซึ่งมีมนุษย์หลายคนมีปฏิสัมพันธ์กันยังคงก่อให้เกิดข้อผิดพลาดทางกายวิภาคเป็นครั้งคราว คำขอสไตล์ที่เฉพาะเจาะจงมากอาจให้ผลลัพธ์ที่ไม่สอดคล้องกัน และเช่นเดียวกับโมเดลสร้างสรรค์ทั้งหมด Wan 2.7 สะท้อนถึงอคติที่มีอยู่ในข้อมูลการฝึกอบรม ซึ่งอาจปรากฏในช่องว่างการเป็นตัวแทนในกลุ่มประชากรต่างๆ
เส้นทางข้างหน้าสำหรับโมเดล AI แบบรวม
Wan 2.7 แสดงถึงจุดที่สำคัญบนวิถีทางที่กำลังเคลื่อนที่อย่างรวดเร็ว ทิศทางชัดเจน: โมเดลแบบรวมที่จัดการงานสร้างสรรค์ที่หลากหลายด้วยคุณภาพระดับมืออาชีพ เข้าถึงได้สำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ และรวมเข้ากับเวิร์กโฟลว์การสร้างสรรค์ในชีวิตประจำวัน การทำซ้ำในอนาคตมีแนวโน้มที่จะนำมาซึ่งความสอดคล้องของหลายหัวข้อที่ดีขึ้น การจัดการข้อความที่ซับซ้อนได้ดีขึ้น และการผสานรวมที่ลึกซึ้งยิ่งขึ้นกับการสร้างวิดีโอ — ซึ่งซีรีส์ Wan ของ Alibaba ก็มีบทบาทอยู่
การเปลี่ยนแปลงที่กว้างขึ้นไปสู่โมเดลสร้างสรรค์ AI แบบรวมกำลังเปลี่ยนแปลงสิ่งที่เป็นไปได้สำหรับบุคคลและทีมขนาดเล็ก ช่องว่างระหว่างผู้สร้างเดี่ยวและสตูดิโอผลิตเต็มรูปแบบกำลังแคบลง และเครื่องมือเช่น Wan 2.7 เป็นเหตุผลสำคัญ
เริ่มสร้างสรรค์ด้วย AI วันนี้
Wan 2.7 ตั้งมาตรฐานที่สูงสำหรับสิ่งที่การสร้างภาพ AI แบบรวมสามารถทำได้ — แต่มันเป็นเพียงเครื่องมือหนึ่งในระบบนิเวศที่กำลังขยายตัว หากคุณพร้อมที่จะนำวิสัยทัศน์ที่สร้างสรรค์ของคุณมาสู่ชีวิตด้วยการสร้างภาพ วิดีโอ และเสียงด้วย AI ล่าสุดVdoo AI ให้คุณเข้าถึงเครื่องมือสร้างสรรค์ที่ทรงพลังที่สุดในแพลตฟอร์มที่ใช้งานง่ายแพลตฟอร์มเดียว ตั้งแต่ภาพบุคคลเหมือนจริงไปจนถึงเนื้อหาแบรนด์พร้อมข้อความที่ถูกต้อง Vdoo AI สร้างขึ้นสำหรับผู้สร้างที่ไม่ยอมประนีประนอมกับคุณภาพ ลองใช้ Vdoo AI ฟรีวันนี้ และดูว่ามีอะไรเป็นไปได้