"Genie 2" ปัญญาประดิษฐ์ของ Google DeepMind สร้างโลกสามมิติแบบโต้ตอบที่ซับซ้อนจากภาพเดียว

วันศุกร์ที่ 6 ธันวาคม พ.ศ. 2567
image

 

Google DeepMind ได้นำเสนอ "Genie 2" ซึ่งสามารถสร้างสภาพแวดล้อม 3 มิติแบบมีปฏิสัมพันธ์จากภาพเพียงใบเดียว โดยมีวัตถุประสงค์เพื่อใช้ฝึกหัดเอเจนต์ AI

 

DeepMind ได้เปิดตัว "Genie 2" ซึ่งเป็นรุ่นต่อไปของปัญญาประดิษฐ์สำหรับสร้างโลกเกม โมเดลนี้ซึ่งเรียกว่า "Foundation World Model" จะสามารถสร้างสภาพแวดล้อม 3 มิติที่ซับซ้อนได้เป็นจำนวนมากจากภาพเพียงใบเดียว ซึ่งเอเจนต์ AI จะสามารถฝึกหัดและทดสอบแบบมีปฏิสัมพันธ์

 

โลก 3 มิติที่สร้างขึ้นโดย Genie 2 สามารถสำรวจได้ทั้งโดยมนุษย์และเอเจนต์ AI โดยใช้แป้นพิมพ์และเมาส์ ในวิดีโอสาธิตที่นำเสนอบนหน้าโครงการ ระบบนี้แสดงความสามารถขั้นสูงหลายประการ: มันจำลองผลกระทบทางกายภาพ เช่น แรงโน้มถ่วง ควันและการสะท้อนของน้ำ รักษาความสอดคล้องของสภาพแวดล้อม และยังสามารถจำลองพฤติกรรมของตัวละครที่ควบคุมโดยคอมพิวเตอร์ (NPC)

 

Genie 2 ทางเทคนิคแล้วเป็นโมเดลการแพร่กระจายแฝง (latent diffusion) แบบ autoregressive ที่ทีมวิจัยได้ฝึกฝนด้วยชุดข้อมูลวิดีโขขนาดใหญ่ ระบบนี้สามารถรักษาโลกที่สร้างขึ้นได้อย่างสม่ำเสมอเป็นเวลานานถึงหนึ่งนาที โดยตัวอย่างส่วนใหญ่บนเว็บไซต์มีความยาว 10 ถึง 20 วินาที

 

 

"Genie 2" สร้างภาพวิดีโอจากภาพนิ่ง ซึ่งจะถูกประมวลผลในโมเดลทรานสฟอร์มเมอร์ขนาดใหญ่โดยใช้ออโตเอนโคเดอร์ วิธีที่เรียกว่า "classifier-free guidance" ช่วยปรับปรุงการควบคุมการกระทำที่สร้างขึ้น ตามนักพัฒนา ตัวอย่างที่แสดงเป็นโมเดลที่ยังไม่ถูกบีบอัด เพื่อแสดงให้เห็นถึงความเป็นไปได้ โมเดลที่ถูกบีบอัดสามารถใช้งานในเวลาจริงได้ แต่มีคุณภาพต่ำลง (ภาพจาก Deepmind)

 

จาก 2D สู่โลก 3D ที่ซับซ้อน

ความก้าวหน้าเมื่อเทียบกับรุ่นก่อนหน้านี้มีนัยสำคัญ "Genie" ที่นำเสนอในเดือนมีนาคมนั้นจำกัดอยู่ที่เกมแพลตฟอร์ม 2D ในสไตล์ Super Mario Bros. โมเดลในขณะนั้นได้รับการฝึกฝนโดยเฉพาะกับวัสดุวิดีโอ (30,000 ชั่วโมงจากเกมหลายร้อยเกม) และไม่มีการกำหนดการกระทำนำเข้าล่วงหน้า อย่างไรก็ตาม ระบบยังทำงานช้ามาก ด้วยเฟรมเพียงหนึ่งเฟรมต่อวินาที

 

ตามที่ DeepMind กล่าว เวอร์ชันที่ยังไม่ได้เพิ่มประสิทธิภาพของ Genie 2 สามารถทำงานในเวลาจริงด้วยคุณภาพที่ลดลงแล้ว ซึ่งคล้ายคลึงกับการทดลองก่อนหน้านี้ เช่น GameNGen ของ Google ที่สามารถจำลอง "Doom" โดยไม่ใช้เอนจิน - แม้ว่าระบบนี้จะจำกัดอยู่เฉพาะเกมใดเกมหนึ่ง

 

เครื่องมือสำหรับการฝึกหัด AI

หนึ่งในเป้าหมายหลักของ Genie 2 คือการฝึกหัดเอเจนต์ AI DeepMind สาธิตนี้ด้วยเอเจนต์ SIMA (Scalable Instructable Multiworld Agent) ซึ่งสามารถปฏิบัติตามคำสั่งในสภาพแวดล้อมที่สร้างขึ้น

 

ด้วย Genie 2 ทีมวิจัยหวังที่จะแก้ปัญหาโครงสร้างในการฝึกหัดเอเจนต์เสมือนที่ฉลาด (embodied agents) และบรรลุความกว้างและความทั่วไปที่จำเป็นสำหรับความก้าวหน้าไปสู่ปัญญาประดิษฐ์ทั่วไป (AGI)

 

แต่กระนั้น DeepMind ยังคงมีอุปสรรคบางประการที่ต้องก้าวข้าม: คุณภาพของผลลัพธ์มีความผันผวนอย่างมากในบางครั้ง และความสอดคล้องของสภาพแวดล้อมเสมือนจะต้องได้รับการปรับปรุงเพิ่มเติมสำหรับการโต้ตอบที่ยาวนานขึ้น
 

 

แหล่งที่มา : https://www.heise.de/en/news/DeepMind-s-AI-Genie-2-creates-complex-interactive-3D-worlds-from-single-image-10190112.html