ChatGPT อัปเกรดครั้งใหญ่ ผสานพลัง GPT-4o สร้างภาพสวยขึ้น สั่งรายละเอียดได้ลึกกว่าเดิม แก้ไขเฉพาะจุดได้ แถมเรียนรู้ได้จากภาพตัวอย่าง เปิดให้ใช้แล้ววันนี้
OpenAI ประกาศการอัปเดตครั้งสำคัญสำหรับเครื่องมือสร้างภาพบน ChatGPT โดยผสานขุมพลังของโมเดลเรือธงล่าสุด GPT-4o เข้ามาโดยตรงในฟีเจอร์ "Images"
การอัปเกรดครั้งนี้ไม่เพียงแต่ให้ภาพที่สวยงามกว่าเดิม แต่ยังมอบความสามารถในการควบคุมรายละเอียดให้ตรงตามความต้องการของผู้ใช้ได้อย่างที่ไม่เคยมีมาก่อน
เข้าสู่ระบบ ChatGPT : เปิดใช้งาน ChatGPT ผ่านเว็บไซต์หรือแอปพลิเคชัน แล้วล็อกอินเข้าสู่บัญชีของคุณ
เริ่มพิมพ์คำสั่ง (Prompt) : ไปที่ช่องแชทที่คุณใช้พิมพ์คุยกับ ChatGPT ตามปกติ
อธิบายภาพที่ต้องการ : พิมพ์อธิบายสิ่งที่คุณอยากให้ ChatGPT สร้างเป็นภาพ ยิ่งละเอียด ยิ่งดี! ลองบอกรายละเอียด เช่น:
วัตถุหลัก : คน สัตว์ สิ่งของ สถานที่ คืออะไร?
ลักษณะ : หน้าตา ท่าทาง การกระทำ เสื้อผ้า เป็นอย่างไร?
องค์ประกอบ : มีอะไรอยู่ในฉากหลัง? มีวัตถุอื่นๆ อีกไหม?
สี/แสง : อยากได้โทนสีแบบไหน? แสงกลางวัน กลางคืน?
สไตล์ : อยากได้ภาพแบบไหน? (เช่น ภาพถ่ายสมจริง, ภาพวาดสีน้ำ, การ์ตูนอนิเมะ, ภาพพิกเซลอาร์ต, ภาพขาวดำ)
ข้อความ : อยากให้มีคำว่าอะไรปรากฏในภาพ? อยู่ตรงไหน?
ตัวอย่างการ Prompt : "สร้างภาพแมวสามสีขนฟูกำลังนอนหลับสบายบนกองหนังสือเก่าๆ ข้างหน้าต่าง แสงแดดอ่อนๆ ส่องเข้ามา สไตล์ภาพวาดสีน้ำ"
กดส่งและรอ : กดส่งข้อความคำสั่งของคุณ ChatGPT จะใช้เวลาสักครู่ (อาจจะนานกว่าตอบข้อความปกติเล็กน้อย) เพื่อประมวลผลและสร้างภาพให้คุณ
แต่สำหรับภาษาไทย จากการทดลองใช้งานจริง ยังคงพบปัญหาข้อความที่แสดงผลออกมามีความผิดเพี้ยนหรือไม่ถูกต้องอยู่บ้าง เช่น ตัวอักษรขาดหายหรือสลับตำแหน่ง, สระและวรรณยุกต์ผิดพลาด, ตัวอักษรผิดรูป, การเว้นวรรค
หัวใจสำคัญของการปรับปรุงนี้อยู่ที่แนวทางการทำงานของ GPT-4o ซึ่งเป็นโมเดลที่ "ค่อย ๆ คิดเป็นขั้นตอน" (step-by-step thinking)
ทำให้การสร้างและปรับแต่งภาพมีความยืดหยุ่นสูง สามารถกำหนดรายละเอียดปลีกย่อย หรือสั่งแก้ไขเฉพาะส่วนได้ดีกว่า DALL-E ซึ่งเป็นเครื่องมือสร้างภาพตัวเดิมที่มักจะสร้างภาพทั้งภาพในคราวเดียว
นาย Gabriel Goh หัวหน้าฝ่ายวิจัยของ OpenAI กล่าวว่านี่คือ "ก้าวกระโดดที่เหนือกว่าโมเดลรุ่นก่อนๆ" โดยความสามารถที่โดดเด่นและได้รับการปรับปรุงใน GPT-4o เวอร์ชันนี้ ได้แก่
ChatGPT-4o ได้ช่วยแก้ปัญหาคลาสสิกของ AI สร้างภาพเรื่องตัวหนังสือเพี้ยนได้อย่างมีประสิทธิภาพ ทำให้ข้อความในภาพอ่านง่าย ถูกต้องตามบริบท ซึ่งสำคัญอย่างยิ่งต่อการนำภาพไปใช้งานจริง
OpenAI เปิดเผยว่าข้อมูลที่ใช้ฝึกฝนเครื่องมือสร้างภาพชุดนี้ มาจากแหล่งข้อมูลที่เผยแพร่แบบสาธารณะ รวมถึงข้อมูลจากพาร์ตเนอร์เชิงกลยุทธ์อย่าง Shutterstock ซึ่งเป็นคลังภาพรายใหญ่
สำหรับผู้ที่สนใจทดลองใช้งาน เครื่องมือสร้างภาพใหม่บนโมเดล GPT-4o นี้ เริ่มเปิดให้อัปเดตและใช้งานแล้วตั้งแต่วันนี้ ผ่าน ChatGPT สำหรับผู้ใช้ในแผน Plus, Pro, และ Team
ส่วนผู้ใช้ฟรีก็จะสามารถเข้าถึงได้เช่นกันแต่จะมีจำนวนจำกัดต่อวัน สำหรับลูกค้าองค์กรและสถาบันการศึกษา จะมีการอัปเดตตามมาในภายหลัง
น่าสนใจว่า ผู้ใช้ยังสามารถเรียกใช้งานความสามารถนี้ผ่าน Sora ซึ่งเป็นโมเดลสร้างวิดีโอของ OpenAI ได้ด้วย สำหรับผู้ที่ยังต้องการใช้ DALL-E เวอร์ชันเดิม
ก็ยังสามารถเรียกใช้งานผ่าน Custom GPT ที่ชื่อว่า "DALL-E" ได้ตามปกติ ส่วนนักพัฒนาที่ต้องการนำความสามารถนี้ไปต่อยอด จะสามารถเข้าถึงได้ผ่าน API ในอีกไม่กี่สัปดาห์ข้างหน้า
แม้ระบบใหม่นี้อาจใช้เวลาประมวลผลนานขึ้นเล็กน้อย แต่ Jackie Shannon หัวหน้าฝ่ายผลิตภัณฑ์ Multimodal ยืนยันว่าคุณภาพ ความสามารถในการควบคุมรายละเอียด และความรู้รอบโลกที่เพิ่มเข้ามานั้น คุ้มค่ากับการรอคอย
ด้านความปลอดภัย OpenAI ยังคงให้ความสำคัญ โดยมีมาตรการป้องกันการใช้งานในทางที่ผิด และใช้ metadata มาตรฐาน C2PA เพื่อระบุแหล่งที่มาของภาพ แม้จะไม่มีลายน้ำที่มองเห็นได้ก็ตาม ผู้ใช้ยังคงเป็นเจ้าของภาพที่สร้างขึ้นภายใต้นโยบายการใช้งาน
การอัปเกรดนี้ไม่ใช่แค่การปรับปรุงคุณภาพ แต่เป็นการปฏิวัติการควบคุมและความยืดหยุ่นในการสร้างสรรค์ด้วย AI อย่างแท้จริง การที่ GPT-4o สามารถ "คิดเป็นขั้นตอน" ได้ปลดล็อกความสามารถในการสั่งงานที่ละเอียด การแก้ไขเฉพาะจุด และการเรียนรู้จากตัวอย่าง ซึ่งเป็นสิ่งที่ผู้ใช้เรียกร้องมานาน
นี่คือก้าวสำคัญที่ตอกย้ำศักยภาพของ AI ในฐานะเครื่องมือช่วยสร้างสรรค์ที่ทรงพลังและปรับเปลี่ยนได้ตามจินตนาการของผู้ใช้อย่างแท้จริง
ที่มา : OpenAI