ทดสอบ ChatGPT ด้วยโจทย์เลข และภาษาไทย อะไรจะเกิดขึ้น ?!

ทดสอบ ChatGPT ด้วยโจทย์เลข และภาษาไทย

อะไรจะเกิดขึ้น ?!

*เปิดตัวแล้ว วันที่ 30 พฤศจิกายนที่ผ่านมา หรือวันที่ 1 ธันวาคมเวลาบ้านเรา*

30 พฤศจิกายนที่ผ่านมา OpenAI เพิ่งเปิดตัว ChartGPT แชทบอทที่ถือว่าทันสมัยและล้ำหน้าที่สุดในโลก โดยใช้โมเดลภาษาตัวใหม่ GPT เวอร์ชัน 3.5 นี้

จุดเด่นคือ “คิดก่อนตอบ” ได้เก่งขึ้น แก้ไขปัญหาภาษาที่ไม่เหมาะสม (alignment problem) ที่อาจรุนแรงและละเมิดได้ เข้าใจบริบทของวัฒนธรรม ความเชื่อ/ศรัทธาของมนุษย์แต่ละกลุ่มมากขึ้น นอกจากนี้ เพื่อแก้ปัญหาเรื่องแหล่งที่มาข้อมูลเดิมของโมเดลภาษา GPT-3.0 ซึ่งอาจรวบรวมมาจากแหล่งข้อมูลที่มีลิขสิทธิ์

บริษัทผู้พัฒนาแชทบอทล้ำยุคนี้ หรือ OpenAI ก่อตั้งในปี 2015 โดย Sam Altman และ Elon Musk (ปี 2018 อีลอน มัสก์ ลาออกจากคณะกรรมการบริษัทนี้ไปแล้วเพื่อกู้ฐานะธุรกิจที่ SpaceX และ Tesla ซึ่งตอนนั้นกำลังอยู่ในช่วงวิกฤติ อย่างไรก็ตาม ออฟฟิศของ OpenAI ยังแชร์ใช้บางส่วนของสำนักงาน Tesla อยู่)

OpenAI เดิมเป็นบริษัทที่ไม่หวังผลกำไร แต่เปลี่ยนนโยบายเป็นบริษัทที่ “หวังผลกำไรแบบจำกัด” (capped-profit organization) ในปี 2019 เพื่อแก้ปัญหาเงินทุนไม่พอจน ต้องระดมทุนระดับพันล้านเหรียญสหรัฐไปแล้ว 3 รอบ โดยรอบล่าสุด ไมโครซอฟท์ให้เงินสนับสนุนไป 1 พันล้านเหรียญสหรัฐ (แลกกับสิทธิ์การเข้าถึงซอร์ซโค้ด GPT-3 ได้) อนึ่ง GPT-2 ยังคงเป็น open-source หรือเปิดให้ดูให้ใช้ซอร์ซโค้ดได้ฟรี แต่ GPT-3 ไม่ได้เป็น open-source เปิดให้ใช้งานฟรีระยะแรกก่อนเก็บเงิน (ใช้โมเดลธุรกิจแบบ freemium)

ChatGPT เป็นการสาธิตใช้โมเดล GPT-3.5 (นั่นแสดงว่า คงใกล้เปิดตัว GPT เวอร์ชัน 4 แล้ว ซึ่งทุกคนในวงการเฝ้ารอคอย) โมเดลนี้ใช้อัลกอริทึม Proximal Policy Optimization (PPO) กับ Reinforcement Learning from Human Feedback (RLHF) ปัจจุบันโมเดลนี้ เปิดให้บริการฟรีแล้วผ่านเว็บไซต์ OpenAI (https://chat.openai.com/chat) เพื่อทดสอบและสาธิต ผมเลยเข้าไปทดสอบการทำงานดู

*ลองแชทถามเรื่องอาหารไทยที่ขึ้นชื่อระดับโลก*

คราวนี้มาลองภาษาไทยบ้าง โดยเป็นเรื่องเดียวกัน

เรื่องเดียวกัน แต่ตอบสั้นมาก และไม่เหมือนภาษาอังกฤษ, ส้มตำ กับผัดไทย ก็ไม่มี …แสดงว่า สอนกันมาแบบ “คนละเล่ม” คนละเนื้อหา แต่คำสะกดคำถูก เรียบเรียงประโยคถูก ยกเว้นตอนท้าย มีการ “เบิ้ลวลี” แบบภาษาพูดของวัยรุ่นมากไปหน่อย

ลองถามเรื่องประวัติศาสตร์สยาม

ประวัติศาสตร์ชาติสยาม เริ่มมาตั้งแต่อาณาจักรฟูนัน

เนื้อหาไม่เหมือนคำถามภาษาอังกฤษ แล้วเพิ่งรู้ว่า “บุรุษจีน สกุลพระจักรพงศ์” ซึ่งไม่เคยรู้มาก่อน, ที่น่าสังเกต คำตอบหยุดไปเฉยๆ (OpenAI เกริ่นไว้แล้วว่า จะจำกัดจำนวนตัวอักษรที่จะตอบ เพราะอยู่ในช่วงทดสอบ)

ลองดูคำถามคณิตศาสตร์แบบโจทย์ยาวๆ กันบ้าง

คณิตศาสตร์โจทย์คำพูดยาวๆ พบว่า**ตอบคำถามประโยคซับซ้อนได้ดี**

ลองถามเป็นภาษาไทยบ้าง ดูว่าจะตอบว่าอย่างไร

คำตอบที่ว่า 50 + 30 + 50 **ดูเหมือนจะสลับที่หน่อย** แต่ตอบถูกเหมือนโจทย์ภาษาอังกฤษ

แต่บางคำถามแบบง่ายๆ อาจจะตอบไม่ถูก เช่น

ลองอีกคำถามหนึ่ง โจทย์เลขที่ยากขึ้นอีกหน่อย

ลองถามด้วยภาษาไทย เรื่องอื่นๆ บ้าง

เท่าที่ทดสอบ ChatGPT มาสักพัก พบว่า ตอบคำถามได้ระมัดระวังรอบคอบมากขึ้น ตอบคำถามที่เซนซิทีฟได้ดี วิธีการตอบคำถามพัฒนาไปมากโดยเฉพาะคำถามชนิดประโยคยาวๆ และซับซ้อน และคำถามเชิงคณิตศาสตร์ ลูกเล่นในการตอบอาจจะยังไม่มีสีสันเหมือนกับ SIRI ที่ตอบได้คมคายและไม่น่าเบื่อ แต่ก็อย่างที่ OpenAI ประกาศ ว่าขณะนี้ยังอยู่ในช่วงการทดสอบ คงต้องให้เวลาอีกสักพัก

ยังมีข้อจำกัดที่เหลือเชื่อ และเป็นความผิดพลาดหากจะอิงคำตอบจาก ChatGPT เป็นคำตอบ อ้างอิงทวิตจาก Sam Altman CEO ของ OpenAI

เรื่อง AI Chat Bot ไม่ใช่เรื่องใหม่ แต่เป็นเรื่องใหญ่ทุกครั้งที่เปิดตัว นั่นคือเรื่องความฉลาดในการตอบคำถามที่เหมาะสม แม้จะเป็นข้อเท็จจริง ตัวอย่างแชทบอทที่เคยเปิดตัวมาก่อนหน้านี้ แล้วเกิดปัญหา เช่น Tay (เทย์) เอไอแชทบอทจากไมโครซอฟท์ เปิดตัวปี 2016 เปิดได้แค่ 16 ชั่วโมงก็ต้องปิด เพราะมีปัญหาเรื่องการโต้ตอบด้วยถ้อยคำรุนแรงและละเมิด (ผิว เชื้อชาติ ศาสนาและความเชื่อ) ส่วนเฟซบุ๊ค ก็เคยเปิดตัว Galactica เอไอแชทบอทเหมือนกัน เปิดสาธิตได้แค่ 2 วันก็ต้องปิดตัวไป

การทำแชทบอทที่เก่งคิด ทันรู้ ทันคน ตอบคำถามได้ชาญฉลาด ไม่ละเมิดเหยียดผิวและความเชื่อ เป็นเรื่องที่วงการ AI กำลังพัฒนากันอย่างจริงจัง ไม่แน่ ในอนาคตอันใกล้นี้ เราอาจจะเห็นฝ่ายประชาสัมพันธ์ของแต่ละบริษัท หรือโฆษกแต่ละประเทศเป็น AI แชทบอทแบบนี้..ก็เป็นได้

ติดตามบทความ AI.Neuro.Pal ได้ที่

Facebook: www.facebook.com/ai.neuro.pal

Twitter: https://twitter.com/AiNuero

Medium: https://medium.com/@AiNeuroPal

ค้นหาบล็อกนี้

AI.Neuro.Pal