Gmail อัพเกรดระบบกรองสแปมครั้งใหญ่ ดักอีเมลโฆษณาที่ใช้อีโมจิหรือสะกดผิดเพื่อหลบคีย์เวิร์ด
Google ประกาศอัพเกรดระบบตัวกรองอีเมลสแปมใน Gmail โดยใช้ระบบแยกแยะคำตัวใหม่ RETVec (Resilient & Efficient Text Vectorizer) ที่สามารถดักจับอีเมลโฆษณาที่มีการใช้อีโมจิหรือสะกดผิดเพื่อหลบคีย์เวิร์ดได้
ระบบแยกแยะคำตัวใหม่ RETVec
ระบบ RETVec เป็นโมเดลที่ถูกเทรนด้วยข้อมูลคำที่มีการดัดแปลงด้วยวิธีการต่าง ๆ เช่น เติม ลบ สะกดผิด ใช้อักขระพิเศษ แทนที่อักษรด้วยตัวเลข และวิธีอื่น ๆ ในอักขระ UTF-8 มากกว่า 100 ภาษา ระบบนี้สามารถเข้าใจและดักจับคำโฆษณาที่มีการดัดแปลงให้เป็นคำธรรมดาที่คนสามารถอ่านเข้าใจได้ แต่คอมพิวเตอร์อาจไม่สามารถเข้าใจได้
ตัวอย่างคำที่ใช้ในอีเมลโฆษณา
ตัวอย่างคำที่อีเมลโฆษณาใช้เพื่อหลบ RETVec ได้แก่ C0NGRATULATIONS (แทนที่ด้วยเลขศูนย์), Jᴀ̲ᴄ̲ᴋ̲pot ใส่ขีดเส้นใต้ให้จับคู่ด้วย Unicode ปกติไม่ได้ เป็นต้น
ข้อดีของ RETVec
- โมเดล RETVec มีความสามารถในการดักจับคำโฆษณาที่มีการใช้อีโมจิหรือสะกดผิดให้เข้าใจได้
- ขนาดของโมเดลไม่ใหญ่มากเนื่องจากไม่ต้องใช้รูปรายการคีย์เวิร์ดที่มีขนาดใหญ่
- กูเกิลเปิดเผยโมเดล RETVec นี้ให้เป็นโอเพนซอร์สที่ GitHub
สรุป
การอัพเกรดระบบตัวกรองอีเมลสแปมใน Gmail ด้วยระบบ RETVec ที่สามารถดักจับคำโฆษณาที่มีการใช้อีโมจิหรือสะกดผิดให้เข้าใจได้เป็นการอัพเกรดที่สำคัญและใหญ่โตที่สุดในรอบหลายปี โดยผู้ใช้งาน Gmail จะได้รับประสบการณ์ในการกรองอีเมลสแปมที่ดีขึ้นและมีประสิทธิภาพมากยิ่งขึ้น
References/Citations
Ars Technica: https://arstechnica.com/