ລະບົບກັ່ນຕອງສະແປມ (Spam) ອ່ານອີເມວຂອງທ່ານແນວໃດ?
ລະບົບກັ່ນຕອງສະແປມ (Spam) ອ່ານອີເມວຂອງທ່ານແນວໃດ? ຈຸດເລີ່ມຕົ້ນຂອງ NLP ສຳລັບທຸກຄົນ
ທ່ານເຄີຍສົງໄສບໍ່ວ່າ ເວລາທີ່ເຮົາເປີດອີເມວ (Email) ຂຶ້ນມາ, ເປັນຫຍັງຂໍ້ຄວາມສຳຄັນເຊັ່ນ: ການນັດໝາຍປະຊຸມກິນກາເຟໃນນະຄອນຫຼວງວຽງຈັນ ຫຼື ໃບບິນແຈ້ງໜີ້ຈາກບໍລິສັດຜູ້ສະໜອງສິນຄ້າ ຈຶ່ງຖືກຈັດລຽງຢູ່ໃນກ່ອງຂໍ້ຄວາມເຂົ້າ (Inbox) ຫຼັກ, ແຕ່ພວກອີເມວຫຼອກລວງທີ່ຂຽນວ່າ: “ທ່ານຄືຜູ້ໂຊກດີໄດ້ຮັບເງິນລາງວັນ 10 ລ້ານກີບ!” ຫຼື “ໂອນເງິນດ່ວນເພື່ອປົດບລັອກບັນຊີຂອງທ່ານ” ກັບຖືກຈັບໂຍນໄປໄວ້ໃນໂຟນເດີຂີ້ເຫຍື້ອ (Spam folder) ໂດຍອັດຕະໂນມັດ?
ນີ້ບໍ່ແມ່ນເລື່ອງບັງເອີນ, ແລະ ບໍ່ມີຄົນມາຄອຍນັ່ງອ່ານອີເມວແທນທ່ານ. ສິ່ງທີ່ຢູ່ເບື້ອງຫຼັງຄວາມສະຫຼາດນີ້ຄື ເຕັກໂນໂລຊີປັນຍາປະດິດ (AI) ທີ່ຊື່ວ່າ ການປະມວນຜົນພາສາທຳມະຊາດ (Natural Language Processing) ຫຼື ທີ່ເຮົາມັກເອີ້ນຫຍໍ້ໆວ່າ NLP.
ໃນບົດຄວາມນີ້, ເຮົາຈະມາໄຂຄວາມລັບກັນວ່າ NLP ຄືຫຍັງ ແລະ ມັນຊ່ວຍປົກປ້ອງເຮົາຈາກຂໍ້ຄວາມຂີ້ເຫຍື້ອເຫຼົ່ານີ້ແນວໃດ.
NLP: ການສອນໃຫ້ຄອມພິວເຕີເຂົ້າໃຈ “ພາສາຄົນ”
ຖ້າຈະອະທິບາຍໃຫ້ເຂົ້າໃຈງ່າຍໆ, ສຳລັບຄອມພິວເຕີແລ້ວ ມັນເຂົ້າໃຈພຽງແຕ່ຕົວເລກ 0 ແລະ 1 ເທົ່ານັ້ນ. ມັນບໍ່ຮູ້ຈັກດອກວ່າຄຳວ່າ “ສະບາຍດີ” ຫຼື “ໂອນເງິນດ່ວນ” ມີຄວາມໝາຍວ່າແນວໃດ.
NLP (Natural Language Processing) ແມ່ນສາຂາໜຶ່ງຂອງເຕັກໂນໂລຊີປັນຍາປະດິດ (AI) ທີ່ເຮັດໜ້າທີ່ເປັນຄືກັບ “ນັກແປພາສາ” ລະຫວ່າງມະນຸດກັບຄອມພິວເຕີ. ມັນຄືວິທີການສອນໃຫ້ຄອມພິວເຕີສາມາດ ອ່ານ, ເຂົ້າໃຈ, ແລະ ແປຄວາມໝາຍຂອງພາສາທີ່ມະນຸດເຮົາໃຊ້ລົມກັນໃນຊີວິດປະຈຳວັນ. ປຽບເໝືອນການທີ່ພໍ່ແມ່ຄ່ອຍໆສອນໃຫ້ລູກນ້ອຍຮູ້ຈັກຄວາມໝາຍຂອງແຕ່ລະຄຳສັບ.
ແລ້ວຄອມພິວເຕີຮູ້ໄດ້ແນວໃດວ່າ ອັນໃດຄືອີເມວແທ້, ອັນໃດຄື Spam?
ເມື່ອມີອີເມວສົ່ງເຂົ້າມາຫາທ່ານ, ລະບົບກັ່ນຕອງສະແປມຈະເຮັດວຽກຄືກັບຕຳຫຼວດສືບສວນ ໂດຍມີຂັ້ນຕອນດັ່ງນີ້:
1. ການຈັບຜິດຈາກຄຳສັບ (Keyword Scanning)
ແທນທີ່ລະບົບຈະອ່ານແຕ່ລະຄຳແບບຜ່ານໆ, NLP ຈະເລີ່ມຊອກຫາ “ຄຳສັບຕ້ອງຫ້າມ” ທີ່ກຸ່ມຄົນຮ້າຍມັກໃຊ້. ຕົວຢ່າງເຊັ່ນ:
- ຄຳທີ່ກະຕຸ້ນໃຫ້ເກີດຄວາມໂລບ: “ໄດ້ເງິນຟຣີ”, “ລາງວັນໃຫຍ່”, “ຖືກຫວຍ”, “ດອກເບ້ຍສູງ”.
- ຄຳທີ່ສ້າງຄວາມຕື່ນຕົກໃຈ: “ດ່ວນທີ່ສຸດ”, “ບັນຊີຖືກລະງັບ”, “ແຈ້ງເຕືອນຄັ້ງສຸດທ້າຍ”. ຖ້າໃນລະບົບກວດພົບຄຳເຫຼົ່ານີ້ຫຼາຍເກີນໄປ ມັນຈະເລີ່ມສົງໄສທັນທີ.
2. ການເຂົ້າໃຈບໍລິບົດ (Context Understanding)
ແຕ່ລະບົບນີ້ບໍ່ໄດ້ຈື່ພຽງແຕ່ຄຳສັບຕາຍຕົວ ເພາະ NLP ສະຫຼາດພໍທີ່ຈະຮູ້ຈັກ “ບໍລິບົດ”. ຕົວຢ່າງ: ໝູ່ຂອງທ່ານອາດຈະສົ່ງອີເມວມາຫາແລ້ວເວົ້າວ່າ “ມື້ວານຊື້ເລກ ຖືກຫວຍແດ່ ເລີຍຊິລ້ຽງຕຳໝາກຫຸ່ງດ່ວນໆເລີຍ”.
ລະບົບຮູ້ວ່າຄຳວ່າ “ຖືກຫວຍ” ແລະ “ດ່ວນ” ໃນປະໂຫຍກນີ້ ແມ່ນການລົມກັນທຳມະດາລະຫວ່າງໝູ່ເພື່ອນ ໂດຍການວິເຄາະຮູບແບບປະໂຫຍກໄປພ້ອມໆກັນ ໂດຍບໍ່ໄດ້ເບິ່ງແຕ່ຄຳສັບດ່ຽວໆ.
3. ການຮຽນຮູ້ແລະປັບຕົວ (Machine Learning Process)
ທຸກໆຄັ້ງທີ່ທ່ານເຫັນອີເມວແປກໆ ແລ້ວກົດປຸ່ມ “Report as Spam” (ລາຍງານວ່າເປັນຂີ້ເຫຍື້ອ), ໃຜຊິຮູ້ວ່າ ທ່ານກຳລັງສອນ AI ຢູ່! ລະບົບຈະຈື່ໄວ້ວ່າ ໂຄງສ້າງພາສາແບບນີ້ທາງໃນອີເມວ ແມ່ນລັກສະນະຂອງສະແປມ. ຍິ່ງມີຄົນໃຊ້ງານແລະລາຍງານຫຼາຍ, ມັນກໍຍິ່ງສະຫຼາດຂຶ້ນ ທັນຕໍ່ກົນໂກງໃໝ່ໆສະເໝີ.
ຄວາມທ້າທາຍຂອງ NLP ໃນບໍລິບົດພາສາລາວ
ເຖິງແມ່ນວ່າ NLP ຈະເກັ່ງຫຼາຍໃນພາສາອັງກິດ, ແຕ່ສຳລັບພາສາລາວເຮົາການເອົາ NLP ມາໃຊ້ງານຍັງເປັນສິ່ງທ້າທາຍຢ່າງຍິ່ງ (Challenge). ເຫດຜົນຫຼັກໆກໍຄື:
- ອຸປະສັກການບໍ່ຍະຫວ່າງຄຳສັບ: ຄົນລາວເຮົາຂຽນໜັງສືຕິດກັນຍາວໆ ໂດຍບໍ່ມີຍະຫວ່າງ (Space) ລະຫວ່າງຄຳສັບ (ຕ່າງຈາກພາສາອັງກິດ). ສະນັ້ນ, ຄອມພິວເຕີຕ້ອງມາຮຽນຮູ້ການ “ຕັດຄຳ” (Word Tokenization) ໃຫ້ຖືກຕ້ອງ ເຊັ່ນ “ຕາກລົມ” ກັບ “ຕາກົມ”. ຕົວຢ່າງ: ຖ້າມີຂໍ້ຄວາມຫຼອກລວງເຂົ້າມາທາງ SMS/WhatsApp ເລື່ອງການປ່ອຍເງິນກູ້, ລະບົບຕ້ອງບອກໃຫ້ໄດ້ກ່ອນວ່າຄຳສັບໃດແຍກກັນ.
- ພາສາປາກເວົ້າທີ່ປ່ຽນໄປເລື້ອຍໆ: ຄົນລາວມັກຂຽນຄຳສັບແບບສະແລງ ຫຼື ໃຊ້ພາສາທ້ອງຖິ່ນ ເຊັ່ນ “ກະໄດ້”, “ຊິໄປສີເກີດ”, ຊຶ່ງເຮັດໃຫ້ AI ຕ້ອງມີຖານຂໍ້ມູນຄຳສັບ (Dictionary) ທີ່ໃຫຍ່ແລະຖືກນຳມາປັບປຸງໃໝ່ຕະຫຼອດເວລາ.
ຢ່າງໃດກໍຕາມ, ໃນປັດຈຸບັນ ກຸ່ມທຸລະກິດຂະໜາດກາງແລະຂະໜາດນ້ອຍ (SMEs) ລວມທັງອົງກອນຕ່າງໆໃນລາວ ກໍເລີ່ມນຳໃຊ້ເຄື່ອງມືທີ່ຮອງຮັບພາສາລາວໄດ້ດີຂຶ້ນເລື້ອຍໆແລ້ວ ຊຶ່ງເປັນທິດທາງທີ່ສົດໃສຫຼາຍ.
ສິ່ງສຳຄັນທີ່ຄວນຈື່ (Key Takeaways)
- NLP (Natural Language Processing) ແມ່ນເຕັກໂນໂລຊີມະຫັດສະຈັນທີ່ຊ່ວຍໃຫ້ຄອມພິວເຕີເຂົ້າໃຈ ແລະ ອ່ານພາສາຂອງມະນຸດໄດ້.
- ການກັ່ນຕອງສະແປມເຮັດວຽກແບບອັດສະລິຍະ: ມັນບໍ່ພຽງແຕ່ຊອກຫາຄຳສັບ (Keywords) ແຕ່ຍັງອ່ານບໍລິບົດຂອງປະໂຫຍກ (Context) ເພື່ອແຍກແຍະລະຫວ່າງອີເມວຈິງ ກັບ ອີເມວຫຼອກລວງ.
- ທ່ານຄືຄູສອນຂອງ AI: ເມື່ອທ່ານກົດລາຍງານ (Report Spam), ທ່ານກຳລັງຝຶກໃຫ້ລະບົບສະຫຼາດຂຶ້ນໃນທຸກໆມື້.
- ພາສາລາວຄືຄວາມທ້າທາຍໃໝ່: ການຂຽນໜັງສືແບບບໍ່ຍະຫວ່າງ ເຮັດໃຫ້ການພັດທະນາ NLP ໃນລາວ ຕ້ອງຮຽນຮູ້ເລື່ອງການຕັດຄຳ (Tokenization) ເປັນອັນດັບທຳອິດ.
ສະຫຼຸບ
ເຕັກໂນໂລຊີ AI ແລະ NLP ບໍ່ແມ່ນເລື່ອງໄກຕົວ ຫຼື ມີແຕ່ໃນຮູບເງົາວິທະຍາສາດອີກຕໍ່ໄປ, ແຕ່ມັນເປັນສິ່ງທີ່ຄອຍປົກປ້ອງເຮົາຢ່າງງຽບໆຢູ່ເບື້ອງຫຼັງທຸກໆຄັ້ງທີ່ເຮົາເປີດເບິ່ງອີເມວ ຫຼື ຂໍ້ຄວາມຕ່າງໆ. ການເຂົ້າໃຈວິທີການເຮັດວຽກພື້ນຖານຂອງມັນ ບໍ່ພຽງແຕ່ຊ່ວຍໃຫ້ເຮົາຕາມທັນເຕັກໂນໂລຊີ ແຕ່ຍັງຊ່ວຍໃຫ້ເຮົາສາມາດນຳໃຊ້ດິຈິຕອນເຫຼົ່ານີ້ໄດ້ຢ່າງປອດໄພ ແລະ ມີປະສິດທິພາບຫຼາຍຂຶ້ນໃນຍຸກສະໄໝໃໝ່ນີ້.