Doctor AI

Dr. Savath Saypadith

240 ບົດຄວາມ

ຄວາມສຳຄັນຂອງການແບ່ງປັນຖານຂໍ້ມູນພາສາລາວ (Open-Source Lao Text Corpora) ເພື່ອພັດທະນາ AI

ໂພສເມື່ອ # AI ສຳລັບຜູ້ເລີ່ມຕົ້ນ # Natural Language Processing # Open Source # ພາສາລາວ

ຄວາມສຳຄັນຂອງການແບ່ງປັນຖານຂໍ້ມູນພາສາລາວ (Open-Source Lao Text Corpora) ເພື່ອພັດທະນາ AI ໃຫ້ກ້າວໜ້າ

ທ່ານເຄີຍພິມຖາມ ChatGPT ຫຼື ໃຊ້ Google Translate ແປພາສາລາວ ແລ້ວຮູ້ສຶກວ່າຄຳຕອບທີ່ໄດ້ມັນແປກໆ, ຄືກັບຫຸ່ນຍົນເວົ້າ ຫຼື ບາງຄັ້ງກໍບໍ່ຖືກຕ້ອງກັບບໍລິບົດຂອງຄົນລາວເລີຍບໍ່?

ສາເຫດທີ່ເປັນແບບນັ້ນ ບໍ່ແມ່ນຍ້ອນວ່າ AI ບໍ່ສະຫຼາດ, ແຕ່ເປັນເພາະມັນຍັງ “ອ່ານໜັງສືລາວ” ບໍ່ຫຼາຍພໍ. ໃນໂລກຂອງເຕັກໂນໂລຊີປັນຍາປະດິດ (AI) ໂດຍສະເພາະຂະແໜງ ການປະມວນຜົນພາສາທຳມະຊາດ ຫຼື ທີ່ເອີ້ນຫຍໍ້ວ່າ NLP (Natural Language Processing) ເຊິ່ງເປັນເຕັກໂນໂລຊີທີ່ຊ່ວຍໃຫ້ຄອມພິວເຕີເຂົ້າໃຈ, ອ່ານ ແລະ ຕອບໂຕ້ພາສາຂອງມະນຸດໄດ້ນັ້ນ, ຂໍ້ມູນແມ່ນສິ່ງທີ່ສຳຄັນທີ່ສຸດ.

ມື້ນີ້, ເຮົາຈະມາທຳຄວາມເຂົ້າໃຈກັນວ່າ ເປັນຫຍັງ “ຖານຂໍ້ມູນພາສາແບບເປີດກວ້າງ” ຫຼື Open-Source Text Corpora ຈຶ່ງເປັນກຸນແຈສຳຄັນທີ່ຈະຊ່ວຍໃຫ້ AI ເຂົ້າໃຈພາສາລາວໄດ້ຢ່າງເລິກເຊິ່ງ ແລະ ເປັນຫຍັງນັກພັດທະນາລາວຈຶ່ງຕ້ອງຮ່ວມມືກັນແບ່ງປັນຂໍ້ມູນເຫຼົ່ານີ້.

Text Corpus ແມ່ນຫຍັງ? ແລະ ເປັນຫຍັງ AI ຈຶ່ງຕ້ອງການມັນ?

ສຳລັບຜູ້ເລີ່ມຕົ້ນ, ຄຳວ່າ Text Corpus (ຫຼື ພະຫຸພົດເອີ້ນວ່າ Corpora) ແປກົງໆກໍຄື “ຄັງຖານຂໍ້ມູນຂໍ້ຄວາມ”. ຊ່ວງທີ່ເຮົາຍັງນ້ອຍ ເວລາເຂົ້າໂຮງຮຽນ ເຮົາຕ້ອງອ່ານປຶ້ມແບບຮຽນ, ຟັງຄູສອນ ແລະ ລົມກັບໝູ່ ເພື່ອຮຽນຮູ້ຄຳສັບ ແລະ ໄວຍາກອນ.

AI ກໍເຮັດວຽກຄ້າຍຄືກັນ. ມັນບໍ່ໄດ້ເກີດມາແລ້ວເວົ້າພາສາລາວໄດ້ເລີຍ. ມັນຈຳເປັນຕ້ອງມີ “ປຶ້ມ” ຫຼື ຖານຂໍ້ມູນຂໍ້ຄວາມຈຳນວນມະຫາສານ (Corpus) ເພື່ອໃຫ້ມັນຝຶກອ່ານ. ຖ້າ AI ໄດ້ອ່ານປະໂຫຍກພາສາລາວຫຼາຍລ້ານປະໂຫຍກ ມັນກໍຈະເລີ່ມເຂົ້າໃຈວ່າ ຄຳວ່າ “ໄປໃສ” ມັກຈະໃຊ້ທັກທາຍກັນ, ຫຼື “ແຊບຫຼາຍ” ໝາຍເຖິງອາຫານທີ່ຖືກປາກ.

ແລ້ວຄຳວ່າ Open-Source ເດແມ່ນຫຍັງ? ມັນໝາຍເຖິງການເປີດໃຫ້ທຸກຄົນສາມາດເຂົ້າເຖິງ ແລະ ນຳໃຊ້ຖານຂໍ້ມູນນີ້ໄດ້ລ້າໆ ໂດຍບໍ່ປິດບັງໄວ້ເປັນຂອງສ່ວນຕົວ.

ສິ່ງທ້າທາຍຂອງ AI ພາສາລາວໃນປັດຈຸບັນ

ບໍລິສັດຍັກໃຫຍ່ລະດັບໂລກມີຖານຂໍ້ມູນພາສາອັງກິດຢ່າງມະຫາສານຈາກທົ່ວທຸກມຸມຂອງອິນເຕີເນັດ. ແຕ່ສຳລັບພາສາລາວ, ຂໍ້ມູນດິຈິຕອລຂອງພວກເຮົາຍັງມີໜ້ອຍຫຼາຍ. ເມື່ອຂໍ້ມູນໜ້ອຍ AI ທີ່ຖືກສ້າງຂຶ້ນມາກໍຈະຂາດຄວາມເຂົ້າໃຈໃນບໍລິບົດແບບລາວໆ.

ລອງນຶກພາບເບິ່ງວ່າ: ຖ້າ AI ບໍ່ເຄີຍອ່ານຂໍ້ມູນກ່ຽວກັບ ງານບຸນທາດຫຼວງ, ການສັນຈອນໃນນະຄອນຫຼວງວຽງຈັນ, ຫຼື ບໍ່ເຂົ້າໃຈຄວາມແຕກຕ່າງລະຫວ່າງພາສາທາງການ ແລະ ພາສາເວົ້າປະຈຳວັນ, ມັນກໍອາດຈະແປຄຳວ່າ “ຕຳໝາກຫຸ່ງ” ເປັນພຽງ “ສະລັດໝາກຫຸ່ງ” ໂດຍບໍ່ຮູ້ເຖິງຄວາມເປັນອາຫານທ້ອງຖິ່ນທີ່ມີປາແດກເປັນສ່ວນປະກອບຫຼັກ. ຖ້າພວກເຮົາບໍ່ສ້າງຄັງຂໍ້ມູນເຫຼົ່ານີ້ເອງ, ບໍລິສັດຕ່າງປະເທດກໍຍາກທີ່ຈະມາໃຫ້ຄວາມສຳຄັນກັບພາສາຂອງພວກເຮົາ.

ພະລັງຂອງການແບ່ງປັນ: ເປັນຫຍັງນັກພັດທະນາຈຶ່ງຕ້ອງແບ່ງປັນຂໍ້ມູນ?

ຖ້ານັກພັດທະນາ (Developers) ຢູ່ລາວແຕ່ລະຄົນ ຕ່າງຄົນຕ່າງເກັບຂໍ້ມູນພາສາລາວໄວ້ໃຊ້ເອງ, ທຸກຄົນກໍຈະມີພຽງຂໍ້ມູນກ້ອນນ້ອຍໆ ເຊິ່ງບໍ່ພຽງພໍທີ່ຈະສອນ AI ໃຫ້ສະຫຼາດໄດ້.

ແຕ່ຖ້າທຸກຄົນເອົາຂໍ້ມູນມາໂຮມກັນ (Open-Source), ມັນກໍປຽບເໝືອນກັບການ “ກິນດອງ” ຫຼື “ບຸນກອງຫົດ” ທີ່ທຸກຄອບຄົວເອົາເຂົ້າປາອາຫານມາຮ່ວມກັນ. ຈາກອາຫານຈານນ້ອຍໆ ກໍກາຍເປັນພາເຂົ້າຂະໜາດໃຫຍ່ ທີ່ລ້ຽງຄົນໄດ້ທັງໝູ່ບ້ານ. ການແບ່ງປັນຂໍ້ມູນ (Data Sharing) ຊ່ວຍລົດຕົ້ນທຶນ ແລະ ເວລາໃນການວິໄຈ ໃຫ້ນັກພັດທະນາລຸ້ນໃໝ່ໆ ສາມາດຕໍ່ຍອດສ້າງແອັບພລິເຄຊັນ ຫຼື AI ໃໝ່ໆໄດ້ໄວຂຶ້ນ.

ຜົນປະໂຫຍດທີ່ຈະເກີດຂຶ້ນກັບບໍລິສັດ ແລະ ສັງຄົມລາວ

ເມື່ອພວກເຮົາມີຖານຂໍ້ມູນພາສາລາວທີ່ໃຫຍ່ ແລະ ເປັນມາດຕະຖານ, ສິ່ງທີ່ຈະຕອບແທນຂຶ້ນມາມີຢ່າງຫຼວງຫຼາຍ:

ຂໍ້ຄິດສຳຄັນ (Key Takeaways)

ສະຫຼຸບແລ້ວ, ອະນາຄົດຂອງ AI ໃນປະເທດລາວບໍ່ໄດ້ຂຶ້ນຢູ່ກັບບໍລິສັດເຕັກໂນໂລຊີຕ່າງປະເທດພຽງຢ່າງດຽວ, ແຕ່ມັນຂຶ້ນຢູ່ກັບວ່າ ພວກເຮົາ—ນັກພັດທະນາ, ນັກຂຽນ ແລະ ຜູ້ໃຊ້ງານຄົນລາວ—ຈະຮ່ວມມືກັນສ້າງ ແລະ ແບ່ງປັນພື້ນຖານຂໍ້ມູນຂອງພວກເຮົາເອງຫຼາຍສ່ຳໃດ. ເພາະການແບ່ງປັນຂໍ້ມູນໃນມື້ນີ້ ກໍຄືການສ້າງພື້ນຖານອັນແຂງແກ່ນໃຫ້ກັບເຕັກໂນໂລຊີລາວໃນມື້ອື່ນ.