พิมพ์หน้านี้ - “อับดุล” แชทบอทสัญชาติไทย ความ พยายามที่ยังไม่สิ้นสุด

LSVคลังสมองออนไลน์ "ปีที่21"

นานาสาระ => นานาสาระ => ข้อความที่เริ่มโดย: แวมไพร์-LSVteam♥ ที่ เมษายน 21, 2008, 08:35:06 PM



หัวข้อ: “อับดุล” แชทบอทสัญชาติไทย ความ พยายามที่ยังไม่สิ้นสุด
เริ่มหัวข้อโดย: แวมไพร์-LSVteam♥ ที่ เมษายน 21, 2008, 08:35:06 PM
 “อับดุล” แชทบอทสัญชาติไทย ความ พยายามที่ยังไม่สิ้นสุด
(http://www.thairath.co.th/2551/technology03a/Apr/library/21/scoop3.jpg)

“อับดุล ถามอะไรรู้” “ถามอะไรตอบได้” ผู้อ่านคงเคยได้ยินประโยคเหล่านี้อยู่บ่อยๆ วันนี้ อับดุลก้าวไกลมาปรากฎตัวอยู่บนโปรแกรมเอ็มเอสเอ็นในมาดตัวแทนผู้รอบรู้ ช่วยไขสารพัดปัญหาภายใต้รูปแบบบริการตอบคำถามที่น่าสนใจ โดยใช้ระบบการสนทนาโต้ตอบเหมือนคนปกติทั่วไป
 
อย่างไรก็ตาม ต้นกำเนิด “อับดุล” ผู้ช่วยคนเก่งมาจากการผสานหลายเทคโนโลยีเข้าด้วยกัน อาศัยพื้นฐานโครงงานวิจัยเดิมของ หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ภายใต้ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ พัฒนาสู่การเป็นต้นแบบพัฒนาซอฟต์แวร์ เพื่อให้บริการสาธารณะด้านเทคโนโลยีที่เกี่ยวข้องเฉพาะด้านภาษา
 
แม้ว่าขณะนี้ ”อับดุล” จะเปิดให้บริการแล้ว แต่ยังมีส่วนที่ยังต้องพัฒนา และเพื่อให้ผู้อ่านได้เห็นภาพรูปแบบการทำงาน รวมทั้งแนวทางพัฒนาอับดุลในเวอร์ชั่นต่อๆ ไป  IT Digest จึงขอนำเสนอข้อมูลเกี่ยวกับอับดุลหลังเปิดให้บริการตั้งแต่เดือน ต.ค 2550 …
 
นายพันธ์ศักดิ์ ศิริรัชตพงษ์ ผู้อำนวยการศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ หรือเนคเทค เล่าถึง “อับดุล”  ว่าเป็นผลงานวิจัยซอฟต์แวร์ต้นแบบ ของหน่วยปฎิบัติการวิจัยวิทยาการมนุษยภาษา หรือ HTL (Human Language Technology Laboratary) ที่ดำเนินการวิจัยและพัฒนาวิทยาการด้านภาษาพูดและภาษาเขียนของมนุษย์ โดยผลงานวิจัยชิ้นนี้สร้างนวัตกรรมอำนวยความสะดวกในการติดต่อสื่อสารระหว่างมนุษย์กับเครื่องจักร และระหว่างมนุษย์ด้วยกัน ได้แก่ ระบบแปลภาษา ระบบค้นคืนข้อมูล และระบบประมวลผลสัญญาณเสียงพูด

“ขณะนี้ หน่วยงานทำการวิจัยและพัฒนาโปรแกรมประเภท Chatting Bot ให้เป็นภาษาไทย โดยพัฒนาและเปิดให้บริการบนระบบ MSN Massenger ใช้ชื่อว่า “อับดุล” ที่ประยุกต์ใช้เทคโนโลยีภาษา ได้แก่ โปรแกรมภาษิตเทคโนโลยีแปลภาษา โปรแกรมสรรสาร ลุ๊คเทคโนโลยีการสืบค้นข้อมูล และโปรแกรมเล็กซิตรอนเทคโนโลยีการพัฒนาพจนานุกรมอิเล็กทรอนิกส์ โดยนำโปรแกรมทั้งหมดมาใช้ในการพัฒนาต้นแบบอับดุล ให้สามารถต่อยอดไปพัฒนาบนแอพลิเคชันในรูปแบบอื่นได้ในอนาคต” นายพันธ์ศักดิ์กล่าว
 
ผอ.เนคเทค เล่าต่อว่า บริการดังกล่าว ทำให้ผู้ใช้งานเข้าถึงบริการต่างๆ อย่างสะดวก เช่น บริการสืบค้นข้อมูลเว็บไซต์ การให้บริการสืบค้นข่าว บริการแปลภาษา บริการข้อมูลอิเล็กทรอนิกส์ รวมทั้งบริการส่งข้อมูลสำคัญ เช่น การรายงานสภาพการจราจร รายงานสภาพอากาศ ราคาทองคำ ราคาน้ำมัน ผลสลาก และดูดวง เป็นต้น โดยให้บริการครบวงจรในขั้นตอนเดียว 

(http://www.thairath.co.th/2551/technology03a/Apr/library/21/scoop4.jpg)

ด้าน นายชัลวาล สังคีตตระการ นักวิจัย หน่วยปฎิบัติการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ ผู้คิดค้นโปรแกรม “อับดุล” อธิบายว่า “ระบบแชทบ็อทเกิดมานานกว่าสิบปีในต่างประเทศ ปัจจุบันวิทยาการทันสมัยพัฒนาได้ก้าวไกลมาก จึงเป็นต้นกำเนิดแนวคิดแชทบ๊อทสัญชาติไทย  ประกอบกับยังไม่มีระบบดังกล่าวในประเทศไทย เนคเทคจึงริเริ่มค้นคว้าวิจัยจนประสบความสำเร็จ ติดตั้งระบบแชทบ็อทแห่งแรกในประเทศไทยภายใต้ชื่อ อับดุล

โปรแกรมอับดุล เปิดให้บริการครั้งแรกเมื่อวันที่ 15 ต.ค. 2550 จำนวน 10 แอ๊คเคาท์ แต่ละแอ๊คเคาท์รองรับผู้ใช้บริการได้จำนวน 1,000 คน โดยเครื่องคอมพิวเตอร์พีซีรับได้จำนวน 4 แอ๊คเคาท์ และเครื่องคอมพิวเตอร์เซิร์ฟเวอร์รับได้จำนวน 8 แอ๊คเคาท์ ขณะนั้นมีผู้สนใจลงทะเบียนใช้บริการเต็มจำนวน 10,000 คนภายในเวลา 2 สัปดาห์เท่านั้น ปัจจุบันจำนวนผู้ใช้บริการทั้งหมดประมาณ 16,000 คน เป็นสมาชิกที่เข้าใช้บริการประจำจำนวน 12,000 คน และผู้ลงทะเบียนส่วนใหญ่อยู่ในกลุ่มวัยรุ่นกับวัยทำงาน โดยให้ความสนใจสอบถามข้อมูลเกี่ยวกับเรื่องทั่วไปในชีวิตประจำวัน ความบันเทิง และการแปลคำศัพท์”
 
นักวิจัย หน่วยปฎิบัติการฯ อธิบายต่อว่า “ต้นแบบ อับดุล” พัฒนาจากโครงงานวิจัยหน่วยปฏิบัติการมนุษยภาษา เช่น ภาษิต เล็กซิตรอน และสรรสาร โดยนำโปรแกรมทั้งหมดเชื่อมโยงการทำงานเข้าด้วยกัน แต่กว่าจะได้แชดบ็อทภาษาไทย นักวิจัยต้องประสบปัญหาสำคัญคือการตัดคำ เพราะรูปแบบการเขียนภาษาไทยไม่มีการแบ่งคำตายตัวเหมือนกับภาษาอังกฤษ โครงสร้างภาษาเขียนก็คล้ายกับภาษาพูด รวมทั้งยังมีคำพ้องรูปและพ้องเสียง ทำให้โปรแกรมพบปัญหาวิเคราะห์คำศัพท์ผิดพลาดอยู่บ้างระหว่างการประมวลผล เช่น ประโยคที่เขียนว่า“ปลาตากลมถูกตากลมในที่ร่ม”ระบบอาจประมวลคำศัพท์สับสนระหว่าง ตาก-ลม และ ตา-กลม เป็นต้น
 
นอกจากนี้ ปัญหาเกี่ยวกับวิวัฒนาการภาษา ก็เป็นเรื่องที่เพิ่มความยากและซับซ้อนให้กับผู้พัฒนาโปรแกรมด้วย เพราะวัยรุ่นส่วนใหญ่พิมพ์คำแสลงคุยกับอับดุล และส่วนมากจะเป็นคำศัพท์ใหม่ ที่ยังไม่ได้ระบุในพจนานุกรม ทำให้ระบบการตัดคำและประมวลผลมีความถูกต้องน้อยลง โดยขณะนี้ระดับความถูกต้องของระบบประมวลผลคำศัพท์อยู่ที่ 60% เท่านั้น”
 
นายชัชวาล อธิบายเสริมว่า รูปแบบการสนทนาของโปรแกรมอับดุล ทำงานบนระบบสนทนาเอ็มเอสเอ็น ผู้ที่ลงทะเบียนในโปรแกรมนี้แล้ว เพียงแค่เพิ่มชื่ออีเมล์อับดุลเข้าไปเท่านั้น ก็สามารถใช้งานได้ทันที อับดุลจะทำหน้าที่เหมือนกับเลขาส่วนตัว โดยผู้ใช้บริการสามารถสนทนากับอับดุลได้เหมือนกับเป็นเพื่อนคนหนึ่ง และยังเพิ่มบริการสอบถามข้อมูลทั่วไป ค้นหาข่าว หรือช่วยแปลคำศัพท์ไว้ด้วย แต่โปรแกรมการทำงานของอับดุลมีพื้นฐานหลายโครงงาน จึงต้องใส่รหัสหน้าข้อความที่ต้องการค้นหา เพื่อให้โปรแกรมอ่านและแยกแยะการทำงานได้ ตัวอย่างเช่น การค้นหาข่าว พิมพ์คำว่าข่าว หรือ News ตามด้วยคำที่ต้องการค้นหา เช่น ข่าวกีฬา ข่าวดารา และข่าวการเมือง หรือ การแปลประโยค พิมพ์คำว่า แปล หรือ Tran ตามด้วยคำที่ต้องการค้น เช่น How are you? , I love you เป็นต้น

นายชัชวาล กล่าวทิ้งท้ายว่า “อับดุล” ยังมีข้อบกพร่องอีกหลายด้านให้ปรับปรุง คลังคำศัพท์เป็นเรื่องแรกที่ต้องเร่งแก้ไขให้ครอบคลุมถึงคำที่วัยรุ่นใช้บ่อยในชีวิตประจำวัน รวมทั้งการเพิ่มข้อมูลความรู้รอบตัว พัฒนาความสามารถด้านการฟังเสียง เพื่อให้โปรแกรมสามารถโต้ตอบด้วยภาษาพูดได้ทั้งภาษาไทย และต่างประเทศ  และด่านสำคัญที่สุดคือการพัฒนาโปรแกรมอับดุลให้เรียนรู้ธรรมชาติภาษาของมนุษย์ จนสามารถโต้ตอบกับคู่สนทนาได้อย่างสมจริงมากที่สุด

(http://www.thairath.co.th/2551/technology03a/Apr/library/21/scoop2.jpg)

ส่วน เว็บไซต์เนคเทค ระบุว่า “ข้อมูลเพิ่มเติมเกี่ยวกับโครงงานวิจัยที่เป็นพื้นฐานของซอฟต์แวร์ต้นแบบโปรแกรมอับดุลประกอบด้วย 1.โครงงานภาษิต เทคโนโลยีแปลภาษาอังกฤษเป็นไทย ประมวลผลจากระบบคอมพิวเตอร์บนอินเทอร์เน็ต ข้อมูลภาษาอังกฤษบนอินเทอร์เน็ตจะถูกส่งผลมายังระบบที่อาศัยฐานความรู้ทางไวยกรณ์และความหมาย ภาษิตแปลเว็บเพจเป็นภาษาไทย และส่งผลไปยังผู้ใช้ด้วยโครงสร้างเดิมของต้นฉบับ โดยวิเคราะห์โครงสร้างประโยค เป็นหลักการสำคัญในการพัฒนาระบบแปลภาษา ทำงานโดยโปรแกรมแยกข้อความออกจากรูปแบบของเว็บเพจ และส่งข้อความอย่างเดียวไปแปล
 
ขั้นตอนต่อมา ภาษิตจะนำข้อความที่แปลไว้รวมเข้ากับรูปแบบของเว็บไซต์ที่แยกไว้ตอนต้น ส่งกลับไปแสดงผล ผู้ใช้สามารถเรียกดูเว็บเพจต่างๆ ที่เป็นภาษาอังกฤษได้ โดยแสดงผลเป็นภาษาไทยทั้งหมด และยังคงรูปแบบของต้นฉบับไว้ทุกประการ 2. โปรแกรมสรรสาร ลุ๊คพัฒนาและจัดการระบบค้นคืนข้อมูล บนเว็บเบาว์เซอร์ โปรแกรมทำงานบนอินเตอร์เฟสของเว็บเบาว์เซอร์ ทำให้การจัดการข้อมูล การสั่งงาน รวมทั้งการตั้งค่าต่างๆ ที่เกี่ยวข้องกับระบบเป็นไปอย่างสะดวก สรรสาร ลุ๊ค มีความสามารถค้นคืนภาษาไทยได้ถูกต้อง รวมทั้งมีคุณลักษณะที่ทำให้การค้นคืนเป็นไปอย่างมีประสิทธิภาพ เช่น การแนะนำคำที่ใช้ค้นคืน

3.เล็กซิตรอน พจนานุกรมสื่ออิเล็กทรอนิกส์ไทย-อังกฤษ เทคโนโลยีที่ช่วยค้นหาคำศัพท์ และข้อมูลคำศัพท์ทั้งภาษาไทยและภาษาอังกฤษ ที่ต้องการความรวดเร็วประมวลผลจากช่องรับข้อมูลในหน้าโฮมเพจ โดยไม่เสียค่าใช้จ่ายใดๆ ทั้งสิ้น นอกจากนี้ยังสามารถดาวน์โหลดฟรี ทั้งโปรแกรมและข้อมูลไปติดตั้งบนเครื่องคอมพิวเตอร์ เพื่อใช้งานเล็กซิตรอนได้โดยไม่ต้องผ่านระบบอินเทอร์เน็ต”
 
แม้ว่าอับดุลจะเปิดให้บริการมาเป็นระยะเวลาเกือบครึ่งปีแล้ว แต่จำนวนผู้ใช้บริการเอ็มเอสเอ็นที่รู้จักโปรแกรมอับดุลยังอยู่ในปริมาณน้อย เพราะการเข้าถึงโปรแกรมยังเป็นไปในรูปแบบจำกัด  แต่ข้อมูลข้างต้นทั้งหมด แสดงถึงความพยายามของนักวิจัยไทยที่จะต่อยอดผลงานวิจัยเดิมมาสร้างมูลค่าเพิ่ม โดยประยุกต์โครงงานวิจัยเพิ่มคุณค่าและความน่าสนใจ เพื่อดึงดูดผู้ใช้งานให้เข้ามาทดลองใช้ผลงานกันสักครั้ง...

บทความจาก :  ไทยรัฐ