การเพิ่มประสิทธิภาพแบบจำลองหัวข้อด้วยสภาพแวดล้อมแบบข้อมูลขนาดใหญ่

Main Article Content

ธนกร ญาณกาย
วนิดา แก่นอากาศ

บทคัดย่อ

การทำเหมืองข้อมูลเป็นวิธีการหนึ่ง ที่ใช้ในการค้นหาองค์ความรู้ในข้อมูล ข้อมูลประเภทข้อความเป็นข้อมูลประเภทที่สามารถค้นหาองค์ความรู้ได้หลากหลายรูปแบบ เช่น การสรุปข้อความ การหาความหมายแฝง การหาหัวข้อ การจัดกลุ่มข้อความ Latent Dirichlet Allocation (LDA) เป็นเทคนิคหนึ่งที่ใช้ในการค้นหา หัวข้อ(topic) ของข้อมูล และสามารถทำการเพิ่มประสิทธิภาพได้ด้วยการปรับปรุงค่าโดยใช้ optimization อัลกอริทึ่ม ซึ่งผู้วิจัยใช้ Ant colony optimization ในการปรับค่าตัวแปร ซึงการค้นหาหัวข้อจากเอกสาร มักจะใช้เวลาในการคำนวณค่านาน ผู้วิจัยจึงประยุกต์ใช้ map-reduce ซึ่งเป็นการทำงานภายใต้สภาพแวดล้อมของ Hadoop มาช่วยในการประมวลผลเพื่อให้สามารถทำงานได้เร็วขึ้นและทำการวัดค่าประสิทธิภาพของอัลกอริทึ่ม LDA ผลการวิจัยพบว่า การประมวลผลชุดข้อมูลด้วยอัลกอริทึ่ม LDA ที่ปรับปรุงค่าตัวแปรโดย ACO ที่ทำงานโดย Map-reduce มีความเร็วในการประมวลผลที่สูงขึ้น

Article Details

บท
บทความวิจัย