การเปรียบเทียบประสิทธิภาพในการจัดหมวดหมู่เว็บไซต์ท่องเที่ยวประเทศไทยระหว่างอัลกอริทึม LSI นาอีฟเบย์และนาอีฟเบย์ที่ปรับปรุงแล้ว
Main Article Content
Abstract
บทคัดย่อ
ในงานวิจัยนี้นำเสนอการใช้อัลกอริทึมนาอีฟเบย์ที่ปรับปรุงแล้วเพื่อปรับปรุงการจัดหมวดหมู่เว็บไซต์ท่องเที่ยวประเทศไทยตามออนโทโลจีท่องเที่ยวที่ได้ออกแบบไว้ เนื่องจากการใช้อัลกอริทึมนาอีฟเบย์ในการจัดหมวดหมู่เว็บไซต์ท่องเที่ยวมีผลให้ในแต่ละเว็บไซต์ถูกจัดให้อยู่ในหมวดหมู่เดียวเท่านั้น แต่เนื้อหาบางเว็บไซต์มีการนำเสนอเนื้อหาที่ประกอบด้วยหลายส่วนและหลากหลาย ประกอบไปด้วย สถานที่ท่องเที่ยว ที่พักและร้านอาหาร รวมอยู่ในเว็บไซต์เดียวกัน อีกทั้งจากงานวิจัยก่อนหน้านี้มีการใช้อัลกอริทึมนาอีฟเบย์ในการจัดหมวดหมู่พบว่ามีเว็บไซต์ประมาณ 130 เว็บไซต์ หรือคิดเป็นร้อยละ 27.40% จากจำนวนเว็บไซต์ทดสอบทั้งหมด 475 เว็บไซต์ จัดหมวดหมู่ไม่ถูกต้อง เช่น เว็บไซต์ร้านอาหาร ถูกจัดอยู่ในหมวดท่องเที่ยว เนื่องจากพบความถี่ของคำในหมวดสถานที่ท่องเที่ยวมากกว่าหมวดร้านอาหาร รวมถึงการใช้คำในการจัดหมวดหมู่เว็บไซต์ไม่ครอบคลุมคำบางคำที่สื่อความหมายไปในทางเดียวกันหรือคำที่มีความคล้ายคลึงกันมาในการจัดหมวดหมู่ทำให้การจัดหมวดหมู่ไม่ถูกต้อง ดังนั้นอัลกอริทึมนาอีฟเบย์ที่ปรับปรุงแล้วจึงได้ถูกนำมาใช้ในการวิเคราะห์เว็บไซต์เพื่อเพิ่มประสิทธิภาพในการจัดหมวดหมู่เว็บไซต์ รวมถึงเปรียบเทียบกับ Latent Semantic Indexing พร้อมวัดประสิทธิภาพของอัลกอริทึมด้วย F-Measure ซึ่งหลังจากปรับปรุงอัลกอริทึมนาอีฟเบย์แล้วพบว่ามีประสิทธิภาพดีที่สุด โดยมีค่าความแม่นยำเท่ากับ 100% ค่าความระลึกเท่ากับ 94.19% และค่า F-Measure เท่ากับ 96.58%
คำสำคัญ : จัดหมวดหมู่, การวิเคราะห์ความหมายแฝง, นาอีฟเบย์, ออนโทโลจี, วิเคราะห์เว็บ
Abstract
This paper presents the modified Naïve Bayes algorithm which is added to tourism ontology in order to classify tourism website in Thailand. The traditional Naïve Bayes algorithm performs better in the individual category but makes it worst for various kinds of information. In fact, results for traditional Naïve Bayes algorithm could not categorize 130 sites (27.4%) out of 475 tested pages because those web pages can be assigned to many groups. Restaurant websites, for example, are must be in attraction group because the word "restaurant" can mostly find with "dining" word. Moreover, the words which have similar meaning cannot be recognized as the same things, so that it causes for classifying incorrectness. Therefore, modified Naïve Bayes algorithm was utilized for web clustering and compared the efficiency with Latent Semantic Indexing. This approach was also tried with the F-Measure. Consequently, modified Naïve Bayes algorithm performed the best results with 100% for precision, 94.19% for recall, and 96.58% for F-Measure.
Keywords: Clustering, Latent Semantic Indexing, Naïve Bayes, Tourism Ontology, Performance