Friday, May 11, 2007

Knowledge Discovery in Databases [Thai]

Knowledge Discovery in Databases - KDD : การค้นหาความรู้ในฐานข้อมูล หรือ เรีียกอีกอย่างหนึ่งว่า Data mining (บางที่บอกว่า data mining เป็นส่วนหนึ่งของการทำ KDD )

++ ซึ่งเราได้ความหมายของ data mining จาก wiki ดังนี้

การทำเหมืองข้อมูล (อังกฤษ: data mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูลสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์ (Knowledge Discovery in Databases - KDD) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชา สถิติ

ที่มา : wiki

เนื่องจากในปัจจุบัน องค์กรส่วนใหญ่มีข้อมูลที่ต้องจัดเก็บอยู่เป็นจำนวนมาก ไม่ว่าจะเป็นข้อมูลพนักงานในองค์กร , ข้อมูลการซื้อขายสินค้า หรือแม้แต่ข้อมูลลูกค้า เป็นต้น จะเห็นได้ว่า ยิ่งองค์กรมีขนาดใหญ่มากเท่าไรย่อมทำให้การเก็บสะสมข้อมูลสำหรับองค์กรต่างๆมีจำนวนมากขึ้น การเก็บข้อมูลจำนวนมากเหล่านี้ลงในฐานข้อมูลเป็นวิธีที่นิยมใช้ในหลายองค์กร แต่ระบบการจัดการฐานข้อมูลทั่วไปไม่สามารถจัดการกับข้อมูลเหล่านี้ได้อย่างมีประสิทธิภาพเนื่องจากใช้เวลานานในการดึงข้อมูลที่มีความสำคัญออกมาวิเคราะห์ ดังนั้นจึงได้เกิดเทคโนโลยีในการวิเคราะห์ข้อมูลที่มีความสำคัญออกมาจากแหล่งเก็บข้อมูลขนาดใหญ่ เรียกเทคโนโลยีนี้ว่า "การทำเหมืองข้อมูล" หรือ การขุดค้นข้อมูล (data mining) หรืออาจเรียกอีกอย่างหนึ่งว่า KDD (Knowledge Discovery in Database)

หลักการของ data mining คือ การค้นหาข้อมูลที่มีความสำคัญโดยไม่ทราบมาก่อนแต่มีความหมายโดยนัย และคาดว่าจะมีประโยชน์จากข้อมูลในฐานข้อมูล ซึ่งเทคนิคในการทำ data mining มีหลายวิธี เช่น การสร้าง association rules (การค้นหาความสัมพันธ์ระหว่างข้อมูล) , การแบ่งกลุ่มข้อมูลหรือการจำแนกข้อมูล (classification , clustering) , summerization และ sequential pattern discovery เป็นต้น

เทคนิคได้รับความนิยมอย่างมากคือ การค้นหาความสัมพันธ์ระหว่างข้อมูลที่เรียกว่า items ในฐานข้อมูล (Association Rules Discovery) ซึ่งได้รับการพัฒนาขึ้นครั้งแรกโดยนักวิจัยจากศูนย์วิจัย IBM Almaden ประเทศสหรัฐอเมริกาในปี 1993 โดยการค้นหาความสัมพันธ์ที่เกิดขึ้นนี้จะมีทั้ง การให้ความสนใจไปที่การค้นหาโครงสร้างข้อมูลที่เหมาะสมที่มีประสิทธิภาพทั้งทางด้านความเร็วในการค้นหา Association Rules และความประหยัดของเนื้อที่ในหน่วยความจำที่ใช้สำหรับค้นหา Association Rules และการให้ความสนใจที่เทคนิคในการนับเพื่อหาข้อมูลที่สำคับให้ได้รวดเร็วขึ้น

Association Rules (กฎการเชื่อมโยง)
แสดงความสัมพันธ์ของเหตุการณ์หรือวัตุ ที่เกิดขึ้นพร้อมกัน ตัวอย่างของการประยุกต์ใช้กฎการเชื่อมโยง เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจาก ระบบ ณ จุดขาย(POS) หรือร้านค้าออนไลน์ แล้วพิจรณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดิโอมักซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้มีสินค้าสองอย่างอยู่ใกล้เคียงกัน เพื่อเพิ่มยอดขาย หรืออาจพบว่าหลังจากคนซื้อหนังสือ ก แล้ว มักจะซื้อหนังสือ ข ด้วย ก็สามารถนำความรู้นี้ไปแนะนำผู้ที่กำลังจะซื้อหนังสือ ก ได้ เช่น วิธี Apriori

ขั้นตอนการสร้าง Association Rulse มีขั้นตอนหลักอยู่สองขั้นตอนดังนี้
1. การหา Frequent Itemsets ซึ่งเป็น Itemsets ที่มีความถี่หรือค่าสนับสนุน (Support) มากกว่าหรือเท่ากับค่าความถี่ขั้นต่ำ (Minimum Support) ส่วน Itemsets ที่มีความถี่น้อยกว่าค่าความถี่ขั้นต่ำ จะเรียกว่า Rare Itemsets

2. การสร้าง Association Rules จาก Frequent Itemsets ที่ได้จากการดำเนินการในขั้นตอนที่ 1 และจะยอมรับ Assocition Rules ที่สร้างขึ้นมาก็ต่อเมื่อ กฎนี้มีค่าความเชื่อมั่น (Confidence) มากกว่า หรือเท่ากับ ค่าความเชื่อมั่นขั้นต่ำ (minimum Confidence)

Data classification (การแบ่งประเภทข้อมูล หรือ การจำแนกกลุ่ม)
หากกฎเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่างๆกับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจรณาของการอนุมัติเงินกู้ เช่น วิธี ID3 , C5.0 , CART, CHAID และ Neural Network

Data clustering (การแบ่งกลุ่มข้อมูล)
การแบ่งข้อมูลที่มีลักษณะคล้ายกันออกมาเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจรณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน เช่น วิธี K-Means Clustering และ Selft-Organizing Map (SOM)

Visualization (จินตทัศน์)
สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ข้อความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ่อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน์

ขั้นตอนการทำงานของเหมืองข้อมูล
ขั้นตอนการทำเหมืองข้อมูลมีการแบ่งขั้นตอนการทำงานที่ต่างกันไปตามทฤษฎีที่ผู้จัดการเหมืองข้อมูลแต่ละคนใช้อ้างอิง ดังนั้นจึงไม่มีขั้นตอนการทำงานของเหมืองข้อมูลที่แน่นอน แต่สามารถแบ่งขั้นตอนการทำงานของเหมืองข้อมูลคร่าวๆได้ดังนี้
1.เรียนรู้ขอบเขตของการประยุกต์ใช้เหมืองข้อมูล (Learning)
2.สร้างชุดของข้อมูลจากกลุ่มข้อมูลที่ได้เลือกไว้ (Data Selection)
3.ตัดข้อมูลที่ไม่สำคัญออกไป (Data Cleaning)
4.แปลงข้อมูลให้อยู่ในรูปที่สามารถนำไปใช้งานได้ (Data Reduction and Transformation)
5.เลือกวิธีการจัดการเหมืองข้อมูล (Choosing Function of Data Mining)
6.เลือกอัลกอริทึมที่ใช้จัดการ (Choosing the Mining Algorithm)
7.ใช้ความรู้ที่ได้นำไปสร้าง Model (User of Discovered Knowledge)


หรือ
1.ทำความเข้าใจปัญหา
2.ทำความเข้าใจข้อมูล
3.เตรียมข้อมูล
4.สร้างแบบจำลอง
5.ประเมิน
6.นำไปใช้งาน

หัวข้อต่างที่น่าสนใจ เกี่ยวกับ data mining

- ความรู้เบื้องต้นเกี่ยวกับเหมืองข้อมูลและการค้นพบความรู้
- ฐานข้อมูลและคลังข้อมูล
- โครงสร้างข้อมูล
- การค้นพบและวิเคราะห์รูปแบบ
- เทคนิกการวิเคราะห์ข้อมูล
- กฎแห่งความสัมพันธ์
- ระบบประสาทเทียม
- ขบวนการแบบต้นไม้
- ขบวนการแบบคลัสเตอร์และคลาสซิฟิเคชั่น
- ขบวนการแบบถดถอย
- ประเด็นปัญหาการโอเวอร์ฟิตติ้งและอินเฟอเรนเชียล
- การประยุกต์ใช้เหมืองข้อมูล
- ศึกษางานวิจัยและพัฒนาอื่น ๆ ในปัจจุบัน อันเกี่ยวข้องกับเหมืองข้อมูลและการค้นพบความรู้

No comments: