Tuesday, June 26, 2007

DATA MINING [Thai]

Data Mining การสืบค้นความรู้ที่เป็นประโยชน์และน่าสนใจบนฐานข้อมูลขนาดใหญ่ (Knowledge Discovery from very large Databases : KDD ) หรือที่เรียกกันว่า Data Mining เป็นเทคนิคที่ใช้จัดการกับข้อมูลขนาดใหญ่ โดยจะนำข้อมูลที่มีอยู่มาวิเคราะห์แล้วดึงความรู้ หรือสิ่งสำคัญออกมา เพื่อใช้ในการวิเคราะห์ หรือทำนายสิ่งต่าง ๆ ที่จะเกิดขึ้น ซึ่งการค้นหาความรู้ ความจริงที่แฝงอยู่ในข้อมูล ( Knowledge Discovery) เป็นกระบวนการขุดค้นสิ่งที่น่าสนใจในกองข้อมูลที่เรามีอยู่ ซึ่งต่างจากระบบฐานข้อมูล ตรงที่เราไม่ต้องเป็นคนกำหนดคำสั่ง (เช่น SQL) เพื่อค้นหาข้อมูลที่เราต้องการ แต่ระบบ Data Mining จะมีขบวนการ/วิธีการ (ซึ่งปกติจะเป็น machine leraning tools) เพื่อทำหน้าที่นี้ นั่นคือเราแค่บอกว่าเราต้องการอะไร (what to be mined) แต่ไม่จำเป็นต้อง ระบุว่า ทำอย่างไร (How to mine) ระบบฐานข้อมูลทั่วไป จะบังคับให้เราต้องทำทั้งสองหน้าที่นี้ คือคิดก่อนว่าจะ ค้นหาอะไรแล้วก็ไปประดิษฐ์คำสั่ง SQL เพื่อค้นหาข้อมูลนั้น ดังนั้นถ้าเราคิดไม่รอบคอบ หรือคิดดีแล้วแต่แปลเป็นคำสั่งผิด ก็จะได้ข้อมูลผิดๆ หรือไม่ตรงกับความต้องการ Data Mining มีประโยชน์มาก โดยเฉพาะการค้นหาข้อมูล ซึ่งข้อมูลที่ได้จะเป็น

Data Mining เป็นขบวนการทำงานที่เรียกว่า process ที่สกัดข้อมูล (Extract data) จากฐานข้อมูลขนาดใหญ่ (Large Information) เพื่อให้ได้สารสนเทศ (Usefull Information) ที่เรายังไม่รู้ (Unknown data) โดยเป็นสารสนเทศที่มีเหตุผล (Valid) และสามารถนำไปใช้ได้ (Actionable) ซึ่งเป็นสิ่งสำคัญในการที่จะช่วยการตัดสินใจในการทำธุรกิจ Data Mininig เป็นโปรเซสที่สำคัญในการทำ Knowledge Discovery in Database ที่เราเรียกสั้นๆว่า KDD ส่วน Data Mining สามารถเรียกสั้นๆว่า DM

Business Object Determination เป็นตัวจักรที่สำคัญในการทำ KDD เนื่องจากเป็นกำหนด ขอบเขต เป้าหมาย ของการทำ KDD ซึ่งจะมีผลต่อทุกๆขั้นตอนของการทำ KDD โดยนักวิเคราะห์ธุรกิจ (Business Analyst) จะต้อง Identify ปัญหาที่เกิดขึ้นในการทำธุรกิจให้ครอบคลุมและชัดเจนรวมทั้งวัตถุประสงค์ด้วย

Data Preparation หน้าที่ของขั้นตอนนี้คือจัดการข้อมูลให้สามารถนำเข้าสู่อัลกอริทึมส์ของ Data Mining ได้ เช่น การทำ Data Cleaning, Data Integration, Data Reduction เป็นต้น ซึ่ง Data Preparation สามารถแบ่งออกเป็น 3 ส่วนได้แก่ Data Selection, Data Preprocessing และ Data Transformation Data Mining เป็นขั้นตอนการทำ Mining โดยมี operation ในการทำ Data Mining หลายแบบ เช่น Database Segmentation, Predictive Modeling, Link Analysis เป็นต้น แต่ละ Data Mining Operation จะมีอัลกอริทึมส์ให้เลือกใช้ เช่น การทำ Database Segmentation อาจใช้ K-Mean Algorithms หรืออาจใช้ Unsupervised Learning Neural Networks เช่น โมเดล Kohonen Neural Net ถ้าเป็นการทำ Predictive Modeling อาจใช้ CART (Classification And Regression Tree) หรืออาจใช้ Supervised Learning Neural Network เช่น Backpropagation Neural Net ถ้าเป็นการทำ Link Analysis ซึ่งมีการทำอยู่ 2 ลักษณะคือ Association Rule Discovery และ Sequential Pattern Discovery อาจใช้ Apriori Algorithms Analysis of Results and Knowledge Presentation เป็นขั้นตอนสุดท้ายสำหรับนักวิเคาะห์ข้อมูลที่จะต้องเก็บผลลัพธ์ของ Data Mining สรุปความหมายของผลลัพธ์ที่ได้ ซึ่งจะเป็นข้อมูลความรู้ (Knowledge) นำไปเป็นสารสนเทศที่ช่วยในการตัดสินใจ



ปัจจัยที่ทำให้ Data Mining เป็นที่ได้รับความนิยม
· จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ
· ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ ( Decision Support System) เพื่อเป็นการง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้นความรู้
· ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึงจำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดยเครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ
· การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกรรมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ในฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลยทีเดียว



ประเภทข้อมูลที่สามารถทำ Data Mining
· Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย entity-relationship ( ER ) model
· Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ ๆ เดียวกัน
· Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูป ชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายนั้นซื้อ เป็นต้น
· Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่น ๆ เช่น ข้อมูลแบบ object-oriented , ข้อมูลที่เป็น text file , ข้อมูลมัลติมีเดีย , ข้อมูลในรูปของ web



ลักษณะเฉพาะของข้อมูลที่สามารถทำ Data Mining
· ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System ( DBMS ) ในการจัดการฐานข้อมูล
· ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจากหลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , MS SQL , MS Access เป็นต้น
· ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลงตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึกฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ตลอดเวลา จึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึงต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสมข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง

ตัวอย่างต่อไปนี้แสดงผลสำเร็จของการนำ data mining ไปใช้
 ด้านการแพทย์ : ใช้ data mining ค้นหาผลข้างเคียงของการใช้ยา โดยอาศัยข้อมูลจากแฟ้มประวัติผู้ป่วย, ใช้ในการวิเคราะห์หาความสัมพันธ์ของสารพันธุกรรม

 ด้านการเงิน : ใช้ data mining ตัดสินว่าควรจะอนุมัติเครดิตให้ลูกค้ารายใดบ้าง, ใช้ในการคาดหมายความน่าจะเป็นว่าธุรกิจนั้นๆมีโอกาสที่จะล้มละลายหรือไม่, ใช้คาดหมายการขึ้น/ลงของหุ้นในตลาดหุ้น

 ด้านการเกษตร : ใช้จำแนกประเภทของโรคพืชที่เกิดกับถั่วเหลืองและมะเขือเทศ ด้านวิศวกรรม : ใช้วิเคราะห์และวินิจฉัยสาเหตุการทำงานผิดพลาดของเครื่องจักรกล ด้านอาชญวิทยา : ใช้วิเคราะห์หาเจ้าของลายนิ้วมือ

 ด้านอวกาศ : ใช้วิเคราะห์ข้อมูลที่ส่งมาจากดาวเทียมขององค์การนาซ่า


เทคนิคต่าง ๆ ของ Data Mining


1. Association rule Discovery คือ การค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่เพื่อนำไปใช้ในการวิเคราะห์ หรือทำนายปรากฏการณ์ต่าง ๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “ Market Basket Analysis ” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “ กฎความสัมพันธ์ ” ( Association Rule ) เพื่อหาความสัมพันธ์ของข้อมูล

ตัวอย่างการนำเทคนิคนี้ไปประยุกต์ใช้กับงานจริง ได้แก่ ระบบแนะนำหนังสือให้กับลูกค้าแบบอัตโนมัติ ของ Amazon ข้อมูลการสั่งซื้อทั้งหมดของ Amazon ซึ่งมีขนาดใหญ่มากจะถูกนำมาประมวลผลเพื่อหาความสัมพันธ์ของข้อมูล คือ ลูกค้าที่ซื้อหนังสือเล่มหนึ่ง ๆ มักจะซื้อหนังสือเล่มใดพร้อมกันด้วยเสมอ ความสัมพันธ์ที่ได้จากกระบวนการนี้จะสามารถนำไปใช้คาดเดาได้ว่าควรแนะนำหนังสือเล่มใดเพิ่มเติมให้กับลูกค้าที่เพิ่งซื้อหนังสือจากร้าน ตัวอย่างเช่น buys ( x , database) -> buys ( x , data mining ) [ 80% , 60% ] หมายความว่า เมื่อซื้อหนังสือ database แล้วมีโอกาสที่จะซื้อหนังสือ data mining ด้วย 60 % และมีการซื้อทั้งหนังสือ database และหนังสือ data mining พร้อม ๆ กัน 80 %
อีกตัวอย่าง คือ ในการซื้อสินค้าของลูกค้า 1 ครั้ง โดยไม่ต้องจำกัดว่าจะซื้อสินค้าในห้างร้าน หรือสั่งผ่านทางไปรษณีย์ หรือการซื้อสินค้าจากร้านค้าเสมือนจริง ( Virtual store ) บน web โดยปกติเราจะต้องการทราบว่าสินค้าใดบ้างที่ลูกค้ามักซื้อด้วยกัน เพื่อนำไปพิจารณาปรับปรุงการจัดวางสินค้าในร้าน หรือใช้เพื่อหาวิธีวางรูปคู่กันในใบโฆษณาสินค้า ก่อนอื่นขอกำหนดคำว่า กลุ่มรายการ ( itemset ) หมายถึง กลุ่มสินค้าที่ปรากฏร่วมกัน เช่น { รองเท้า , ถุงเท้า}, {ปากกา, หมึก} หรือ { นม , น้ำผลไม้} โดยกลุ่มรายการดังกล่าวนี้ อาจจะจับคู่กลุ่มลูกค้ากับสินค้าก็ได้เช่น วิเคราะห์หา “ลูกค้าที่ซื้อสินค้าบางชนิดซ้ำ ๆ กัน อย่างน้อย 5 ครั้งแล้ว ” กรณีนี้ฐานข้อมูลเรามีการเก็บรายการซื้อขายเป็นจำนวนมาก และคำถามข้างต้น (query ) นี้จำเป็นต้องค้นหาทุก ๆ คู่ของลูกค้ากับสินค้า เช่น { คุณ ก , สินค้า A} , { คุณ ก , สินค้าB} , {คุณ ก , สินค้า C } , { คุณ ข , สินค้า B} เป็นต้น นับเป็นงานที่หนักพอสมควรสำหรับ DBMS และถ้าจะเขียน query ข้างต้นเป็น SQL จะได้ว่า
SELECT P.custid , P.item , SUM( P.qty )
FROM Purchases P
GROUP BY P.custid , P.item
HAVING SUM(P.qty ) > 5
หลังจากที่ DBMS ประมวลผล SQL นี้ เนื่องจากมีข้อมูลที่ต้องตรวจสอบมากมายหลายคู่และแต่ละคู่ต้องค้นหามาจากฐานข้อมูลเลย แต่ผลลัพธ์ของ query แบบนี้ มักจะมีจำนวนน้อยมาก เลยเรียก query ชนิดนี้ว่าเป็น “iceberg query” ซึ่งเปรียบกับสำนวนไทย คือ “ งมเข็มในมหาสมุทร”



2. Classification & Prediction
· Classification
เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้ หรือไม่โดยพิจารณาจากข้อมูลที่มีอยู่ กระบวนการ classification นี้แบ่งออกเป็น 3 ขั้นตอน ดังรูป































- Model Construction ( Learning )
เป็นขั้นการสร้าง model โดยการเรียนรู้จากข้อมูลที่ได้กำหนดคลาสไว้เรียบร้อยแล้ว ( training data ) ซึ่ง model ที่ได้อาจแสดงในรูปของ
1. แบบต้นไม้ ( Decision Tree)
2. แบบนิวรอลเน็ต ( Neural Net)

1)
โครงสร้างแบบต้นไม้ของ Decision Tree
เป็นที่นิยมกันมากเนื่องจากเป็นลักษณะที่คนจำนวนมากคุ้นเคย ทำให้เข้าใจได้ง่าย มีลักษณะเหมือนแผนภูมิองค์กร โดยที่แต่ละโหนดแสดง attribute แต่ละกิ่งแสดงผลในการทดสอบ และลีฟโหนดแสดงคลาสที่กำหนดไว้
สมมติว่าบริษัทขนาดใหญ่แห่งหนึ่ง ทำธุรกิจอสังหาริมทรัพย์มีสำนักงานสาขาอยู่ประมาณ 50 แห่ง แต่ละสาขามีพนักงานประจำ เป็นผู้จัดการและพนักงานขาย พนักงานเหล่านี้แต่ละคนจะ ดูแลอาคารต่าง ๆ หลายแห่งรวมทั้งลูกค้าจำนวนมาก บริษัทจำเป็นต้องใช้ระบบฐานข้อมูลที่กำหนดความสัมพันธ์ระหว่างองค์ประกอบเหล่านี้ เมื่อรวบรวมข้อมูลแบ่งเป็นตารางพื้นฐานต่าง ๆ เช่น ข้อมูลสำนักงานสาขา ( Branch ) ข้อมูลพนักงาน ( Staff ) ข้อมูลทรัพย์สิน ( Propety) และข้อมูลลูกค้า ( Client ) พร้อมทั้งกำหนดความสัมพันธ์ ( Relationship) ของข้อมูลเหล่านี้ เช่น ประวัติการเช่าบ้านของลูกค้า ( Customer_rental ) รายการให้เช่า ( Rentals ) รายการขายสินทรัพย์ ( Sales ) เป็นต้น ต่อมาเมื่อมีประชุมกรรมการผู้บริหารของบริษัท ส่วนหนึ่งของรายงานจากฐานข้อมูลสรุปว่า
“ 40 % ของลูกค้าที่เช่าบ้านนานกว่าสองปี และมีอายุเกิน 25 ปี จะซื้อบ้านเป็นของตนเอง โดยกรณีเช่นนี้เกิดขึ้น 35 % ของลูกค้าผู้เช่าบ้านของบริษัท” ดังรูปที่ 4 แสดงให้เห็นถึง Decision Tree สำหรับการวิเคราะห์ว่าลูกค้าบ้านเช่าจะมีความสนใจที่จะซื้อบ้านเป็นของตนเองหรือไม่ โดยใช้ปัจจัยในการวิเคราะห์คือ ระยะเวลาที่ลูกค้าได้เช่าบ้านมา และอายุของลูกค้า

******************** pic *********************************8


2) นิวรอลเน็ต หรือ นิวรอลเน็ตเวิร์ก ( Neural Net)
เป็นเทคโนโลยีที่มีที่มาจากงานวิจัยด้านปัญญาประดิษฐ์ Artificial Intelligence:AI เพื่อใช้ในการคำนวณค่าฟังก์ชันจากกลุ่มข้อมูล วิธีการของ นิวรอลเน็ต ( แท้จริงต้องเรียกให้เต็มว่า Artificial Neural Networks หรือ ANN ) เป็นวิธีการที่ให้เครื่องเรียนรู้จากตัวอย่างต้นแบบ แล้วฝึก
( train ) ให้ระบบได้รู้จักที่จะคิดแก้ปัญหาที่กว้างขึ้นได้ ในโครงสร้างของนิวรอลเน็ตจะประกอบด้วยโหนด ( node ) สำหรับ Input – Output และการประมวลผล กระจายอยู่ในโครงสร้างเป็นชั้น ๆ ได้แก่ input layer , output layer และ hidden layers การประมวลผลของนิวรอลเน็ตจะอาศัยการส่งการทำงานผ่านโหนดต่าง ๆ ใน layer เหล่านี้ สำหรับตัวอย่างรูปที่ 5 เป็นการวิเคราะห์แบบเดียวกับรูปที่ 4 ในโครงสร้างแบบนิวรอลเน็ต


- Model Evaluation ( Accuracy )
เป็นขั้นการประมาณความถูกต้องโดยอาศัยข้อมูลที่ใช้ทดสอบ ( testing data ) ซึ่งคลาสที่แท้จริงของข้อมูลที่ใช้ทดสอบนี้จะถูกนำมาเปรียบเทียบกับคลาสที่หามาได้จาก model เพื่อทดสอบความถูกต้อง
- Model Usage ( Classification )
เป็น Model สำหรับใช้ข้อมูลที่ไม่เคยเห็นมาก่อน ( unseen data ) โดยจะทำการกำหนดคลาสให้กับ object ใหม่ที่ได้มา หรือ ทำนายค่าออกมาตามที่ต้องการ
· Prediction
เป็นการทำนายหาค่าที่ต้องการจากข้อมูลที่มีอยู่ ตัวอย่างเช่น หายอดขายของเดือนถัดไปจากข้อมูลที่มีอยู่ หรือทำนายโรคจากอาการของคนไข้ในอดีต เป็นต้น




3. Database clustering หรือ Segmentation
เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน ตัวอย่างเช่น บริษัทจำหน่ายรถยนต์ได้แยกกลุ่มลูกค้าออกเป็น 3 กลุ่ม คือ

1. กลุ่มผู้มีรายได้สูง (>$80,000)
2. กลุ่มผู้มีรายได้ปานกลาง ($25,000 to $ 80,000)
3. กลุ่มผู้มีรายได้ต่ำ (less than $25,000)
และภายในแต่ละกลุ่มยังแยกออกเป็น
- Have Children
- Married
- Last car is a used car
- Own cars


*********************** pic ***************************************

จากข้อมูลข้างต้นทำให้ทางบริษัทรู้ว่าเมื่อมีลูกค้าเข้ามาที่บริษัทควรจะเสนอขายรถประเภทใด เช่น ถ้าเป็นกลุ่มผู้มีรายได้สูงควรจะเสนอรถใหม่ เป็นรถครอบครัวขนาดใหญ่พอสมควร แต่ถ้าเป็นผู้มีรายได้ค่อนข้างต่ำควรเสนอรถมือสอง ขนาดค่อนข้างเล็ก




4. Deviation Detection
เป็นกรรมวิธีในการหาค่าที่แตกต่างไปจากค่ามาตรฐาน หรือค่าที่คาดคิดไว้ว่าต่างไปมากน้อยเพียงใด โดยทั่วไปมักใช้วิธีการทางสถิติ หรือการแสดงให้เห็นภาพ (Visualization) สำหรับเทคนิคนี้ใช้ในการตรวจสอบ ลายเซ็นปลอม หรือบัตรเครดิตปลอม รวมทั้งการตรวจหาจุดบกพร่องของชิ้นงานในโรงงานอุตสาหกรรม



5. Link Analysis
จุดมุ่งหมายของ Link Analysis คือ การสร้าง link ที่รียกว่า “ associations” ระหว่าง recode เดียว หรือ กลุ่มของ recode ในฐานข้อมูล link analysis สามารถแบ่งออกเป็น 3 ชนิด คือ
-associations discovery
-sequential pattern discovery

-similar time sequence discovery







To Do

1 กำหนด Mining Objective
กำหด เป้าหมายว่าเราต้องการสืบค้นความรูปแบบใดจากการทำ data mining

เราต้องมาคิดกันก่อนว่าจะนำเทคนิคData Miningไปประยุกต์กับด้านใด เพราะเหตุใด และต้องการจะหาความรู้แบบใดออกมาจากการทำData Mining

ข้อมูลที่มีอยู่ในฐานข้อมูล
ตัวอย่างข้อมูลที่ต้องการทราบ
- พฤติกรรมการซื้อ เช่น ประเภทสินค้าที่ซื้อ ช่วงเวลาที่ซื้อ ฤดูกาลที่ซื้อ
- ปริมาณการซื้อของลูกค้า เช่น ประเภทสินค้าที่ซ์อ ช่วงเวลาที่ซื้อ ฤดูกาลที่ซื้อ
- ปริมาณการซื้อของลูกค้าแต่ละประเภทในช่วงเวลาหนึ่ง
- อันดับสินค้าขายดีของลูกค้าแต่ละกลุ่ม
- กลุ่มของลูกค้าที่ทำกำไรให้กับบริษัท เพื่อกำหนดส่วนตลาดย่อยที่สำคัญและกำหนดความสำคัญของลูกค้าเพื่อวางแผนการตลาดส่วนย่อย(Niche Market) ได้
- ติดตามผลหลังการซื้อและขอความคิดเห็นจากลูกค้า
- ประเมินความพึงพอใจจากลูกค้า


2 เตรียมข้อมูลให้พร้อมที่จะนำไปทำ datamining
ซึ่งแบ่งเป็นขั้นตอนต่างๆดังนี้
1. การเตรียมข้อมูลให้สมบูรณ์ (Data cleaning)
2. คัดเลือกข้อมูล (Data Selection)
3. การปรับเปลี่ยนรูปแบบข้อมูล (Dataq Transformation)

2 comments:

Anonymous said...

Thank for ur Topic.

Anonymous said...

ถ้าผม อยาก ทราบ รายละเอียด การทำ data cleaning , data warehouse
พี่ พอ จะ ช่วย เรียบเรียง เนื้อหา ให้ ได้ ไหม ครับ
เพราะ อ่าน ที่ พี่ โพส รู้ เรื่อง กว่า อาจารย์ สอน อีก !!! ^ ^