Data Management II & Business Intelligence
Drill-down คือข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละกลุ่มย่อย ผู้บริหารใช้บ่อย (ตรงกันข้างกับ Roll-up) เช่น ข้อมูลจำนวนนักศึกษา “คณะพาณิชย์” >> แยกตามสาขาวิชา >> แยกตามวิธีรับเข้าศึกษา >> แยกตามภูมิลำเนา
Data Warehouse Process
1.Collect Data both from External data and Operational Data
2.Data Staging : Extract, Clean, Transform and Load .AKA “ETCL” คัดกรองเฉพาะข้อมูลที่ต้องใช้จาก Database เก็บข้อมูลไว้ใน Data Cube
1.Collect Data both from External data and Operational Data
2.Data Staging : Extract, Clean, Transform and Load .AKA “ETCL” คัดกรองเฉพาะข้อมูลที่ต้องใช้จาก Database เก็บข้อมูลไว้ใน Data Cube
Data Mart คือ DW ขนาดย่อม เป็นการตัดแบ่งข้อมูลในมุมมองของผู้ใช้ (กรณีที่มีผู้ใช้หลายคน) โดย copy (replicate) เฉพาะส่วนที่ตนเองต้องการใช้ออกมาจาก DW
Types of Data Mart
1.Replicated data mart : ในกรณีที่องค์กรมี Data Warehouse ขององค์กรอยู่แล้วและทีผู้ใช้ Data Warehouse ที่หลากหลาย จึงจำเป็นต้องมี of Data Martเพิ่มขึ้นมาโดยนำข้อมูลมาจาก Data Warehouse เพื่อจัดระเบียบให้ตรงกับความต้องการใช้
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อม
1.Replicated data mart : ในกรณีที่องค์กรมี Data Warehouse ขององค์กรอยู่แล้วและทีผู้ใช้ Data Warehouse ที่หลากหลาย จึงจำเป็นต้องมี of Data Martเพิ่มขึ้นมาโดยนำข้อมูลมาจาก Data Warehouse เพื่อจัดระเบียบให้ตรงกับความต้องการใช้
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อม
The Data Cube
“Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก สามารถวิเคราะห์ได้ทั้งแบบ Slice และ Dice มีลักษณะคล้ายรูบิค คือพิจารณาได้ทั้งแนวตั้งและแนวนอน และสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆได้ ตัวอย่างเช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลจากภาพรวมไปยังรายละเอียด
“Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก สามารถวิเคราะห์ได้ทั้งแบบ Slice และ Dice มีลักษณะคล้ายรูบิค คือพิจารณาได้ทั้งแนวตั้งและแนวนอน และสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆได้ ตัวอย่างเช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลจากภาพรวมไปยังรายละเอียด
Business Intelligence : BI : รวมเครื่องมือในการทำงานต่างๆและ database เพื่อทำให้สามารถเข้าถึงข้อมูล จัดการข้อมูลได้อย่าง interactive รวมถึงช่วยให้ผู้บริหารและนักวิเคราะห์สามารถวิเคราะห์ข้อมูลต่างๆได้อย่างดียิ่งขึ้น
DW Process คือการคัดกรองข้อมูลจาก Operational/ External เข้าสู่ Meta Data (Data ของ Data) หรือสิ่งที่ใช้ในการอธิบายข้อมูล รวมถึงบอกแนวทางการเคลื่อนย้ายข้อมูล
Data Cleansing คือการแก้ปัญหา Consistency วิธีหนึ่ง เช่น หากเราพบว่า field ข้อมูลช่องหนึ่งหายไป เราอาจหาค่าเฉลี่ยของสองช่องข้างๆ มาใส่ลงไปแทน หรืออาจใช้วิธีอื่น ทั้งนี้ขึ้นกับว่าข้อมูลที่เราใช้มีลักษณะเป็นอย่างไรการกำจัด attribute ที่ไม่จำเป็นออกไป อาจเป็น attribute ที่ค่อนข้าง unique ของแต่ละบุคคล เช่น บ้านเลขที่ หมู่บ้าน ถนน แขวง เขต และจังหวัด เป็นต้น เนื่องจากมีความละเอียดมากเกินไปต่อการวิเคราะห์ข้อมูล โดยอาจแปลง (Transform) ข้อมูลจังหวัดเป็นภูมิภาค แล้วนำข้อมูลที่ได้จากการ transform นี้ไป Load ลงใน Data Cube
Dashboard คือ Interface ที่นำเสนอข้อมูลให้ผู้บริหารไปประเมิน หรือการ upload Business view เพื่อนำไปใช้งานจริง อย่างไรก็ตามการ upload Business view ที่มากจนเกินไปจะทำให้เกิดปัญหาในการใช้งาน อาจดูไม่ทั่วถึง เลือกใช้ได้ไม่เหมาะสม และบางครั้งข้อมูลไม่ค่อย update
Dashboard มักใช้ในการประเมิน performance ตาม balance scorecard ทั้ง 4 ด้าน คือ Financial , Customer ,Internal Process และ Learning and Growth
Dashboard มักใช้ในการประเมิน performance ตาม balance scorecard ทั้ง 4 ด้าน คือ Financial , Customer ,Internal Process และ Learning and Growth
Data Mining คือ การค้นหาสิ่งที่ไม่เคยรู้มาก่อน ก่อให้เกิดความเข้าใจและสามารถปฏิบัติลงมือทำได้ เป็นการทำให้ข้อมูลขององค์กรที่มีอยู่มากมายมหาศาลเกิดประโยชน์ขึ้นมาผ่านการวิเคราะห์ อย่างไรก็ตามการทำ Data Mining จะเกิดประโยชน์ก็ต่อเมื่อสามารถตีความ (Interpretation) หรือเข้าใจในผลลัพธ์ที่ออกมา
5 รูปแบบในการนำเสนอ Data Mining
1. Clustering เกิดจากการ plot ข้อมูลโดยไม่มีการชี้นำ และพบการกระจุกตัวของกลุ่มข้อมูล
2. Classification แบ่งตามเกณฑ์คุณลักษณะต่างๆ โดยคาดผลล่วงหน้า
3. Association เกิดผลสืบเนื่อง เช่น หากลูกค้าเปิดบัญชีออมทรัพย์ อีก 2 เดือนจะทำบัตร ATM เป็นต้น
4. Sequence Discovery เกิดผลตามหลัง
5. Prediction การ Forecast ไปข้างหน้า เช่น เรื่อง Fraud เป็นต้น
Text Mining
ข้อมูลส่วนใหญ่ที่อยู่ใน data warehouse จะเป็นข้อมูลแบบ structured คือมีรูปแบบที่แน่นอน มีชื่อ attribute , ขนาดของ fieldว่ามีกี่ character ซึ่งจะสามารถใช้ Data mining ได้ แต่ในกรณีที่เป็นข้อมูลแบบ unstructured data จะไม่สามารถใช้ data mining ได้ เนื่องจากเป็นข้อมูลที่ไม่ได้มีรูปแบบชัดเจน เช่น complain จากลูกค้า ซึ่งข้อมูลประเภท unstructured นี้มีการเติบโตสูงมาก
ข้อมูลส่วนใหญ่ที่อยู่ใน data warehouse จะเป็นข้อมูลแบบ structured คือมีรูปแบบที่แน่นอน มีชื่อ attribute , ขนาดของ fieldว่ามีกี่ character ซึ่งจะสามารถใช้ Data mining ได้ แต่ในกรณีที่เป็นข้อมูลแบบ unstructured data จะไม่สามารถใช้ data mining ได้ เนื่องจากเป็นข้อมูลที่ไม่ได้มีรูปแบบชัดเจน เช่น complain จากลูกค้า ซึ่งข้อมูลประเภท unstructured นี้มีการเติบโตสูงมาก
ฐิตยาภรณ์ ธีรานุวรรตน์ 5202115381