วันพุธที่ 19 มกราคม พ.ศ. 2554

Class 9 19/01/54

Data Management II & Business Intelligence
*    Drill-down คือข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละกลุ่มย่อย ผู้บริหารใช้บ่อย (ตรงกันข้างกับ Roll-up) เช่น ข้อมูลจำนวนนักศึกษา คณะพาณิชย์ >> แยกตามสาขาวิชา >> แยกตามวิธีรับเข้าศึกษา >> แยกตามภูมิลำเนา

*    Data Warehouse Process
1.Collect Data both from External data and Operational Data
2.Data Staging : Extract, Clean, Transform and Load .AKA “ETCL” คัดกรองเฉพาะข้อมูลที่ต้องใช้จาก Database เก็บข้อมูลไว้ใน Data Cube

*    Data Mart คือ DW ขนาดย่อม เป็นการตัดแบ่งข้อมูลในมุมมองของผู้ใช้ (กรณีที่มีผู้ใช้หลายคน) โดย copy (replicate) เฉพาะส่วนที่ตนเองต้องการใช้ออกมาจาก DW

*    Types of Data Mart
1.Replicated data mart : ในกรณีที่องค์กรมี Data Warehouse ขององค์กรอยู่แล้วและทีผู้ใช้ Data Warehouse ที่หลากหลาย จึงจำเป็นต้องมี of Data Martเพิ่มขึ้นมาโดยนำข้อมูลมาจาก Data Warehouse เพื่อจัดระเบียบให้ตรงกับความต้องการใช้
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อม

*    The Data Cube
“Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก สามารถวิเคราะห์ได้ทั้งแบบ Slice และ Dice มีลักษณะคล้ายรูบิค คือพิจารณาได้ทั้งแนวตั้งและแนวนอน และสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆได้ ตัวอย่างเช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลจากภาพรวมไปยังรายละเอียด

*    Business Intelligence : BI : รวมเครื่องมือในการทำงานต่างๆและ database เพื่อทำให้สามารถเข้าถึงข้อมูล จัดการข้อมูลได้อย่าง interactive รวมถึงช่วยให้ผู้บริหารและนักวิเคราะห์สามารถวิเคราะห์ข้อมูลต่างๆได้อย่างดียิ่งขึ้น


*    DW Process คือการคัดกรองข้อมูลจาก Operational/ External เข้าสู่ Meta Data (Data ของ Data) หรือสิ่งที่ใช้ในการอธิบายข้อมูล รวมถึงบอกแนวทางการเคลื่อนย้ายข้อมูล
*    Data Cleansing คือการแก้ปัญหา Consistency วิธีหนึ่ง เช่น หากเราพบว่า field ข้อมูลช่องหนึ่งหายไป เราอาจหาค่าเฉลี่ยของสองช่องข้างๆ มาใส่ลงไปแทน หรืออาจใช้วิธีอื่น ทั้งนี้ขึ้นกับว่าข้อมูลที่เราใช้มีลักษณะเป็นอย่างไรการกำจัด attribute ที่ไม่จำเป็นออกไป อาจเป็น attribute ที่ค่อนข้าง unique ของแต่ละบุคคล เช่น บ้านเลขที่ หมู่บ้าน ถนน แขวง เขต และจังหวัด เป็นต้น เนื่องจากมีความละเอียดมากเกินไปต่อการวิเคราะห์ข้อมูล โดยอาจแปลง (Transform) ข้อมูลจังหวัดเป็นภูมิภาค แล้วนำข้อมูลที่ได้จากการ transform นี้ไป Load ลงใน Data Cube
*    Dashboard คือ Interface ที่นำเสนอข้อมูลให้ผู้บริหารไปประเมิน หรือการ upload Business view เพื่อนำไปใช้งานจริง อย่างไรก็ตามการ upload Business view ที่มากจนเกินไปจะทำให้เกิดปัญหาในการใช้งาน อาจดูไม่ทั่วถึง เลือกใช้ได้ไม่เหมาะสม และบางครั้งข้อมูลไม่ค่อย update
                Dashboard  มักใช้ในการประเมิน performance ตาม balance scorecard ทั้ง 4 ด้าน คือ Financial , Customer ,Internal Process และ Learning and Growth

*    Data Mining  คือ การค้นหาสิ่งที่ไม่เคยรู้มาก่อน ก่อให้เกิดความเข้าใจและสามารถปฏิบัติลงมือทำได้ เป็นการทำให้ข้อมูลขององค์กรที่มีอยู่มากมายมหาศาลเกิดประโยชน์ขึ้นมาผ่านการวิเคราะห์ อย่างไรก็ตามการทำ Data Mining จะเกิดประโยชน์ก็ต่อเมื่อสามารถตีความ (Interpretation) หรือเข้าใจในผลลัพธ์ที่ออกมา

*    5 รูปแบบในการนำเสนอ Data Mining
1.       Clustering เกิดจากการ plot ข้อมูลโดยไม่มีการชี้นำ และพบการกระจุกตัวของกลุ่มข้อมูล
2.       Classification แบ่งตามเกณฑ์คุณลักษณะต่างๆ โดยคาดผลล่วงหน้า
3.       Association เกิดผลสืบเนื่อง เช่น หากลูกค้าเปิดบัญชีออมทรัพย์ อีก 2 เดือนจะทำบัตร ATM เป็นต้น
4.       Sequence Discovery เกิดผลตามหลัง
5.       Prediction การ Forecast ไปข้างหน้า เช่น เรื่อง Fraud เป็นต้น
*    Text Mining
ข้อมูลส่วนใหญ่ที่อยู่ใน data warehouse จะเป็นข้อมูลแบบ structured คือมีรูปแบบที่แน่นอน มีชื่อ attribute , ขนาดของ fieldว่ามีกี่ character ซึ่งจะสามารถใช้ Data mining ได้ แต่ในกรณีที่เป็นข้อมูลแบบ unstructured data จะไม่สามารถใช้ data mining ได้ เนื่องจากเป็นข้อมูลที่ไม่ได้มีรูปแบบชัดเจน เช่น complain จากลูกค้า ซึ่งข้อมูลประเภท unstructured นี้มีการเติบโตสูงมาก
ฐิตยาภรณ์ ธีรานุวรรตน์ 5202115381

วันพุธที่ 12 มกราคม พ.ศ. 2554

class 8

Data management

  • ระบบ  >>  คือการเอาหน่วยย่อยๆมาทำงานร่วมกัน โดย Input ผ่าน Process ได้ Output
  • ระบบสารสนเทศ  >>  เป็นระบบที่ทำหน้าที่ในการรวบรวมข้อมูลเพื่อนำมาประมวลผล  วิเคราะห์  เพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะด้าน  และนำเสนอสารสนเทศให้กับผู้ที่ต้องการ  ซึ่งต้องเป็นผู้มีสิทธิ์ได้รับสารสนเทศ  รวมทั้งการจัดเก็บ  บันทึกข้อมูลที่นำเข้ามาสู่ระบบไว้เพื่อการใช้งานในอนาคต
*    องค์ประกอบของระบบสารสนเทศ  ได้แก่
1.                Hardware
2.               Software
3.               Data
4.               Network
5.               Procedure
6.               People 
*    ปัญหาในการจัดการข้อมูล
  • จำนวนข้อมูลที่เพิ่มขึ้นอย่างรวดเร็ว
  • ข้อมูลกระจัดกระจายทำให้เกิดความซ้ำซ้อนของข้อมูล
  • ความจำเป็นของการใช้ข้อมูลจากภายนอกเืพื่อใช้ในการตัดสินใจ
  • ประเด็นด้านความปลอดภัย  คุณภาพ  เป็นประเด็นที่มีความสำคัญ
  • การเลือกเครื่องมือในการจัดการข้อมูลถือเป็นปัญหาสำคัญ
*    องค์ประกอบของ Data Management
  • Data profiling
  • Data quality management
  • Data integration
  • Data augmentation
*    Data life cycle process
1.               New data collection
2.               Stored in a database
3.               Users access the database and take a copy of the needed data for analysis
4.               Use Data analysis tools or Data mining tools for analysing
*    Data Sources
  • Internal Data
  • External Data
  • Personal Data
*    Data Processing
  • Transactional  
ข้อมูลใน Transaction Processing System (TPS) จะถูกจัดการเป็นลำดับขั้น และถูกจัดการโดยส่วนกลา
  • Analytical
เครื่องมือที่ใช้ในการวิเคราะห์  เช่น OLAP  EIS DSS 
การดึงข้อมูลมาจาก Database อาจทำให้ระบบ TPS ทำงานล่าช้า  เนื่องจาก Database ขึ้นอยู่กับ TPS ดังนั้นองค์กรจึงสร้าง Data warehouseเพื่อแยก Operational process และ Analytical process ออกจากกัน
*    Characteristics of Data Warehouses
1.               Organization 
2.               Consistency 
3.               Time variant  
4.               Non-volatile
5.               Relational
6.               Client/Server
*    ความเหมาะสมขององค์กรในการใช้Data Warehouses
  • เหมาะสำหรับองค์กรที่มีขนาดใหญ่ที่มีข้อมูลเป็นจำนวนมากที่ End user ต้องการใช้
  • Operational data ถูกจัดเก็บในหลายระบบ
  • มีจำนวนลูกค้าจำนวนมาก และหลากหลาย
  • ข้อมูลเดียวกันถูกแสดงแตกต่างกันในระบบที่ต่างกันออกไป
ฐิตยาภรณ์ ธีรานุวรรตน์ 5202115381