Συνθετική Εργασία με τον SQL Server Business Intelligence

Διδάσκων : Δρ. Παναγιώτης Συμεωνίδης

Εαρινό Εξάμηνο: 2014-2015

 

Ας υποθέσουμε ότι είμαστε οι διαχειριστές της  βάσης δεδομένων της εταιρίας FoodMart. Η FoodMart είναι μια μεγάλη αλυσίδα παντοπωλείων με πωλήσεις στις Ηνωμένες Πολιτείες, το Μεξικό, και τον Καναδά. Το εμπορικό τμήμα της εταιρείας FoodMart θέλει να αναλύσει όλες τις πωλήσεις των προϊόντων της και την αγοραστική συμπεριφορά των πελατών της που έγιναν κατά τη διάρκεια του τρίτου τετραμήνου του 1997 (610>=time_id<732). Σημειώστε ότι στη βάση δεδομένων η διάσταση του χρόνου αποθηκεύεται στο επίπεδο ημέρας μιας συναλλαγής με την χρήση του πεδίου time_id.  Χρησιμοποιώντας τα στοιχεία που αποθηκεύονται στην βάση δεδομένων της επιχείρησης,  να χτίσετε μια πολυδιάστατη δομή δεδομένων (ένα κύβο) για να επιτρέψουμε τους γρήγορους χρόνους απόκρισης της βάσης, όταν ρωτούν σε αυτήν οι εμπορικοί αναλυτές της εταιρείας.

 

1.   Δημιουργήστε ένα κύβο (Cube) με τα εξής στοιχεία :

Πίνακας γεγονότων: Sales_fact_1997

Πίνακες διαστάσεων: Product, Time By Day, Store, Customer

Μετρικά: store_sales, store_cost και unit_sales.

(Παραδοτέο είναι το σχήμα του κύβου):

 

Απεικονίστε στο Excel γραφήματα για τα αποτελέσματα για τα εξής :

    1. Πωλήσεις της εταιρείας για το 3ο  τετράμηνο του 1997 ανά πολιτεία της USA.
    2. Ποια 5 προϊόντα σημείωσαν τις μεγαλύτερες πωλήσεις το μήνα Δεκέμβριο του 1997;
    3. Ανακαλύψτε μια πολύτιμη πληροφορία που θα εντυπωσίαζε τον προϊστάμενο σας;

(Παραδοτέα είναι τα διαγράμματα):

 

  1. Προκειμένου να επαναπροσδιοριστεί το πρόγραμμα Κάρτας Μέλους, το εμπορικό τμήμα θέλει να αναλύσει τις συναλλαγές πωλήσεων και να ανακαλύψει τα πρότυπα μεταξύ των δημογραφικών πληροφοριών των πελατών (φύλλο, συζυγική κατάσταση, ετήσιο εισόδημα, αριθμός παιδιών στο σπίτι, αριθμός αυτοκινήτων, εκπαίδευση) και της κάρτας που αυτοί χρησιμοποίησαν. Με αυτήν την γνώση, οι κάρτες θα επαναπροσδιοριστούν βασισμένες στα χαρακτηριστικά των πελατών που τις χρησιμοποίησαν. Να δημιουργηθεί ένα μοντέλο για να εκπαιδευτούν τα στοιχεία των πωλήσεων και να χρησιμοποιηθεί ο αλγόριθμος Decision Tree της για να βρεθούν τα κύρια στοιχεία που συντελούν στην επιλογή μιας  κάρτας μέλους(π.χ. χρυσή κάρτα μέλους, ασημένια κάρτα μέλους κτλ.) . Η κύρια διάσταση που θα χρησιμοποιηθεί θα είναι ο πίνακας των Πελατών, ενώ η κύρια ιδιότητα που θα διερευνηθεί θα είναι αυτή της κάρτας μέλους (Member_Card). Κατόπιν να επιλεχθεί  ένας κατάλογος δημογραφικών χαρακτηριστικών από τα οποία ο αλγόριθμος θα καθορίσει τα πρότυπα: Ενδεικτικά αναφέρονται τα παρακάτω χαρακτηριστικά: φύλλο, συζυγική κατάσταση, ετήσιο εισόδημα, αριθμός παιδιών στο σπίτι, αριθμός αυτοκινήτων και εκπαίδευση.
    1. Δημιουργήστε 2 δέντρα απόφασης  για πρόβλεψη της ιδιότητας Member Card από τις ιδιότητες: Gender, Marital Status, Num Cars Owned, Num Children At Home, Yearly Income, Education. (Παραδοτέα είναι η απεικόνιση των δένδρου)
    2. Προτείνεται εκείνο το μοντέλο δέντρου απόφασης που πετυχαίνει ακριβέστερο προσδιορισμό των κατόχων ασημένιας κάρτας. (Παραδοτέο είναι το Lift Chart όπου θα απεικονίζει 4 καμπύλες: ideal, random, decision tree model 1, decision tree model 2)

 

  1. Το εμπορικό τμήμα της εταιρείας FoodMart έχει καθορίσει ένα χρηματικό προϋπολογισμό για να δημιουργήσει τρεις εκδόσεις του εβδομαδιαίου ενημερωτικού περιοδικού που εκδίδει.  Θέλει να τρέξει μερικές διαδικασίες εξόρυξης δεδομένων, μέσω των στοιχείων πωλήσεων που διαθέτει, για να προσδιορίσει τρεις ομάδες πελατών. Με βάση τα χαρακτηριστικά αυτών των ομάδων, θα είναι σε θέση να επιλέξει  τον τύπο των διαφημίσεων και προσφορών  που θα παρεμβάλλει σε κάθε έκδοση του εβδομαδιαίου του περιοδικού. Θα είναι σε θέση, επίσης, να ξέρει  σε ποια κατηγορία πελατών θα αποσταλεί ή κάθε μία από τις τρεις εκδόσεις του περιοδικού.

 

    1. Δημιουργείστε με τον k-Means 2 μοντέλα ομαδοποίησης με 3 ομάδες πελατών βάσει των δημογραφικών τους χαρακτηριστικών. Ενδεικτικά αναφέρονται τα παρακάτω δημογραφικά χαρακτηριστικά: φύλλο, συζυγική κατάσταση, ετήσιο εισόδημα, αριθμός παιδιών στο σπίτι, αριθμός αυτοκινήτων και εκπαίδευση.
    2. Δώστε τα αποτελέσματα σύγκρισης μεταξύ Cluster1 και Cluster2, Cluster2 και Cluster3, και Cluster1 και Cluster3. (Παραδοτέα είναι οι 3 πίνακες Cluster Discrimination για κάθε μοντέλο)
    3. Προσδιορίστε ποιο από τα δύο μοντέλα τελικά προτείνετε καθώς επίσης και τους λόγους της απόφασης σας.

 

  1. Θέλουμε να βρούμε συσχετίσεις μεταξύ των ιδιοτήτων των πελατών. Από τον διάσταση Customer του προηγούμενου κύβου, δημιουργήστε Association Rules από τις εξής ιδιότητες (θα είναι και input και predictable):

 

    1. City, Education, Gender, Houseowner, Marital Status (support, confidence αφήστε τις default τιμές)
    2. Αναφέρετε τους 5 κανόνες με την μεγαλύτερη τιμή Probability  (Παραδοτέο είναι οι 5 κανόνες και οι τιμές Probability και Importance)
    3. Αποτυπώστε το Dependency Network με τις πιο ισχυρές συσχετίσεις (Παραδοτέο είναι το αντίστοιχο διάγραμμα)
    4. Σχολιάστε τα αποτελέσματα.

 

5.      Έστω ότι εργάζεστε για την AdventureWorks, μια πολυεθνική εταιρία που εμπορεύεται τέσσερις τύπους ποδηλάτων (Μ200, R250, R750 και Τ1000) σε τρεις ηπείρους (Ευρώπη, Βόρεια Αμερική και Ειρηνικό). Το sales department επιθυμεί να προβλέψει τις πωλήσεις του επόμενου εξαμήνου (Ιανουάριος 2008 έως Ιούνιος 2008) για το μοντέλο ποδηλάτου R750 βάσει των πωλήσεων που σημειώθηκαν στο παρελθόν (Ιούλιος 2005 έως Δεκέμβριο του 2007) στις τρεις περιοχές.

 

    1. Δημιουργήστε δύο μοντέλα χρονοσειράς όπου θα έχουν ως input και predictable το πεδίο amount.

(Παραδοτέα είναι τα 2 διαγράμματα/charts του mining model viewer)

    1. Σχολιάστε τα αποτελέσματα βάσει της πρόβλεψης πωλήσεων του κάθε μοντέλου. Ποιο από τα δύο μοντέλα σας φαίνεται πιο ρεαλιστικό και γιατί;
    2. Συγκρίνετε τις predicted values του κάθε μοντέλου με το τι πραγματικά έγινε στο πρώτο εξάμηνο του 2008 (actual values), σε ένα φύλλο του excel. (Παραδοτέα είναι δύο διαγράμματα με συγκρίσεις καμπυλών τιμών μεταξύ προβλέψιμων και  πραγματικών τιμών πωλήσεων)

                             

Σημείωση: Θα πρέπει να δημιουργήσετε ένα νέο ερώτημα (Data Source View and New named query) που να επιλέγει δεδομένα μόνο μέχρι τις 31-12-2007 και να τρέξετε μόνο στο συγκεκριμένο χρονικό διάστημα τιμών τον αλγόριθμο time series.