Συνθετική
Εργασία με τον SQL Server Business Intelligence
Διδάσκων : Δρ.
Παναγιώτης
Συμεωνίδης
Εαρινό
Εξάμηνο: 2014-2015
Ας
υποθέσουμε ότι
είμαστε οι
διαχειριστές
της
βάσης
δεδομένων της
εταιρίας FoodMart. ¶Η FoodMart είναι μια
μεγάλη αλυσίδα
παντοπωλείων
με πωλήσεις
στις Ηνωμένες
Πολιτείες, το
Μεξικό, και τον
Καναδά. Το
εμπορικό τμήμα
της εταιρείας FoodMart θέλει να
αναλύσει όλες
τις πωλήσεις
των προϊόντων
της και την
αγοραστική
συμπεριφορά
των πελατών της
που έγιναν
κατά τη
διάρκεια του τρίτου τετραμήνου
του 1997 (610>=time_id<732).
Σημειώστε ότι
στη βάση
δεδομένων η
διάσταση του
χρόνου
αποθηκεύεται
στο επίπεδο
ημέρας μιας συναλλαγής
με την χρήση
του πεδίου time_id. ¶Χρησιμοποιώντας
τα στοιχεία
που
αποθηκεύονται στην
βάση δεδομένων
της
επιχείρησης, να
χτίσετε μια
πολυδιάστατη
δομή δεδομένων
(ένα κύβο) για να
επιτρέψουμε
τους γρήγορους
χρόνους απόκρισης
της βάσης, όταν
ρωτούν σε
αυτήν οι
εμπορικοί
αναλυτές της
εταιρείας.
1. Δημιουργήστε
¶ ένα
κύβο (Cube) με
τα εξής
στοιχεία :
Πίνακας γεγονότων: Sales_fact_1997
Πίνακες διαστάσεων: Product, Time By Day, Store, Customer
Μετρικά: store_sales, store_cost
και unit_sales.
(Παραδοτέο
είναι το σχήμα
του κύβου):
Απεικονίστε
στο Excel
γραφήματα για
τα
αποτελέσματα
για τα εξής :
- Πωλήσεις
της εταιρείας
για το 3ο τετράμηνο
του 1997 ανά
πολιτεία της USA.
- Ποια
5 προϊόντα
σημείωσαν τις
μεγαλύτερες
πωλήσεις το
μήνα
Δεκέμβριο του
1997;
- Ανακαλύψτε
μια πολύτιμη
πληροφορία
που θα εντυπωσίαζε
τον
προϊστάμενο
σας;
(Παραδοτέα
είναι τα
διαγράμματα):
- Προκειμένου
να
επαναπροσδιοριστεί
το πρόγραμμα
Κάρτας Μέλους,
το εμπορικό τμήμα
θέλει να
αναλύσει τις
συναλλαγές
πωλήσεων και
να ανακαλύψει
τα πρότυπα
μεταξύ των
δημογραφικών
πληροφοριών
των πελατών
(φύλλο,
συζυγική κατάσταση,
ετήσιο
εισόδημα,
αριθμός
παιδιών στο
σπίτι, αριθμός
αυτοκινήτων,
εκπαίδευση)
και της κάρτας
που αυτοί χρησιμοποίησαν.
Με αυτήν την
γνώση, οι
κάρτες θα επαναπροσδιοριστούν
βασισμένες
στα
χαρακτηριστικά
των πελατών
που τις
χρησιμοποίησαν.
Να δημιουργηθεί
ένα μοντέλο
για να
εκπαιδευτούν
τα στοιχεία
των πωλήσεων και
να
χρησιμοποιηθεί
ο αλγόριθμος Decision Tree της για να
βρεθούν τα
κύρια
στοιχεία που
συντελούν
στην επιλογή
μιας
κάρτας
μέλους(π.χ. χρυσή
κάρτα μέλους,
ασημένια
κάρτα μέλους
κτλ.) . Η κύρια
διάσταση που
θα
χρησιμοποιηθεί
θα είναι ο
πίνακας των
Πελατών, ενώ η
κύρια
ιδιότητα που
θα
διερευνηθεί
θα είναι αυτή
της κάρτας
μέλους (Member_Card). Κατόπιν
να επιλεχθεί ένας
κατάλογος δημογραφικών
χαρακτηριστικών
από τα οποία ο
αλγόριθμος θα
καθορίσει τα
πρότυπα:
Ενδεικτικά
αναφέρονται
τα παρακάτω
χαρακτηριστικά:
φύλλο,
συζυγική
κατάσταση,
ετήσιο
εισόδημα, αριθμός
παιδιών στο
σπίτι, αριθμός
αυτοκινήτων
και εκπαίδευση.
- Δημιουργήστε 2 δέντρα απόφασης για πρόβλεψη της ιδιότητας Member Card από τις ιδιότητες: Gender, Marital Status, Num Cars
Owned, Num Children At Home, Yearly Income, Education. (Παραδοτέα
είναι η
απεικόνιση
των δένδρου)
- Προτείνεται
εκείνο το
μοντέλο
δέντρου
απόφασης που
πετυχαίνει
ακριβέστερο
προσδιορισμό
των κατόχων
ασημένιας
κάρτας. (Παραδοτέο
είναι το Lift Chart όπου
θα απεικονίζει 4 καμπύλες: ideal, random, decision tree model 1, decision tree model 2)
- Το
εμπορικό
τμήμα της
εταιρείας FoodMart έχει
καθορίσει ένα
χρηματικό
προϋπολογισμό
για να
δημιουργήσει
τρεις
εκδόσεις του
εβδομαδιαίου
ενημερωτικού
περιοδικού
που εκδίδει. Θ¶έλει
να τρέξει
μερικές
διαδικασίες
εξόρυξης δεδομένων,
μέσω των
στοιχείων
πωλήσεων που
διαθέτει, για
να
προσδιορίσει
τρεις ομάδες
πελατών. ¶Με βάση τα
χαρακτηριστικά
αυτών των
ομάδων, θα είναι
σε θέση να
επιλέξει τον
τύπο των διαφημίσεων
και προσφορών που θα
παρεμβάλλει
σε κάθε έκδοση
του
εβδομαδιαίου
του
περιοδικού. ¶Θα
είναι σε θέση,
επίσης, να
ξέρει
σε ποια κατηγορία
πελατών θα
αποσταλεί ή
κάθε μία από
τις τρεις
εκδόσεις του
περιοδικού. ¶
- Δημιουργείστε
με τον k-Means 2
μοντέλα
ομαδοποίησης με
3 ομάδες
πελατών βάσει
των
δημογραφικών
τους χαρακτηριστικών.
Ενδεικτικά
αναφέρονται
τα παρακάτω
δημογραφικά
χαρακτηριστικά:
φύλλο,
συζυγική
κατάσταση,
ετήσιο
εισόδημα,
αριθμός
παιδιών στο
σπίτι,
αριθμός
αυτοκινήτων
και
εκπαίδευση.
- Δώστε
τα
αποτελέσματα
σύγκρισης
μεταξύ Cluster1 και Cluster2, Cluster2 και Cluster3, και Cluster1 και Cluster3. (Παραδοτέα
είναι οι 3
πίνακες Cluster Discrimination
για κάθε
μοντέλο)
- Προσδιορίστε
ποιο από τα
δύο μοντέλα
τελικά προτείνετε
καθώς επίσης
και τους
λόγους της
απόφασης σας.
- Θέλουμε
να βρούμε
συσχετίσεις
μεταξύ των
ιδιοτήτων των
πελατών. Από
τον διάσταση Customer του
προηγούμενου
κύβου,
δημιουργήστε Association Rules από τις εξής
ιδιότητες (θα
είναι και input και predictable):
- City,
Education, Gender, Houseowner, Marital Status
(support, confidence αφήστε τις default τιμές)
- Αναφέρετε
τους 5 κανόνες
με την
μεγαλύτερη
τιμή Probability (Παραδοτέο
είναι οι 5
κανόνες και
οι τιμές Probability και Importance)
- Αποτυπώστε
το Dependency Network με τις πιο
ισχυρές
συσχετίσεις (Παραδοτέο
είναι το
αντίστοιχο
διάγραμμα)
- Σχολιάστε
τα
αποτελέσματα.
5.
Έστω
ότι εργάζεστε
για την AdventureWorks, μια
πολυεθνική
εταιρία που
εμπορεύεται
τέσσερις
τύπους
ποδηλάτων (Μ200, R250, R750 και Τ1000) σε
τρεις ηπείρους
(Ευρώπη, Βόρεια
Αμερική και
Ειρηνικό). Το sales department
επιθυμεί να
προβλέψει τις
πωλήσεις του
επόμενου εξαμήνου
(Ιανουάριος 2008
έως Ιούνιος 2008)
για το μοντέλο
ποδηλάτου R750
βάσει των
πωλήσεων που
σημειώθηκαν
στο παρελθόν
(Ιούλιος 2005 έως
Δεκέμβριο του 2007)
στις τρεις
περιοχές.
- Δημιουργήστε
δύο μοντέλα χρονοσειράς
όπου θα έχουν
ως input και predictable το πεδίο amount.
(Παραδοτέα
είναι τα 2
διαγράμματα/charts του mining model viewer)
- Σχολιάστε
τα
αποτελέσματα
βάσει της
πρόβλεψης πωλήσεων
του κάθε
μοντέλου.
Ποιο από τα
δύο μοντέλα
σας φαίνεται
πιο
ρεαλιστικό
και γιατί;
- Συγκρίνετε
τις predicted values του κάθε
μοντέλου με
το τι
πραγματικά
έγινε στο πρώτο
εξάμηνο του 2008 (actual values), σε
ένα φύλλο του excel. (Παραδοτέα
είναι δύο
διαγράμματα
με συγκρίσεις
καμπυλών
τιμών μεταξύ
προβλέψιμων
και
πραγματικών
τιμών πωλήσεων)
Σημείωση: Θα πρέπει
να
δημιουργήσετε
ένα νέο
ερώτημα (Data Source View and New named query) που να
επιλέγει
δεδομένα μόνο
μέχρι τις 31-12-2007 και
να τρέξετε
μόνο στο
συγκεκριμένο
χρονικό
διάστημα τιμών
τον αλγόριθμο time series.