Συνθετική
Εργασία με τον SQL Server 2008 R2 Business Intelligence
Διδάσκων : Δρ.
Παναγιώτης
Συμεωνίδης
Εαρινό
Εξάμηνο: 2012-2013
Ας υποθέσουμε
ότι είμαστε οι
διαχειριστές
της
βάσης
δεδομένων της
εταιρίας FoodMart. ¶Η FoodMart είναι μια
μεγάλη αλυσίδα
παντοπωλείων
με πωλήσεις
στις Ηνωμένες
Πολιτείες, το
Μεξικό, και τον
Καναδά. Το
εμπορικό τμήμα
της εταιρείας FoodMart θέλει να
αναλύσει όλες
τις πωλήσεις
των προϊόντων
της και την
αγοραστική
συμπεριφορά
των πελατών της
που έγιναν
κατά τη
διάρκεια του δευτέρου
εξαμήνου του
1997. ¶Χρησιμοποιώντας
τα στοιχεία
που
αποθηκεύονται στην
βάση δεδομένων
της
επιχείρησης, να χτίσετε
μια
πολυδιάστατη
δομή δεδομένων
(ένα κύβο) για να
επιτρέψουμε
τους γρήγορους
χρόνους απόκρισης
της βάσης, όταν
ρωτούν σε
αυτήν οι
εμπορικοί
αναλυτές της
εταιρείας
1. Δημιουργήστε
¶ ένα
κύβο (Cube) με
τα εξής
στοιχεία :
- Πίνακας
γεγονότων: Sales_fact_1997
- Πίνακες
διαστάσεων: Product, Time By Day, Store, Customer
- Μετρικά: store_sales, store_cost και unit_sales.
(Παραδοτέο
είναι το σχήμα
του κύβου):
Απεικονίστε
στο Excel
γραφήματα για
τα
αποτελέσματα
για τα εξής :
- Πωλήσεις
της εταιρείας
για το τρίτο
τρίμηνο του 1997 ανά
πολιτεία της USA.
- Κόστος
πωλήσεων της
εταιρείας για
το τρίτο
τρίμηνο του 1997
ανά πολιτεία
της USA
- Ποια
5 καταστήματα
σημείωσαν τις
μεγαλύτερες
πωλήσεις για
το τρίτο
τρίμηνο του 1997;
- Ποια 5
προϊόντα
σημείωσαν τις
μεγαλύτερες
πωλήσεις το
μήνα Ιούλιο
του 1997;
- Ανακαλύψτε
μια πολύτιμη
πληροφορία
που θα εντυπωσίαζε
τον
προϊστάμενο
σας;
(Παραδοτέα
είναι τα
διαγράμματα):
- Το
εμπορικό
τμήμα θέλει να
αυξήσει την
ικανοποίηση
των πελατών
και το ποσοστό
διατήρησης
αυτών. Το
πρόγραμμα καρτών
μέλους θα
επαναπροσδιοριστεί
για να εξυπηρετήσει
τους πελάτες
καλύτερα και
για να παρέχει
υπηρεσίες που
εκπληρώνουν
περισσότερο
τις προσδοκίες
των πελατών.
Προκειμένου
να
επαναπροσδιοριστεί
το πρόγραμμα
Κάρτας Μέλους,
το εμπορικό
τμήμα θέλει να
αναλύσει τις
συναλλαγές
πωλήσεων και
να ανακαλύψει
τα πρότυπα
μεταξύ των
δημογραφικών
πληροφοριών
των πελατών
(φύλλο,
συζυγική
κατάσταση,
ετήσιο εισόδημα,
αριθμός
παιδιών στο
σπίτι, αριθμός
αυτοκινήτων,
εκπαίδευση)
και της κάρτας
που αυτοί
χρησιμοποίησαν. Με
αυτήν την
γνώση, οι
κάρτες θα
επαναπροσδιοριστούν
βασισμένες
στα
χαρακτηριστικά
των πελατών
που τις
χρησιμοποίησαν.
Να
δημιουργηθεί
ένα μοντέλο
για να εκπαιδευτούν
τα στοιχεία
των πωλήσεων
και να
χρησιμοποιηθεί
ο αλγόριθμος Decision Tree της Microsoft για να
βρεθούν τα
κύρια
στοιχεία που
συντελούν στην
επιλογή μιας κάρτας
μέλους(π.χ.
χρυσή κάρτα
μέλους,
ασημένια
κάρτα μέλους
κτλ.) . Η κύρια διάσταση
που θα χρησιμοποιηθεί
θα είναι ο
πίνακας των
Πελατών, ενώ η κύρια
ιδιότητα που
θα
διερευνηθεί
θα είναι αυτή
της κάρτας
μέλους (Member_Card). Κατόπιν
να επιλεχθεί ένας
κατάλογος δημογραφικών
χαρακτηριστικών
από τα οποία ο
αλγόριθμος (Decision Tree της Microsoft) θα καθορίσει
τα πρότυπα:
Ενδεικτικά
αναφέρονται
τα παρακάτω
χαρακτηριστικά
: φύλλο,
συζυγική
κατάσταση,
ετήσιο
εισόδημα,
αριθμός
παιδιών στο
σπίτι, αριθμός
αυτοκινήτων
και
εκπαίδευση.
- Δημιουργήστε 2 δέντρα απόφασης για πρόβλεψη της ιδιότητας Member Card από τις ιδιότητες: Gender, Marital Status, Num
Cars Owned, Num Children At Home, Yearly Income, Education. (Παραδοτέα
είναι η
απεικόνιση
των δένδρου)
- Προτείνεται
εκείνο το
μοντέλο
δέντρου
απόφασης που
πετυχαίνει
ακριβέστερο
προσδιορισμό
των κατόχων
ασημένιας κάρτας.
(Παραδοτέο
είναι το Lift Chart όπου
θα απεικονίζει 4 καμπύλες (ideal, random, decision tree model 1, decision tree model 2)
- Σχολιάστε
τα
αποτελέσματα.
- Το
εμπορικό
τμήμα της
εταιρείας FoodMart έχει
καθορίσει ένα
χρηματικό
προϋπολογισμό
για να δημιουργήσει
τρεις
εκδόσεις του
εβδομαδιαίου
ενημερωτικού
περιοδικού
που εκδίδει. Θ¶έλει
να τρέξει
μερικές
διαδικασίες
εξόρυξης δεδομένων,
μέσω των
στοιχείων
πωλήσεων που
διαθέτει, για
να
προσδιορίσει
τρεις ομάδες
πελατών. ¶Με βάση τα
χαρακτηριστικά
αυτών των ομάδων,
θα είναι σε
θέση να
επιλέξει τον τύπο
των
διαφημίσεων
και
προσφορών που θα παρεμβάλλει
σε κάθε έκδοση
του
εβδομαδιαίου
του περιοδικού.
¶Θα
είναι σε θέση,
επίσης, να
ξέρει
σε ποια κατηγορία
πελατών θα
αποσταλεί ή
κάθε μία από
τις τρεις
εκδόσεις του
περιοδικού. ¶
- Δημιουργείστε
με τον k-Means 2
μοντέλα
ομαδοποίησης
με 3 ομάδες
πελατών βάσει
των
δημογραφικών
τους
χαρακτηριστικών.
Ενδεικτικά
αναφέρονται
τα παρακάτω
δημογραφικά
χαρακτηριστικά:
φύλλο,
συζυγική
κατάσταση,
ετήσιο εισόδημα,
αριθμός παιδιών
στο σπίτι,
αριθμός
αυτοκινήτων
και
εκπαίδευση.
- Δώστε τα
αποτελέσματα
σύγκρισης
μεταξύ Cluster1 και Cluster2, Cluster2 και Cluster3, και Cluster1 και Cluster3. (Παραδοτέα
είναι οι 3
πίνακες Cluster Discrimination
για κάθε
μοντέλο)
- Προσδιορίστε
ποιο από τα
δύο μοντέλα
τελικά
προτείνετε
καθώς επίσης
και τους
λόγους της
απόφασης σας.
- Θέλουμε
να βρούμε
συσχετίσεις
μεταξύ των
ιδιοτήτων των
πελατών. Από
την διάσταση Customer του
προηγούμενου
κύβου,
δημιουργήστε Association Rules από τις εξής
ιδιότητες (θα
είναι και input και predictable):
- City, Education, Gender, Houseowner, Marital Status (support, confidence αφήστε τις default τιμές)
- Αναφέρετε
τους 5 κανόνες
με την
μεγαλύτερη
τιμή Probability (Παραδοτέο
είναι οι 5
κανόνες και
οι τιμές Probability και Importance)
- Αποτυπώστε
το Dependency Network με τις πιο
ισχυρές
συσχετίσεις (Παραδοτέο
είναι το
αντίστοιχο
διάγραμμα)
- Σχολιάστε
τα
αποτελέσματα.