Databases and Data Mining

Βάσεις Δεδομένων και Εξόρυξη Δεδομένων

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών “Πληροφορική & Διοίκηση”

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

Ακαδημαϊκό Έτος 2016-2017 – Εαρινό Εξάμηνο

Διδάσκοντες:

Δρ. Τιάκας Ελευθέριος - Καθ. Μανωλόπουλος Ιωάννης

Email:

tiakas@csd.auth.gr

URL:

http://delab.csd.auth.gr/~tiakas/

Διαλέξεις:

Τρίτη 19:00-21:30

Αίθουσα 1 Παραρτήματος

Εθνικής Αντιστάσεως 16, 2ος Όροφος

 

Περιγραφή Μαθήματος – Ενότητες:

Αρχιτεκτονική Συστημάτων Βάσεων Δεδομένων, Μοντελοποίηση δεδομένων με το μοντέλο οντοτήτων-συσχετίσεων, Εκτεταμένο και Σχεσιακό μοντέλο, Γλώσσα SQL, Αποθήκες Δεδομένων, Γλώσσες & αρχιτεκτονικές συστημάτων για εξόρυξη δεδομένων, Κανόνες συσχέτισης, Κατηγοριοποίηση και πρόβλεψη, Ομαδοποίηση, Εξόρυξη σε πολύπλοκους τύπους δεδομένων (κείμενα, χρονoσειρές, χωρικά δεδομένα, DNA, κτλ). Εξόρυξη Δεδομένων Παγκοσμίου Ιστού και Ειδικού Σκοπού.

Εργαστήριο SQL Server: Κατασκευή ΒΔ, Ερωτήματα, Διαγράμματα, Κύβοι Δεδομένων, Κατηγοριοποίηση-Δέντρα Απόφασης, Ομαδοποίηση, Κανόνες Συσχέτισης.

Σελίδα Μαθήματος 2015-2016.

 

 

Ανακοινώσεις

 6/3/2017: Έναρξη Μαθημάτων Εαρινού Εξαμήνου.

21/3/2017: Οδηγίες για την παρουσίαση της ερευνητικής-βιβλιογραφικής εργασίας:

Κάθε ομάδα 2 ή 3 φοιτητών θα πρέπει να επιλέξει ένα δημοσιευμένο paper το οποίο θα πρέπει να είναι σε θεματική περιοχή που σχετίζεται με το μάθημα ή κάποια από τις ενότητές του. Δυνατότητες επιλογής θέματος:

1. Papers σχετικά με Databases-Data Mining από συνέδρια, ημερίδες, περιοδικά που δημοσιεύτηκαν τα τελευταία 5 χρόνια (π.χ. από KDD, SIGKDD, SNA-KDD, BIOKDD, Sensor-KDD, WebKDD, MDM/KDD, ADKDD, PKDD, ASONAM, RecSys, VLDB, EDBT, ICDE, SIGMOD, κλπ.)

2. Papers σχετικά με Databases-Data Mining που βρίσκονται στην σελίδα του Εργαστηρίου Data Engineering Lab (http://delab.csd.auth.gr/pubs.php?member=&type=Publications) και δημοσιεύτηκαν τα τελευταία 5 χρόνια

3. Data Mining Book Project Topics

Η διαδικασία θα είναι η εξής:

1. Κάθε ομάδα μόλις επιλέξει ένα paper θα ανακοινώσει τον τίτλο του στον διδάσκοντα καθώς και τους ΑΜ των φοιτητών που θα την αποτελούν.

2. Ο διδάσκων θα ανακοινώσει το θέμα με τους ΑΜ της ομάδας στην ιστοσελίδα εάν δεν υπάρχει ταύτιση θέματος με άλλη ομάδα. Διαφορετικά, η ομάδα που θα δηλώσει πρώτη χρονικά ένα θέμα το κατοχυρώνει.

3. Το παραδοτέο υλικό (αρχείο power point με 30 διαφάνειες το πολύ) θα παρουσιαστεί μόνο προφορικά από τους φοιτητές της κάθε ομάδας. Οι ομάδες θα παρουσιάσουν την δημοσιευμένη εργασία στις τελευταίες δύο διαλέξεις του μαθήματος. Ο χρόνος της παρουσίασης για την κάθε ομάδα θα είναι 15 λεπτά+5λεπτά για ερωτήσεις. Δεν χρειάζεται να γραφεί κάποια αναφορά ή οποιοδήποτε άλλο κείμενο.

4. Η εργασία αυτή αντιστοιχεί σε 2 βαθμούς συνολικά.

5. Αν θέλετε να παρουσιάσετε κάτι που δεν υπάρχει στις παραπάνω επιλογές αλλά εμπίπτει στα ενδιαφέροντα του μαθήματος μπορείτε να έρθετε σε συνεννόηση με τον διδάσκοντα.

6. Θα πρέπει να έχετε ορίσει τις ομάδες και τα θέματα το αργότερο μέχρι τις 2/5/2017.

 

Θέματα που επιλέχθηκαν:

(24/3/2017)  ΟΜΑΔΑ-1:    ΑΜ: 568, 572, 578  Θέμα: Gogoglou A., Theodosiou Z., Kounoudes A., Vakali A., Manolopoulos Y., "Early Malicious Activity Discovery in Micorblogs by Social Bridges Detection" (best paper award), Proceedings of the 16th IEEE International Symposium on Signal Processing & Information Technology (ISSPIT'2016), Limmasol, Cyprus, 2016.

(4/4/2017)  ΟΜΑΔΑ-2:    ΑΜ: 557, 577  Θέμα: Albrecht Zimmermann, "The Data Problem in Data Mining", ACM SIGKDD, Vol.16, No.2, pp.38-45, 2014.

(5/4/2017)  ΟΜΑΔΑ-3:    ΑΜ: 559, 580, 586  Θέμα: R. Naveen Kumar, M. Anand Kumar, "Medical Data Mining Techniques for Health Care Systems", IJESC, Vol.6, No.4, pp.3498-3503, 2016.

(5/4/2017)  ΟΜΑΔΑ-4:    ΑΜ: 581, 590  Θέμα: Fernandez, J., Medina, D., Gomez, A., Arias, M., Gavalda, R., "Does training affect match performance? A study using data mining and tracking devices". Machine Learning and Data Mining for Sports Analytics: ECML/PKDD 2016 workshop, Riva del Garda, Italy, pp.1-10, 2016.

(6/4/2017)  ΟΜΑΔΑ-5:    ΑΜ: 565, 567, 570  Θέμα: Kalyvas C., Tzouramanis T., Manolopoulos Y., "Processing Skyline Queries in Temporal Databases", Proceedings of the 32nd ACM Symposium on Applied Computing (SAC'2017), Marakesh, Morocco, 2017.

(11/4/2017)  ΟΜΑΔΑ-6:    ΑΜ: 562, 587  Θέμα: Kokkos A., Tzouramanis T., Manolopoulos Y., "A Hybrid Model for Linking Multiple Social Identities across Heterogeneous Online Social Networks", Proceedings of the 43rd International Conference on Current Trends in Theory & Practice of Computer Science (SOFSEM'2017), pp. 423-435, Limerick, Ireland, 2017.

(12/4/2017)  ΟΜΑΔΑ-7:    ΑΜ: 563, 582  Θέμα: Seokho Kang, Eunji Kim, Jaewoong Shim, Sungzoon Cho, Wonsang Chang, Junhwan Kim, "Mining the relationship between production and customer service data for failure analysis of industrial products",  Computers & Industrial Engineering, Vol.106, pp.137-146, 2017.

(18/4/2017)  ΟΜΑΔΑ-8:    ΑΜ: 575, 594, 595  Θέμα: Xiaojun Chen, Yunming Ye, Graham Williams, and Xiaofei Xu, "A survey of open source data mining systems", Proceedings of the international conference on Emerging technologies in knowledge discovery and data mining (PAKDD), pp.3-14.

(19/4/2017)  ΟΜΑΔΑ-9:    ΑΜ: 574, 576  Θέμα: Jiliang Tang, Yi Chang, and Huan Liu, "Mining Social Media with Social Theories: A Survey", SIGKDD Explor. Newsl. Vol.15, No.2, pp. 20-29, 2014.

(1/5/2017)  ΟΜΑΔΑ-10:    ΑΜ: 571, 579, 598  Θέμα: George Roumelis, Michael Vassilakopoulos, Antonio Corral, Yannis Manolopoulos, "Bulk-Loading xBR+-trees", Proceedings MEDI, pp. 57-71, 2016.

(2/5/2017)  ΟΜΑΔΑ-11:    ΑΜ: 566, 588, 591, 600  Θέμα: Naskos A., Gounaris A., Mouratidis H., and Katsaros P., "Security-Aware Elasticity for NoSQL Databases", Proceedings of the 5th International Conference on Model & Data Engineering (MEDI'2015), pp. 181-197, Rhodes, Greece, 2015.

(2/5/2017)  ΟΜΑΔΑ-12:    ΑΜ: 569,597,599  Θέμα: William Trouleau, Azin Ashkan, Weicong Ding, and Brian Eriksson, "Just One More: Modeling Binge Watching Behavior",  Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16), pp. 1215-1224, 2016.

 

2/4/2017: Πρώτο μέρος της Συνθετικής Εργασίας:  ProjectA.pdf

21/4/2017: Δεύτερο μέρος της Συνθετικής Εργασίας:  ProjectB.pdf   (Βάση Δεδομένων της εταιρείας FoodMart: foodmart.zip)

9/5/2017: Τα εργαστηριακά μαθήματα στις 16/5, 23/5, 30/5 θα γίνουν στο Εργαστήριο (Αίθουσα 3) του Παραρτήματος

2/6/2017: Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας: exams-questions-dbdm.pdf

13/6/2017: Η καταληκτική ημερομηνία παράδοσης της Συνθετικής Εργασίας παρατείνεται ως και τις 30/6/2017.

4/7/2017: Η βαθμολογία με βάση το ΑΕΜ είναι στο ακόλουθο αρχείο: DBDM-grades-aem.pdf . Καλό Καλοκαίρι.

 

 

Πρόγραμμα Διαλέξεων:

 

Διάλεξη

Ημερομηνία

Περιγραφή

Υλικό

7/3/2017

Περιγραφή-Επισκόπηση του Μαθήματος, Βασικές έννοιες

introduction.pdf

14/3/2017

Αρχιτεκτονική Συστημάτων Βάσεων Δεδομένων, Μοντελοποίηση Δεδομένων με το Μοντέλο Οντοτήτων-Συσχετίσεων (ER-model)

dbms-architecture.pdf , ermodel.pdf

dbms-architecture-gray.pdf

21/3/2017

Το Εκτεταμένο Μοντέλο Οντοτήτων-Συσχετίσεων (Extended Entity-Relationship Model), Το σχεσιακό Μοντέλο (Relational Model)

extERmodel.pdf , relationalModel.pdf

28/3/2017

Η Γλώσσα SQL – Υλοποίηση μίας απλής Βάσης Δεδομένων με χρήση αυτόματων εργαλείων

SQL.pdf , Modeler.pdf , SQL-gray.pdf

4/4/2017

Εισαγωγή στην Εξόρυξη Δεδομένων, Αποθήκες Δεδομένων, Αρχιτεκτονικές για εξόρυξη δεδομένων, Κύβος Δεδομένων (μοντέλο, υλοποίηση, πράξεις)

data-warehouses.pdf

25/4/2017

Εξόρυξη Δεδομένων: Κατηγοριοποίηση (Classification), Βασικές Έννοιες, Δέντρα Απόφασης (Decision Trees), Αξιολόγηση Μοντέλων

classification.pdf

2/5/2017

Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης (Association Rules), Βασικές Έννοιες και Αλγόριθμοι

Association-Rules.pdf

9/5/2017

Εξόρυξη Δεδομένων: Ομαδοποίηση (Cluster Analysis), Βασικές Έννοιες και Αλγόριθμοι

Cluster-Analysis.pdf

16/5/2017

Εργαστήριο SQL Server

Εργαστηριακός Οδηγός: ebook.pdf

Αρχεία Βάσεων Δεδομένων: foodmart.zip, AdventureWorksDW2008R2.zip, MovieClick.zip

10η

23/5/2017

Εργαστήριο SQL Server

11η

30/5/2017

Εργαστήριο SQL Server

12η

6/6/2017

Παρουσιάσεις Ερευνητικών Εργασιών

ΟΜΑΔΕΣ 1-6

13η

13/6/2017

Παρουσιάσεις Ερευνητικών Εργασιών

ΟΜΑΔΕΣ 7-12

 

 

Βιβλιογραφία - Χρήσιμο Υλικό

Τα ακόλουθα βιβλία και το υλικό από τους ιστότοπους είναι αρκετά χρήσιμα για το μάθημα (με * είναι τα βασικά εγχειρίδια του μαθήματος).

1*. ”Introduction to Data Mining”, Pang-Ning Tan, Michael Steinbach, and Vipin Kumar, 2006 [http://www-users.cs.umn.edu/~kumar/dmbook/index.php].

These sample chapters are also available:

            Chapter 4. Classification: Basic Concepts, Decision Trees, and Model Evaluation [http://www-users.cs.umn.edu/~kumar/dmbook/ch4.pdf]

            Chapter 6. Association Analysis: Basic Concepts and Algorithms [http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf]

            Chapter 8. Cluster Analysis: Basic Concepts and Algorithms [http://www-users.cs.umn.edu/~kumar/dmbook/ch8.pdf]

2*. ”Mining of Massive Datasets”, Jure Leskovec, Anand Rajaraman, and Jeffrey D. Ullman, Stanford University, 2014 [http://infolab.stanford.edu/~ullman/mmds/book.pdf].

3*. ”Εισαγωγή στην Εξόρυξη Δεδομένων και στις Αποθήκες Δεδομένων”, Αλέξανδρος Νανόπουλος και Ιωάννης Μανωλόπουλος, Εκδόσεις Νέων Τεχνολογιών [http://delab.csd.auth.gr/books/grBooks/dmbook/].

4*. ”Βάσεις, Αποθήκες και Εξόρυξη Δεδομένων με τον SQL Server - Εργαστηριακός Οδηγός”, Παναγιώτης Συμεωνίδης και Αναστάσιος Γούναρης, Εκδόσεις Κάλλιπος, 2016 [http://delab.csd.auth.gr/~symeon/courses/dm/ebook.pdf].

5. ”Συστήματα Βάσεων Δεδομένων: Θεωρία και Πρακτική Εφαρμογή”, Ιωάννης Μανωλόπουλος και Απόστολος Παπαδόπουλος, Εκδόσεις Νέων Τεχνολογιών.

6. Dunham M.: “Data Mining: Introductory and Advanced Topics”, Prentice Hall, 2003.

7. Han J. and Kamber M.: “Data Mining: Concepts and Techniques”, Morgan Kaufmann, 2001.

8. Chakrabarti S.: “Mining the Web”, Morgan Kaufmann, 2003.