Ανάλυση δεδομένων με την R (2η έκδοση)

Περιγραφή βιβλίου Περιεχόμενα Downloads Συγγραφέας
Περιγραφή βιβλίου

Η 2η έκδοση του βιβλίου έχει στόχο να επιτρέψει τόσο σε αρχάριους όσο και σε προχωρημένους χρήστες να επεξεργαστούν, να αναλύσουν και να ερμηνεύσουν δεδομένα, με σκοπό να καταλάβουν κάτι που δεν μπορούσαν να γνωρίζουν από πριν. Από αυτή την άποψη, το επίκεντρο είναι σαφώς μετατοπισμένο προς την πρακτική εφαρμογή παρά προς τη θεωρία. Τα θέματα που καλύπτει το βιβλίο αφορούν τόσο αυτούς που δεν έχουν εμπειρία από προγραμματισμό, στατιστική και ανάλυση δεδομένων, όσο και αυτούς που στο παρελθόν είτε έχουν χρησιμοποιήσει την R σε ένα πιο βασικό επίπεδο, είτε έχουν πραγματοποιήσει αναλύσεις δεδομένων με άλλες γλώσσες ή περιβάλλοντα προγραμματισμού. Ανάλογα με το επίπεδο εξοικείωσης με τον προγραμματισμό, τη στατιστική και την ανάλυση δεδομένων το βιβλίο απευθύνεται σε τρεις διαφορετικές κατηγορίες αναγνωστών:

  • Αρχάριοι, χωρίς καμία προηγούμενη εμπειρία από προγραμματισμό μπορούν να παρακολουθήσουν το σύνολο του βιβλίου, ξεκινώντας από το πρώτο κεφάλαιο.
  • Χρήστες που έχουν κάποια εμπειρία με την R σε βασικό επίπεδο (σύνταξη εντολών, κλήση συναρτήσεων, δημιουργία απλών γραφικών παραστάσεων κ.λπ.), μπορούν να προσπεράσουν γρήγορα το πρώτο Μέρος (Κεφάλαια 1-5) και να περάσουν στα επόμενα μέρη που αφορούν πιο προχωρημένη χρήση και εφαρμογές στη Στατιστική και στην Ανάλυση Δεδομένων.
  • Έμπειροι χρήστες, που στο παρελθόν έχουν χρησιμοποιήσει την R ή άλλες στατιστικές μεθόδους για τη δημιουργία γραφικών παραστάσεων και τη συγγραφή απλών προγραμμάτων, μπορούν να επικεντρωθούν στα δύο τελευταία μέρη που αφορούν πιο προχωρημένες μεθοδολογίες Ανάλυσης Δεδομένων (Κεφάλαια 10-17).
  • Ανεξάρτητα από το γνωστικό ή τεχνικό επίπεδο, οι αναγνώστες και αναγνώστριες μπορούν να εκτιμήσουν τις εφαρμογές που συνοδεύουν τα περισσότερα κεφάλαια, στις οποίες παρουσιάζονται παραδείγματα χρήσης της R σε πραγματικά ερωτήματα και πραγματικά σύνολα δεδομένων. Οι συγκεκριμένες εφαρμογές παρουσιάζουν, εκτός από τις δυνατότητες της R, γενικές αλλά και εξειδικευμένες προσεγγίσεις, σχετικές με τον τρόπο που διατυπώνουμε ερευνητικά ερωτήματα και ιεραρχούμε τους στόχους μας κατά την ανάλυση δεδομένων και, κυρίως, την ερμηνεία της.

 

Στόχοι του βιβλίου

Βασικός στόχος του βιβλίου είναι να παρουσιάσει την R από τις βασικές της αρχές μέχρι αρκετά προχωρημένες εφαρμογές της, και να καθοδηγήσει τους επίδοξους χρήστες στην εφαρμογή της R σε όλα τα στάδια ανάλυσης δεδομένων που περιλαμβάνουν τα εξής:

  • Πρόσβαση στα δεδομένα και πρωτογενή επεξεργασία τους.
  • Ανάγνωση από αρχεία και χειρισμός απλών πράξεων (Κεφάλαια 2-4).
  • Καθαρισμός/σχολιασμός των δεδομένων.
  • Επισκόπηση των δεδομένων, οργάνωση δεδομένων σε συγκεκριμένες δομές (Κεφάλαια 5 και 6).
  • Γραφική αναπαράσταση και επισκόπηση των δεδομένων (Κεφάλαια 7-8).
  • Χρήση της R ως γλώσσας προγραμματισμού (Kεφάλαια 9 και 10).
  • Συνοπτική περιγραφή των δεδομένων.
  • Περιγραφική Στατιστική (Κεφάλαιο 11).
  • Εξαγωγή και αποτίμηση σχέσεων μεταξύ των Δεδομένων. Έλεγχοι υποθέσεων και συσχετίσεις (Κεφάλαια 12-13).
  • Στατιστική Μοντελοποίηση. Δημιουργία μοντέλων που ενσωματώνουν τις σχέσεις μεταξύ δεδομένων με σκοπό την πρόβλεψη (Κεφάλαια 14-17).
Περιεχόμενα

ΜΕΡΟΣ Ι: ΒΑΣΙΚΗ ΧΡΗΣΗ

ΚΕΦΑΛΑΙΟ 1: Εισαγωγή
1.1 Σε ποιον απευθύνεται αυτό το βιβλίο
1.2 Στόχοι του βιβλίου
1.3 Περιεχόμενα
   1.3.1 Προγραμματισμός στην R
   1.3.2 Βασικές αρχές στατιστικής
   1.3.3 Μεθοδολογίες ανάλυσης δεδομένων
   1.3.4 Εφαρμογές σε πραγματικά δεδομένα
1.4 Πλεονεκτήματα της R
1.5 Πώς είναι γραμμένο αυτό το βιβλίο
1.6 Διαβάστε περισσότερα
   1.6.1 Βιβλία για την R
   1.6.2 Διαδικτυακές πηγές

ΚΕΦΑΛΑΙΟ 2: Μεταβλητές, τελεστές και δεδομένα
2.1 Ξεκινώντας με την R
   2.1.1 Εγκαθιστώντας την R
   2.1.2 Εξοικείωση με τo περιβάλλον της R
2.2 Το ολοκληρωμένο περιβάλλον R-Studio
2.3 Μεταβλητές στην R
   2.3.1 Απλές μεταβλητές
   2.3.2 Εκχώρηση τιμής σε μεταβλητή
   2.3.3 Κανόνες ονομασίας μεταβλητών
   2.3.4 Είδη μεταβλητών στην R
2.4 Τελεστές και απλές πράξεις με μεταβλητές
   2.4.1 Αριθμητικές πράξεις
   2.4.2 Λογικές πράξεις
2.5 Συναρτήσεις
   2.5.1 Δημιουργία συναρτήσεων
2.6 Πολυδιάστατα δεδομένα
   2.6.1 Έτοιμα (built-in) δεδομένα
2.7 Εισαγωγή δεδομένων από αρχεία
   2.7.1 Ανάγνωση δεδομένων σε πίνακα
   2.7.2 Ανάγνωση αρχείων κειμένου
   2.7.3 Ορισμός φακέλου εργασίας και πλήρους μονοπατιού
2.8 Εγγραφή αποτελεσμάτων σε αρχεία
2.9 Ανάγνωση έτοιμου κώδικα R

ΚΕΦΑΛΑΙΟ 3: Τύποι δεδομένων
3.1 Διανύσματα (vectors)
   3.1.1 Γενικά χαρακτηριστικά διανυσμάτων
   3.1.2 Δημιουργία διανυσμάτων και «εξαναγκασμός» (coercion)
   3.1.3 Εξωτερικός «εξαναγκασμός» από τον χρήστη
   3.1.4 Συναρτήσεις διανυσμάτων
        3.1.4.1 Συναρτήσεις αριθμητικών διανυσμάτων
        3.1.4.2 Συναρτήσεις αλφαριθμητικών διανυσμάτων
3.2 Πράξεις σε διανύσματα
3.3 Πίνακες δύο διαστάσεων
   3.3.1 Πρόσβαση σε στοιχεία πινάκων
   3.3.2 Συναρτήσεις πινάκων
3.4 Πλαίσια δεδομένων
   3.4.1 Εφαρμογή συναρτήσεων σε πίνακες και πλαίσια δεδομένων apply()
3.5 Πίνακες περισσότερων από δύο διαστάσεων
3.6 Λίστες
   3.6.1 Δημιουργία λιστών
   3.6.2 Χειρισμός λιστών με συναρτήσεις τύπου apply()

ΚΕΦΑΛΑΙΟ 4: Πλαίσια δεδομένων, παράγοντες και χειρισμοί συνόλων
4.1 Χειρισμοί πλαισίων δεδομένων
   4.1.1 Κενές τιμές (missing values)
   4.1.2 Συναρτήσεις ελέγχου τιμών
4.2 Παράγοντες (factors)
   4.2.1 Δημιουργία και χειρισμός επιπέδων (levels) σε παράγοντες
   4.2.2 Χρήση παραγόντων σε πλαίσια δεδομένων
4.3 Δημιουργία υποσυνόλων (subsetting)
   4.3.1 Δημιουργία υποσυνόλων με απλούς ελέγχους
   4.3.2 Υποσύνολα με συνδυασμούς ελέγχων
   4.3.3 Λήψη υποσυνόλων από πλαίσια δεδομένων με τη συνάρτηση subset()
   4.3.4 Λήψη θέσεων στοιχείων υποσυνόλων με τη συνάρτηση which()
4.4 Πράξεις σε σύνολα
   4.4.1 Ύπαρξη στοιχείων συνόλου σε άλλο σύνολο
   4.4.2 Συγκρίσεις μεταξύ συνόλων σε επίπεδο θέσης

ΚΕΦΑΛΑΙΟ 5: Πίνακες tibble, υποσυνολοποίηση και μετασχηματισμοί δεδομένων
5.1 Πλαίσια δεδομένων (data frames) και πίνακες tibble
   5.1.1 Δημιουργία tibble
5.2 Χειρισμοί δεδομένων με την dplyr()
   5.2.1 Προσθέτοντας νέες μεταβλητές σε σύνολα δεδομένων
   5.2.2 Αγωγοί (pipes)
   5.2.3 Υποσυνολοποίηση με τις συναρτήσεις filter() και select()
   5.2.4 Υποσυνολοποίηση κατά γραμμή με την slice()
   5.2.5 Oργάνωση με την group_by() και συνόψεις με τη summarize()
        5.2.5.1 Συναρτήσεις group()
        5.2.5.2 Δημιουργία συνόψεων
        5.2.5.3 Συνόψεις ανά γραμμή με τη rowwise()
   5.2.6 Kατάταξη με την arrange()
5.3 Τακτοποίηση δεδομένων με την tidyr()
   5.3.1 Δημιουργία μακρών/σύντομων πινάκων
        5.3.1.1 Επιμήκυνση πίνακα με την pivot_longer()
        5.3.1.2 Eπέκταση πίνακα με την pivot_wider()
   5.3.2 Πιο πολύπλοκοι μετασχηματισμοί δεδομένων
   5.3.3 Επέκταση και συμπλήρωση πινάκων
5.4 Σχεσιακά δεδομένα: Συνδυάζοντας δεδομένα από διαφορετικές πηγές
   5.4.1 Σύνδεση δεδομένων με τις συναρτήσεις join()

ΜΕΡΟΣ ΙI: ΠΡΟΧΩΡΗΜΕΝΗ ΧΡΗΣΗ ΚΑΙ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΚΕΦΑΛΑΙΟ 6: Γραφικές παραστάσεις
6.1 Ραβδογράμματα με την barplot()
6.2 Προχωρημένα ραβδογράμματα
6.3 Πίτες με την pie()
6.4 Διαγράμματα σκέδασης για συζευγμένα δεδομένα με την plot()
6.5 Χρήση της plot() για σειριακά δεδομένα
6.6 Πολλαπλά διαγράμματα σε μια γραφική με την lines()
6.7 Τρισδιάστατα δεδομένα με τις persp() και filled.contour()
   6.7.1 Διαγράμματα 3D όγκου
   6.7.2 Διαγράμματα 3D περιγραμμάτων
6.8 Αποθήκευση και εκτύπωση γραφικών

ΚΕΦΑΛΑΙΟ 7: Προχωρημένες γραφικές παραστάσεις με τη βιβλιοθήκη ggplot2
7.1 Η βιβλιοθήκη ggplot2()
7.2 Μια πρώτη γραφική παράσταση με ggplot2()
   7.2.1 Η γραμματική των γραφικών (grammar of graphics)
7.3 Μονοδιάστατα δεδομένα
7.4 Στατιστική αναπαράσταση μονοδιάστατων δεδομένων
7.5 Αριθμητικά δεδομένα συνδυασμένα με κατηγορικές μεταβλητές
7.6 Συνδυασμοί πολλαπλών αριθμητικών και κατηγορικών δεδομένων
7.7 Μορφοποίηση και στατιστικοί μετασχηματισμοί δεδομένων
   7.7.1 Στατιστικοί μετασχηματισμοί (bar, boxplot)
   7.7.2 Συντεταγμένες (coord) και όψεις (facets)
   7.7.3 Μορφοποίηση αξόνων, τίτλων και κειμένου

ΚΕΦΑΛΑΙΟ 8: Προγραμματισμός με την R
8.1 Στοιχεία προγραμματισμού
8.2 Προτάσεις υπό συνθήκη – Δομές if/else και case/switch
   8.2.1 Δυαδικοί if/else έλεγχοι
   8.2.2 Πολλαπλά if
   8.2.3 Σύνθετες συνθήκες με σύνταξη case/switch
        8.2.3.1 case_when()
        8.2.3.2 switch()
8.3 Δομές επανάληψης
   8.3.1 Δομές επανάληψης for
   8.3.2 Έλεγχος των δομών επανάληψης – while/repeat και break/next
   8.3.3 Διανυσματική λειτουργία και συναρτήσεις apply()
8.4 Συναρτήσεις
   8.4.1 Δομή συναρτήσεων
   8.4.2 Σταθερά και ελεύθερα ορίσματα
8.5 Εκτέλεση R κώδικα
   8.5.1 Ανάγνωση έτοιμου κώδικα R
   8.5.2 Εκτέλεση R κώδικα εκτός κονσόλας – Rscript()

ΚΕΦΑΛΑΙΟ 9: Χειρισμοί χαρακτήρων κειμένου στην R
9.1 Aνάλυση σειρών χαρακτήρων με την stringr()
9.2 Mήκος και συγκόλληση σειρών χαρακτήρων
9.3 Υποσύνολα, στοίχιση και κατάταξη σειρών χαρακτήρων
   9.3.1 Εξαγωγή substrings και απλές μετατροπές πεζών/κεφαλαίων
   9.3.2 Κατάταξη σειρών χαρακτήρων
   9.3.3 Substrings με χρήση str_split() και στοίχιση strings
9.4 Αναζήτηση, καταμέτρηση και εντοπισμός στοιχείων σε strings
   9.4.1 Λογική υποσυνολοποίηση strings μέσω ταυτίσεων
9.5 Κανονικές εκφράσεις (regular expressions)
   9.5.1 Συνόψεις χαρακτήρων με κανονικές εκφράσεις
   9.5.2 Χρήση ποσοτικών τελεστών και ομαδοποίηση με παρενθέσεις
   9.5.3 Χρήση τελεστών συγκειμένου (context)
9.6 Ειδικές περιπτώσεις σειρών χαρακτήρων – χρόνος και ημερομηνίες
   9.6.1 Βασικές συναρτήσεις δημιουργίας χρόνου/ημερομηνίας
   9.6.2 Mετατροπές ημερομηνιών από διαφορετικές διατάξεις
   9.6.3 Αποκομιδή στοιχείων από ημερομηνία/ώρα
   9.6.4 Χρονικά διαστήματα
   9.6.5 Υπολογισμοί διαφορών σε χρονικά διαστήματα

ΜΕΡΟΣ ΙII: ΣΤΑΤΙΣΤΙΚΗ

ΚΕΦΑΛΑΙΟ 10: Περιγραφική στατιστική και κατανομές
10.1 Mέτρα κεντρικής τάσης
   10.1.1 Μέση τιμή
   10.1.2 Διάμεση τιμή
10.2 Μέτρα διασποράς
   10.2.1 Διασπορά (variance)
   10.1.2 Τυπική απόκλιση
   10.1.3 Τυπικό σφάλμα μέσης τιμής (standard error of the mean)
10.3 Ποσοστημόρια
10.4 Ιστογράμματα
   10.4.1 Χρήση μεταβλητών ιστογραμμάτων
10.5 Θηκογράμματα
   10.5.1 Παραλλαγές θηκογραμμάτων
10.6 Δειγματοληψία και τυχαία δείγματα
10.7 Συναρτήσεις προσομοίωσης κατανομών
   10.7.1 Τυχαίοι αριθμοί από ομοιόμορφη κατανομή
   10.7.2 Κανονική κατανομή
   10.7.3 Προσομοίωση διωνυμικών πιθανοτήτων
   10.7.4 Προσομοίωση σπάνιων γεγονότων με την κατανομή Poisson
Eφαρμογή: Ανάλυση μαθητικών επιδόσεων
   Ερώτημα 1: Σχέση φύλου–επιδόσεων
   Ερώτημα 2: Σχέση εθνικής ομάδας προέλευσης και επιδόσεων
   Ερώτημα 3: Σχέση επιδόσεων με μορφωτικό επίπεδο γονέων και προετοιμασία

ΚΕΦΑΛΑΙΟ 11: Επαγωγή και έλεγχος υποθέσεων
11.1 Έλεγχος κανονικότητας
   11.1.1 Γραφικός έλεγχος κανονικότητας
   11.1.2 Αριθμητικοί έλεγχοι κανονικότητας
11.2 Σύγκριση μέσων τιμών
   11.2.1 Σε κανονικά κατανεμημένα δείγματα
   11.2.2 Σε μη-κανονικά κατανεμημένα δείγματα
11.3 Σύγκριση λόγων και αναλογιών
   11.3.1 Έλεγχος Fisher για πίνακες σύμπτωσης 2x2
   11.3.2 Έλεγχος Fisher για πίνακες σύμπτωσης >2x2
11.4 Έλεγχος υπερ-εκπροσωπήσεων με την υπερ-γεωμετρική κατανομή
11.5 Στατιστικοί έλεγχοι μέσω μεταθέσεων (permutation tests)
Eφαρμογή: Ανάλυση αξίας ακινήτων στην πολιτεία της Καλιφόρνιας
   Ερώτημα 1: Σχέση ηλικίας–τιμής ακινήτου
   Ερώτημα 2: Μέγεθος νοικοκυριού και αξία ακινήτου
   Ερώτημα 3. Εξάρτηση της αξίας ακινήτων από τη γεωγραφική τους θέση

ΚΕΦΑΛΑΙΟ 12: Ανάλυση διακύμανσης και έλεγχοι πολλαπλών υποθέσεων
12.1 Πολλαπλοί ζευγαρωτοί έλεγχοι (pairwise tests)
12.2 Έλεγχος πολλαπλών υποθέσεων
   12.2.1 Διόρθωση τιμής p-value
12.3 Έλεγχος διακύμανσης
12.4 Ανάλυση Διακύμανσης (ANOVA)
   12.4.1 Ανάλυση Διακύμανσης: στη θεωρία
   12.4.2 Ανάλυση Διακύμανσης: στην πράξη
12.5 Πολύ-παραγοντική ANOVA (multi-way ANOVA)
12.6 Προϋποθέσεις για τη διενέργεια ANOVA
   12.6.1 Ανεξαρτησία
   12.6.2 Κανονικότητα
   12.6.3 Ομοσκεδαστικότητα
   12.6.4 Ισορροπημένα και μη ισορροπημένα δείγματα
12.7 ANOVA σε μη κανονικά κατανεμημένα δείγματα
Eφαρμογή: Ανάλυση επιπέδων γονιδιακής έκφρασης
   Ερώτημα 1 – Διαφορικά εκφραζόμενα γονίδια μεταξύ ασθενών και υγιών δειγμάτων
   Ερώτημα 2 – Αξιολόγηση θεραπειών
   Ερώτημα 3 – Συγκριτική ανάλυση φαρμακευτικών παρεμβάσεων

ΚΕΦΑΛΑΙΟ 13: Συσχέτιση και γραμμική παλινδρόμηση
13.1 Συσχέτιση (correlation)
   13.1.1 Γραμμική συσχέτιση Pearson (Pearson Linear Correlation)
   13.1.2 Συσχέτιση και ελλιπείς τιμές
   13.1.3 Συσχετίσεις κατάταξης (rank correlations)
13.2 Συνδιακύμανση και μερική συσχέτιση (covariance)
13.3 Παλινδρόμηση (regression)
13.4 Απλή γραμμική παλινδρόμηση
13.5 Παλινδρόμηση με τη συνάρτηση lm()
   13.5.1 Απλή παλινδρόμηση
   13.5.2 Πολυωνυμική παλινδρόμηση
   13.5.3 Πολλαπλή παλινδρόμηση
13.6 Στοιχεία διάγνωσης μοντέλων παλινδρόμησης
   13.6.1 Προσαρμογή
   13.6.2 Κανονικότητα και ακραίες τιμές
   13.6.3 Oμοσκεδαστικότητα και τιμές υψηλής μόχλευσης (high leverage)
   13.6.4 Απόσταση Cook και επιδραστικές τιμές
   13.6.5 Συνολική διάγνωση ιδιαίτερων τιμών
13.7 Σύγκριση μοντέλων και ιεράρχηση παραμέτρων
Eφαρμογή: Τιμές Lego Sets – Πόσο αξίζει αλήθεια το Millenium Falcon;
   Ερώτημα 1. Σχέση τιμής και ηλικιακής ομάδας
   Ερώτημα 2. Σχέση τιμής και αξιολόγησης πελατών
   Ερώτημα 3. Ακραίες τιμές – Η περίπτωση του Millenium Falcon

ΜΕΡΟΣ ΙV: ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΚΕΦΑΛΑΙΟ 14: Μείωση διαστασιμότητας
14.1 Ανάλυση Κύριων Συνιστωσών (Principal Component Analysis, PCA)
   14.1.1 Σχηματική ερμηνεία της PCA
   14.1.2 Πρακτική εφαρμογή της PCA
   14.1.3 Γραφική αναπαράσταση PCA
14.2 Πολυδιάστατη Kλιμάκωση (Multidimensional Scaling, MDS)
   14.2.1 Πίνακες αποστάσεων
   14.2.2 Εφαρμογή MDS σε πίνακες αποστάσεων
14.3 Στοχαστική Ενσωμάτωση Γειτόνων (t-distributed Stochastic Neighbour Embedding, tSNE)
   14.3.1 Αρχή της μεθοδολογίας tSNE
   14.3.2 Αρχή της μεθοδολογίας tSNE
14.4 Διερευνητική Ανάλυση Παραγόντων (Exploratory Factor Analysis, EFA)
   14.4.1 «Λανθάνουσες» μεταβλητές έναντι γραμμικών/μη-γραμμικών συνδυασμών
   14.4.2 Εφαρμογή της EFA
14.5 Συμπεράσματα
Eφαρμογή: Κυνηγοί ταλέντων – Πώς να διαλέξουμε τον επόμενο επιθετικό μας;
   Βήμα 1. Καθαρισμός και προετοιμασία δεδομένων
   Βήμα 2. Δημιουργία και σύγκριση προφίλ αμυντικών/επιθετικών
   Βήμα 3. Έλεγχος προφίλ υποψηφίων και ιεράρχηση

ΚΕΦΑΛΑΙΟ 15: Ομαδοποίηση
15.1 Γενικές αρχές ομαδοποίησης
15.2 Στόχοι της ομαδοποίησης
15.3 Ιεραρχική ομαδοποίηση (hierarchical clustering)
   15.3.1 Υπολογισμός αποστάσεων/ομοιοτήτων
   15.3.2 Εφαρμογή ιεραρχικής ομαδοποίησης
   15.3.3 Εξαγωγή ομάδων από ιεραρχικά δέντρα
   15.3.4 Ιεραρχική ομαδοποίηση σε θερμικούς χάρτες
15.4 Ομαδοποίηση διαμερισμού (partition clustering)
   15.4.1 Υπολογισμός βέλτιστου αριθμού ομάδων
        15.4.1.1 Μέτρα συνεκτικότητας ομάδων: Within-Sum-of-Squares (WSS)
        15.4.1.2 Μέτρα συνεκτικότητας ομάδων: Πολλαπλά διαγνωστικά τεστ
   15.4.2 Ομαδοποίηση κ-μέσων (k-means clustering)
   15.4.3 Oμαδοποίηση διαμερισμού μεσοειδών (Partitioning Around Medoids, PAM)
15.5 Ομαδοποίηση μέσω πυκνότητας
   15.5.1 Ομαδοποίηση μέσω Πυκνότητας με Εντοπισμό Θορύβου (DBSCAN)
   15.5.2 Υπολογισμός ακτίνας ε και ελάχιστου αριθμού στοιχείων πυρήνα Nmin
   15.5.3 Εφαρμογή της μεθόδου DBSCAN
15.6 Συμπεράσματα
Eφαρμογή: Διάγνωση καρκίνου του μαστού – Πότε είμαστε σίγουροι για τα άσχημα νέα;
   Βήμα 1. Ομαδοποίηση ασθενών με βάση τα μορφολογικά χαρακτηριστικά
   Βήμα 2. Ανάλυση ετερογένειας κακοήθων όγκων
   Βήμα 3. Ανάλυση παραγόντων για την ερμηνεία της ομαδοποίησης

ΚΕΦΑΛΑΙΟ 16: Ταξινόμηση
16.1 Ταξινόμηση, ομαδοποίηση και παλινδρόμηση
16.2 Eκμάθηση υπό επίβλεψη – Σύνολα εκμάθησης και σύνολα ελέγχου
16.3 Μέθοδοι που σχετίζονται με την ομαδοποίηση – Ταξινόμηση k πλησιέστερων γειτόνων (k Nearest Νeighbours, kNN)
   16.3.1 Προετοιμασία δεδομένων
   16.3.2 Εφαρμογή kNN
   16.3.3 Επιλογή παραμέτρων για kNN
16.4 Δυαδική ταξινόμηση με λογιστική παλινδρόμηση (logistic regression)
   16.4.1 Εκμάθηση της λογιστικής παλινδρόμησης
   16.4.2 Eφαρμογή λογιστικής παλινδρόμησης – Η συνάρτηση predict()
   16.4.3 Αξιολόγηση λογιστικής παλινδρόμησης
16.5 Γενικευμένα Γραμμικά Μοντέλα για μη-κανονικές κατανομές (Generalized Linear Models, GLM)
16.6 Δέντρα αποφάσεων (decision trees)
   16.6.1 Θεωρητική βάση δέντρων αποφάσεων
   16.6.2 Eφαρμογή και αξιολόγηση δέντρων αποφάσεων
16.7 Τυχαία Δάση (Random Forests)
   16.7.1 Τυχαία Δάση – Εφαρμογή
   16.7.2 Ιεράρχηση επεξηγηματικών μεταβλητών στα Τυχαία Δάση
16.8 Μηχανές Διανυσματικής Στήριξης (Support Vector Machines, SVM)
   16.8.1 Bασικές αρχές των SVM
   16.8.2 Εφαρμογή των SVM
   16.8.3 Ρύθμιση παραμέτρων SVM (SVM Tuning)
16.9 Συμπεράσματα
Eφαρμογή: Ταξινόμηση πελατών – Σε ποιους θα πρέπει να κάνουμε έκπτωση;
   Ερώτημα 1. Ένα μοντέλο για την πιθανότητα διαφυγής
   Ερώτημα 2. Τι πρέπει να προσέξουμε στους πελάτες μας;
   Ερώτημα 3. Διαμόρφωση στρατηγικών πωλήσεων

ΚΕΦΑΛΑΙΟ 17: Ανάλυση Δικτύων με την R
17.1 Εισαγωγή στη βιβλιοθήκη igraph
17.2 Δημιουργία δικτύων στην R
   17.2.1 Δίκτυα μέσω απευθείας δήλωσης ακμών/κόμβων
   17.2.2 Δίκτυα με ανάγνωση από αρχείο λίστας ακμών
   17.2.3 Δίκτυα από πίνακες γειτνίασης (adjacency matrix)
17.3 Αντικείμενα δικτύου igraph
   17.3.1 Δομή αντικειμένων igraph
   17.3.2 Ιδιότητες αντικειμένων igraph
17.4 Υποσυνολοποίηση δικτύων
17.5 Οπτικοποίηση δικτύων σε διαγράμματα με την plot()
17.6 Τοπολογικά χαρακτηριστικά δικτύων
   17.6.1 Μέγεθος και πυκνότητα δικτύου
   17.6.2 Αποστάσεις, διάμετρος και συντομότερα μονοπάτια
17.7 Στατιστικές ιδιότητες δικτύων
   17.7.1 Βαθμός κόμβων
   17.7.2 Κεντρικότητα εγγύτητας (closeness centrality)
   17.7.3 Διακεντρικότητα (betweenness centrality)
   17.7.4 Συντελεστής συσσωμάτωσης και oμοφιλία
17.8 Ομαδοποίηση δικτύων – Πυρηνικότητα, κλίκες και κοινότητες
   17.8.1 Κλίκες και πυρηνικότητα
   17.8.2 Kοινότητες (communities)
   17.8.3 Αποσπασματικότητα (modularity) δικτύων
Εφαρμογή: Δίκτυα ανεξάρτητα κλίμακας
   A. Γενικές ιδιότητες δικτύου
   Β. Δίκτυα ανεξάρτητα κλίμακας – Κατανομή μεγέθους κόμβων
   Γ. Σύγκριση με τυχαία δίκτυα

ΒΙΒΛΙΟΓΡΑΦΙΑ

Downloads Συγγραφέας

Συγγραφείς

Συγγραφέας Βιογραφικό
Νικολάου Χριστόφορος | Disigma Store

Νικολάου Χριστόφορος

O Χριστόφορος Νικολάου αποφοίτησε από το Τμήμα Χημείας του Πανεπιστημίου Πατρών το 1999 και έλαβε Διδακτορικό Δίπλωμα από το Τμήμα Βιολογίας του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών το 2005. Η διδακτορική του διατριβή είχε τίτλο “Μελέτη και Ποσοτικοποίηση της μη-Τυχαιότητας σε Γονιδιωματικές Αλληλουχίες σε σχέση με το λειτουργικό τους ρόλο”. Τα ερευνητικά του ενδιαφέροντα επικεντρώνονται σε θέματα Υπολογιστικής Γονιδιωματικής με έμφαση στην δομή και λειτουργία της χρωματινής και την εξέλιξη της γονιδιωματικής αρχιτεκτονικής.

Από το 1999 ως το 2004 εκπόνησε την διδακτορική του διατριβή στο Ινστιτούτο Βιολογίας του ΕΚΕΦΕ “Δημόκριτος” ως μεταπτυχιακός υπότροφος. Από το 2005 έως το 2009 εργάστηκε ως μετα-διδακτορικός ερευνητής στο Βιοϊατρικό Πάρκο της Βαρκελώνης. Το 2007 ήταν επισκέπτης ερευνητής στο Τμήμα Χημείας του Πανεπιστημίου της Βοστώνης. Από το 2010 εργάζεται ως διδάσκων ΠΔ407 στο Τμήμα Βιολογίας του Πανεπιστημίου Κρήτης, στο οποίο εξελέγη στη βαθμίδα του Επίκουρου Καθηγητή τον Δεκέμβριο του 2010.

Τα Επιστημονικά του ενδιαφέροντα επικεντρώνονται στην Υπολογιστική Γονιδιωματική και Βιοπληροφορική, με τα κύρια ενδιαφέροντά του να σχετίζονται με:

  • Τη δομή του γονιδιωματικού DNA και την οργάνωση της χρωματινής σε σχέση με την ρύθμιση της γονιδιακής έκφρασης, τη μελέτη του ρόλου των νουκλεοσωμάτων στην δομή των ευκαρυωτικών γονιδιών και την μεταγραφική τους ενεργότητα.
  • Τη συντήρηση δομικών, χρωματινικών χαρακτηριστικών του ευκαρυωτικού γονιδιώματος.
  • Την εξέλιξη της γονιδιωματικής αρχιτεκτονικής σε επίπεδο ρυθμιστικών και επαναλαμβανόμενων στοιχείων και
  • Την ανάπτυξη αλγορίθμων για την ανάλυση πρωτοταγών αλληλουχιών και την επεξεργασία βιολογικών δεδομένων υψηλής απόδοσης.
Translation missing: el.general.search.loading