forked from hadley/r4ds
-
Notifications
You must be signed in to change notification settings - Fork 0
/
import.qmd
42 lines (30 loc) · 3.8 KB
/
import.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
# Εισαγωγή δεδομένων {#sec-import .unnumbered}
```{r}
#| echo: false
source("_common.R")
```
Σε αυτό το σημείο του βιβλίου, θα μάθετε πώς να εισάγετε διαφορετικούς τύπους δεδομένων στην R, καθώς και πώς να τα μετατρέψετε σε μία μορφή χρήσιμη για ανάλυση.
Μερικές φορές χρειάζεται απλά η κλήση μιας συνάρτησης από το κατάλληλο πακέτο εισαγωγής δεδομένων.
Σε πιο περίπλοκες περιπτώσεις όμως, μπορεί να χρειαστεί τόσο η τακτοποίηση όσο και ο μετασχηματισμός, για να καταλήξετε στη τακτοποιημένη μορφή πίνακα με την οποία θα προτιμούσατε να εργαστείτε.
```{r}
#| label: fig-ds-import
#| echo: false
#| fig-cap: |
#| Η εισαγωγή δεδομένων είναι η αρχή της διαδικασίας της επιστήμης των δεδομένων.
#| Χωρίς δεδομένα δεν μπορείτε να εφαρμόσετε την επιστήμη των δεδομένων!
#| fig-alt: |
#| Το μοντέλο επιστήμης δεδομένων μας με την εισαγωγή επισημασμένη με μπλε χρώμα.
#| out.width: NULL
knitr::include_graphics("diagrams/data-science/import.png", dpi = 270)
```
Σε αυτό το σημείο του βιβλίου θα μάθετε πώς να αποκτήσετε πρόσβαση σε δεδομένα που είναι αποθηκευμένα με τους ακόλουθους τρόπους:
- Στο @sec-import-spreadsheets, θα μάθετε πώς να εισάγετε δεδομένα από Excel και Google Sheets.
- Στο @sec-import-databases, θα μάθετε πώς να εξάγετε δεδομένα από μία βάση δεδομένων και να τα εισάγετε στην R (θα μάθετε επίσης και μερικά πράγματα για το πώς να μεταφέρετε δεδομένα από την R σε μία βάση δεδομένων).
- Στο @sec-arrow, θα μάθετε για το Arrow, ένα ισχυρό εργαλείο για να δουλεύετε με δεδομένα που δεν χωράνε στη μνήμη, ιδιαίτερα όταν είναι αποθηκευμένα σε μορφή parquet.
- Στο @sec-rectangling, θα μάθετε πώς να εργάζεστε με ιεραρχικά δεδομένα, συμπεριλαμβανομένων των πολυεπίπεδων λιστών που παράγονται από δεδομένα που είναι αποθηκευμένα σε μορφή JSON.
- Στο @sec-scraping, θα μάθετε την ιστοσυγκομιδή (web "scraping"), την τέχνη και επιστήμη της εξαγωγής δεδομένων από ιστοσελίδες.
Υπάρχουν δύο σημαντικά πακέτα του tidyverse που δεν συζητάμε εδώ: το haven και το xml2.
Εάν εργάζεστε με δεδομένα από αρχεία SPSS, Stata και SAS, ρίξτε μία ματιά στο πακέτο **haven**, <https://haven.tidyverse.org>.
Εάν εργάζεστε με δεδομένα XML, ρίξτε μία ματιά στο πακέτο **xml2**, <https://xml2.r-lib.org>.
Διαφορετικά, θα χρειαστεί να κάνετε λίγη έρευνα για να καταλάβετε ποιο πακέτο θα χρειαστεί να χρησιμοποιήσετε κάθε φορά.
Το Google, σε αυτή την περίπτωση, είναι φίλος σας 😃.