Apache Spark

Apache Spark This is a new framework that is faster than MapReduce. It is written in Scala and has a more functional approach to programming. Spark extends the previous MapReduce framework to a generic distributed dataflow, properly modeled as a DAG. Resilient distributed datasets’ Lifecycle Resilient distributed datasets (RDD) are the unit data blocks of Apache Spark. These blocks are created, transformed and written back into the disk. Resilient means that they remain in memory or on disk on a “best effort” basis, and can be recomputed if need be....

6 min Â· Xuanqiang 'Angelo' Huang

Wide Column Storage

We now start with data modelling after having dealt with the syntax in HTML e Markup and data storage methods in Cloud Storage and Distributed file systems. In this case we want the data to be denormalized (see Normalizzazione dei database) but still looking like tables. Usage of Wide Column Storages Wide column stores were invented to provide more control over performance and in particular, in order to achieve high-throughput and low latency for objects ranging from a few bytes to about 10 MB, which are too big and numerous to be efficiently stored as so-called clobs (character large objects) or blobs (binary large objects) in a relational database system, but also too small and numerous to be efficiently accessed in a distributed file system....

7 min Â· Xuanqiang 'Angelo' Huang

HTML e Markup

Markup Introduzione alle funzioni del markup 🟩 La semantica di una parola è caratterizzata dalla mia scelta (design sul significato). Non mi dice molto, quindi proviamo a raccontare qualcosa in più. Definiamo markup ogni mezzo per rendere esplicita una particolare interpretazione di un testo. In particolare è un modo per esplicitare qualche significato. (un pò come la punteggiatura, che da qualche altra informazione oltre le singole parole, rende più chiaro l’uso del testo)....

13 min Â· Xuanqiang 'Angelo' Huang

Cloud Storage

Paradigms of data storage ETL framework 🟩 This is the classical database approach: We load the data in the database and let the underlying system handle it. We won’t talk much about this but this is the general concept! Data Lakes 🟩 We typically store data in the filesystem, where it is viewed simply as files. This approach works well when we only need to read the data. It’s often referred to as in situ storage because there is no need to extract the data first....

10 min Â· Xuanqiang 'Angelo' Huang

Normalizzazione dei database

Introduzione alla normalizzazione Perché si normalizza? 🟩 Cercare di aumentare la qualità del nostro database, perché praticamente andiamo a risolvere delle anomalie possibili al nostro interno, e questo aiuta per la qualità. Tipologie di anomalie (!) (4) 🟨++ Ridondanze, non vorrei avere la stessa informazione espressa più volte in troppi punti. Update non consistente, quando per aggiornare un singolo valore devo aggiornare moltissime altre tuple dipendenti da essa. Deletion non consistente, la presenza di certe entità è strettamente dipendente da presenza di altri, nell’esempio in questione sulle slides, se elimino tutti gli utenti, elimino anche i progetti su cui hanno partecipato, mentre invece dovrebbero essere separati....

5 min Â· Xuanqiang 'Angelo' Huang