Processing math: 100%

Proximal Policy Optimization

(Schulman et al. 2017) è uno degli articoli principali che praticamente hanno dato via al campo. Anche questo è buono per Policy gradients: https://lilianweng.github.io/posts/2018-04-08-policy-gradient/ Introduzione a PPO References [1] Schulman et al. “Proximal Policy Optimization Algorithms” arXiv preprint arXiv:1707.06347 2017

1 min · Xuanqiang 'Angelo' Huang

Randomness

Introduzione alla Randomicità Questo è principalmente basato su (Li & Vitányi 2019) Capito 1.9 Sembra che la nozione di random sia alla fine una cosa molto profonda. Per esempio, un caso lampante che le definizioni non funzionano nel caso di numeri trascendenti è che catalogano i numeri di π come se fossero casuali, mentre in realtà possono essere trovati mediante procedimenti precisi. È una distinzione filosoficamente molto interessante. Alla fine sembra ci sia un link molto diretto con la crittografia, si può vedere (Stinson 2005). ...

4 min · Xuanqiang 'Angelo' Huang

Requisiti e backlog del software

Introduzione sui requisiti del software Note introduttive In linguaggio naturale (dizionario) 🟥+ Sono tutte le qualità necessarie per uno scopo ben determinato. Secondo il prof. I requisiti sono dei desideri ossia ciò che idealmente vorresti riguardo qualcosa (nel nostro caso il software). Ma credo sia anche una tendenza italiana di fare le cose meglio possibile senza mai soddisfare tutto Functional requirements 🟩 Sono ciò che permetterà di fare il sistema ...

2 min · Xuanqiang 'Angelo' Huang

Scelta del PO

La cosa che rende il PO diverso rispetto agli sviluppatori è la conoscenza delle necessità del cliente. Questo permette di prioritizzare del task e capire in che modo dovrebbe essere il prodotto finale. In questo modo si crea una vision del prodotto. Pensiamo che il PO debba condividere questa informazione e prendere decisioni di gruppo. Domande da fare: La user interface, come sembra il wireframe? Pensavamo di utilizzare i social solamente per i login, pensavate di utilizzare anche per altro durante il gioco? Bassa priorità (poter condividere i risultati con un post). Vorreste poter selezionare il livello del bot? Quanto sarebbe il massimo livello e quale il minimo? 4. Per kriegspiel la forza è massima. Cosa è la modalità ‘mob’ per giocare (2 descrizione del problema documento progetto). si intende il social che permette di condividere mosse. tutte le persone interessante possono rispondere con tempo un giorno, e la maggioranza determina la risposta. Bassa priorità. Esistono i soci (utenti registrati) e non, cosa può fare un utente non registrato? E quelli registrati? O definiamo noi? Che genere di commenti deve fare l’AI durante la partita? Va bene qualunque commento (anche in giro), commenti interessanti sul contesto). In che modo salvare una partita? Solamente la sequenza delle mosse o possibilità di riprendere la partita? Non è richiesto poter salvare e riprendere nei giochi a informazione incompleta La seconda cosa interessante per l’utente? Leaderboard (non per noi, ELO). Cosa deve avere la leaderboard per giochi diversi da bad chess? Legato all’ELO questa, il classico. O mobile o web o come ci pare (non è importante). No sicurezza, non è importante. 50 giocatori max. ...

2 min · Xuanqiang 'Angelo' Huang

Scrum Method

Introduzione (idea principale) In breve: essence card 🟩- Giallo = Prodotto. Metafora staffetta-rugby 🟩 Con altri metodi si fanno produzioni stile staffetta, ossia un membro sta fermo, finché non ha il testimone e poi si uccide correndo… Il metodo più utile ispirato a scrum è rugby, che tutti si muovo insieme collaborando. Un po’ di tutto è fatto durante lo sprint Cicli di base (3) 🟩 Planning: in cui vengono scelti i task da eseguire durante questo sprint, solitamente questo viene preso da un subset dei task descritti dal product owner. Execution: questo è abbastanza chiaro, si sviluppa. Retrospective and review: in cui vengono identificati i problemi che sono stati incontrati durante lo sviluppo, e modi possibili per risolverli. ! 500 Lo sprint (3) 🟩- Una cosa molto importante che aiuterà di gran lunga lo sviluppo è la costanza che Si scelgono ...

6 min · Xuanqiang 'Angelo' Huang

Sezioni Critiche

Ripasso Prox: 80 Ripasso: May 21, 2023 Ultima modifica: March 12, 2023 10:00 AM Primo Abbozzo: October 8, 2022 11:30 AM Stato: 🌕🌕🌕🌕🌑 Studi Personali: No Elementi di ripasso 2 Sezioni Critiche Introduzione La parte di un programma che utilizza una o più risorse condivise viene detta sezione critica (critical section, o CS) Andiamo in questa altra parte a valutare certe soluzioni: Programma d’esempio 🟩 Vorremmo garantire che a = b invariante. (espressione logica verificata nell’esecuzione di questo programma). quindi una coerenza di uno prima dell’altro vogliamo. ...

4 min · Xuanqiang 'Angelo' Huang

Spettrometri di massa

Particelle in campi magnetici Moto in campo magnetico uniforme 🟩 Se abbiamo una particella carica con velocità uniforme in campo magnetico uniforme, come abbiamo detto in precedenza, una forza centripeta, questo farà curvare la carica, una cosa interessante sarebbe provare a capire raggio di curvatura della nostra carica. Sotto in immagine abbiamo l’esempio di curvatura. F=qvB=ma=mv2rr=mv2qvB=mvqB=pqB Dove p è la quantità di moto, quantità che credo sia relazionata al lavoro ed inerzia, parte di fisica 1 che non ho studiato da più di due anni. Questa stessa relazione, conoscendo il raggio può essere usata per calcolare il campo magnetico!. ...

4 min · Xuanqiang 'Angelo' Huang

System Design

NOTA: tolgo dalle note perché non mi sembra importante. Introduction to system design Packages vs diagrams 🟩- Packages fisica implementazione, perché è una cosa utile per lo sviluppo Diagrams logica visualizzazione perché aiuta solamente a comprendere meglio come funziona il sistema in toto. Components What is a component (3) 🟨 È una entità totalmente indipendente che funziona a sé, un esempio è il dll, dynamically loaded libraries presente nei sistemi di windows. Una cosa è che espongono interfacce per interagirci, e questi possono essere utilizzati per creare sistemi complessi. ...

2 min · Xuanqiang 'Angelo' Huang

The Database Management System

Struttura del DBMS Introduzione ai DBMS Schema riassuntivo #### Operazioni classiche Ci stiamo chiedendo, come facciamo a descrivere i processi che portano alla comprensione della query e della retrieval degli elementi utili? Questo deve fare il DBMS, ossia capace di - Aggiornare tuple - Trovare tuple - Gestire gli accessi - Gestire accessi concorrenti? ### Query processor #### Query compiler (3) 🟩 - Parsing (crea l'albero di derivazione per la nostra query) - Pre-processing (fa check semantici sulla query) - Optimization, si occupa lui di migliorare L'ottimizzazione #### Execution engine 🟩 Esegue l'effettiva computazione per la query, ed è il punto d'incontro col resto (indexes, e logging per dire) Esegue il piano di esecuzione che probabilmente un livello superiore ha calcolato Interagisce con tutti gli altri componenti del db (ad esempio Log per transazioni e durabilità, buffer e scheduler delle operazioni prolly). Anche se non so nei dettagli in che modo esegue questo (alla fine roba assembly? che livello di astrazione ha?) ...

5 min · Xuanqiang 'Angelo' Huang

The RLHF pipeline

https://huyenchip.com/2023/05/02/rlhf.html è un blog post che lo descrive in modo abbastanza dettagliato e buono. Introduzione a RLHF Questo è il processo che è quasi la migliore per la produzione di LLM moderni (maggior parte si basano su questo per dire). Struttura generale Si può dire che RLHF si divida in 3 parti fondamentali Completion il modello viene allenato a completare parole dal web,solitamente è molto inutile Fine tuning per le singole task, per esempio riassumere, rispondere in certo modo etc. Reinforcement Learning basato su un reward model scoperto. Partiamo con l’approccio di reinforcement learning che è la parte un po’ più interessante in questo momento ...

2 min · Xuanqiang 'Angelo' Huang