Schema del database integrato: le sequenze del virus vengono descritte in base alle loro caratteristiche biologiche (specie virale e ospite), al progetto che le ha prodotte, alla tecnologia di sequenziamento e alle proprietà del genoma (annotazioni, mutazioni della sequenza dei nucleotidi e degli amino acidi).
Tra i diversi sviluppi futuri di ViruSurf, il più importante, finanziato da EIT Digital con un progetto semestrale, è un servizio informatico per elaborare nuove sequenze virali identificando in esse particolari mutazioni associate a maggiore o minore severità e virulenza. Utilizzato in campo medico, in fasi meno acute della pandemia, permetterà di arricchire la “cartella clinica” del paziente con la sequenza del virus che lo ha infettato. Sarà inoltre possibile utilizzare ViruSurf per il monitoraggio dei virus nella gestione di allevamenti e coltivazioni. Il sistema consentirà a breve di tracciare gli epitopi – sequenze di amino acidi del virus che sono critiche per lo sviluppo di vaccini – ad esempio per trovare, per ogni epitopo, le mutazioni della sua sequenza diffuse in alcune regioni del pianeta, che potrebbero pregiudicare l’efficacia del vaccino.“Nel progetto GeCo, finanziato da European Research Council, avevamo già sviluppato un motore di ricerca per il genoma umano, chiamato GenoSurf; ad inizio pandemia non esisteva un analogo sistema per le sequenze virali. Per comprenderne i requisiti, abbiamo intervistato venti esperti virologi da tutto il mondo. Il risultato è un sistema di semplice utilizzo: chiunque può collegarsi e capire, ad esempio, quando una mutazione virale è apparsa per la prima volta e come si è diffusa nel mondo”—racconta Stefano Ceri, leader del progetto. L’articolo è pubblicato su una rivista di grande rilievo, Nucleic Acids Research (https://doi.org/10.1093/nar/gkaa846), che raccoglie annualmente i database più importanti per la biologia. Hanno contribuito all’articolo anche Pietro Pinoli, progettista degli algoritmi, Arif Canakoglu, software architect, Anna Bernasconi, data designer, Tommaso Alfonsi, responsabile della acquisizione dei dati, e Damianos P. Melidis di L3S (Hannover), autore di alcuni algoritmi.
Link alla video-presentazione di Anna Bernasconi al Congresso ER2020 (6 Novembre 2020) https://youtu.be/HjnEOQnUnEg
Dal genoma del virus SARS-CoV-2 (a) si estrae la sua sequenza di nucleotidi e amino acidi (b); le sequenze, depositate nelle banche dati mondiali: GENBANK, GISAID, COG-UK (c), sono importate nel database centralizzato del Politecnico, su cui opera Il motore di ricerca ViruSurf (d). Schema del database integrato: le sequenze del virus vengono descritte in base alle loro caratteristiche biologiche (specie virale e ospite), al progetto che le ha prodotte, alla tecnologia di sequenziamento e alle proprietà del genoma (annotazioni, mutazioni della sequenza dei nucleotidi e degli amino acidi).