Recherches de motifs et de similarités en bioinformatique : modélisations, solutions logicielles et matérielles

Archive ouverte

Giraud, Mathieu | Noé, Laurent | Kucherov, Gregory | Lavenier, Dominique

Edité par CCSD -

Ce tutoriel expose certains problèmes fondamentaux en algorithmique du texte pour la bioinformatique, leurs solutions actuelles ainsi que quelques perspectives de recherche. Après une introduction expliquant pourquoi la bioinformatique s'intéresse aux séquences de caractères et d'où provient le problème de recherche de motifs, nous présentons de façon progressive différentes modélisations des motifs (partie 2). Un motif peut être un simple mot ou un ensemble de mots que l'on recherche de manière exacte ou approchée, par similarités. Plus généralement, on définit un motif comme un langage pouvant se situer à différents niveaux de la hiérarchie de Chomsky et formalisable par des structures telles que des grammaires ou des automates. Le tutoriel se poursuit par la présentation des méthodes logicielles ou matérielles qui résolvent les recherches de motifs selon la modélisation choisie (partie 3). Ces algorithmes s'effectuent avec ou sans pré-traitements du motif ou de la banque de séquences. Quand les motifs deviennent complexes, la recherche par balayage devient la seule solution possible, que cela soit par heuristique ou de manière exacte. Nous évoquerons aussi les architectures spécialisées destinées à traiter de grandes quantités de données : ces machines doivent équilibrer puissance de calcul et accès aux données.

Suggestions

Du même auteur

Protein similarity search with subset seeds on a dedicated reconfigurable hardware

Archive ouverte | Peterlongo, Pierre | CCSD

International audience. Genome sequencing of numerous species raises the need of complete genome comparison with precise and fast similarity searches. Today, advanced seed-based techniques (spaced seeds, multiple se...

Optimal neighborhood indexing for protein similarity search

Archive ouverte | Peterlongo, Pierre | CCSD

International audience. Similarity inference, one of the main bioinformatics tasks, has to face an exponential growth of the biological data. A classical approach used to cope with this data flow involves heuristics...

Designing Efficient Spaced Seeds for SOLiD Read Mapping.

Archive ouverte | Noé, Laurent | CCSD

International audience. The advent of high-throughput sequencing technologies constituted a major advance in genomic studies, offering new prospects in a wide range of applications.We propose a rigorous and flexible...

Chargement des enrichissements...