encyclopédie par wikipédia

Affichages
P U B L I C I T É

Combinatoire des mots

Un article de Wikipédia, l'encyclopédie libre.
 - Wikipedia Orange
Construction de la suite de Prouhet-Thue-Morse.

La combinatoire des mots est une branche des mathématiques et de l'informatique théorique qui applique l'analyse combinatoire aux mots finis ou infinis. Cette branche s'est développée à partir de plusieurs branches des mathématiques : la théorie des nombres, la théorie des groupes, les probabilités et bien sûr la combinatoire. Elle a des liens avec divers thèmes informatiques, comme l'algorithmique du texte, la recherche de motifs, la compression de textes.

Sommaire

Définition

La combinatoire des mots a pour objet d'étude les propriétés de mots finis finis ou mots infinis particuliers. Ceci est à comparer à la théorie des langages formels, qui s'intéresse aux ensembles de mots, en vue de leur représentation et leur analyse.

Pour une classe de mots, l'étude porte sur les caractérisations équivalentes, les propriétés combinatoires, le dénombrement, l'énumération systématique ou la génération aléatoire. On étudie aussi les algorithmes et leur efficacité pour la réalisation effective de ces opérations.

Applications

La combinatoire des mots a des applications dans des domaines variés de l'informatique théorique, comme la théorie des automates et de la linguistique. Le développement du texte numérique et du traitement de texte a amené à d'importants développements de la combinatoire des mots. Elle est présente à la base de l'algorithmique du texte, du traitement automatique du langage naturel, du traitement de la parole et du bio-informatique.

Historique

La combinatoire des mots remonte aux travaux d'Axel Thue sur les suites non-répétitives de symboles, au début du XXe siècle. Les principaux travaux, dans les années qui ont suivi, sont ceux de Marston Morse et de ses coauteurs sur la suite de Prouhet-Thue-Morse et les mots sturmiens. Une célèbre application de la combinatoire des mots est l'usage qui est fait d'une suite sans répétition dans la réponse négative à la conjecture de Burnside (en) apportée par Pyotr Novikov (en) et Sergei Adjan (en).

C'est Marcel-Paul Schützenberger qui est le fondateur de la combinatoire des mots moderne. À partir de notes préparées par Jean-François Perrot, est issu le livre "Combinatorics on words", ouvrage collectif signé du nom de plume M. Lothaire, et paru en 1983. La combinatoire des mots se développa rapidement à partir de cette date.

Les principaux thèmes

Mots de Lyndon

Article détaillé : Mot de Lyndon.

Les mots de Lyndon, nommés ainsi d'après le mathématicien Roger Lyndon (en), sont les mots primitifs et minimaux dans leur classe de conjugaison. L'un des résultats de base est que tout mot admet une factorisation décroissante unique en mots de Lyndon (résultat attribué par erreur à Chen, Fox et Lyndon). Un autre résultat remarquable est que le produit, en ordre croissant, des mots de Lyndon dont la longueur divise un entier donné est un mot de de Bruijn.

Mots sans répétition

La combinatoire des mots s'est notamment attachée à décrire les conditions dans lesquelles les répétitions apparaissent dans les mots (mots sans facteur carré, entre autres), la construction ou la transformation des mots, par morphisme.

Mots de faible complexité

 - Wikipedia Orange
Le mot de Fibonacci, caractérisé par une droite de pente \varphi ou \varphi-1 avec \varphi - Wikipedia Orange, le nombre d'or

La fonction de complexité d'un mot fini ou infini x est la fonction n\mapsto c_x(n) qui, pour chaque entier n, compte le nombre de facteurs c_x(n)(ou blocs) de longueur n dans ce mot. Pour un mot infini x, un résultat dû à Ethan M. Coven et Gustav Hedlund dit que si c_x(n)\le n pour un entier n, alors le mot x est ultimement périodique. Les mots infinis apériodiques de complexité minimale ont donc une fonction de complexité égale à n+1 - Wikipedia Orange. Ce sont les mots sturmiens. Le plus connu des mots sturmiens est le mot de Fibonacci.

Mots automatiques

Les mots automatiques sont des suites que l'on peut définir à l'aide d'automates finis. La suite de Prouhet-Thue-Morse est l'exemple paradigmatique de cette famille.

Equations entre mots

Un algorithme de calcul des solutions d'un ensemble fini d'équations entre mots a été donné par Makanin.

Définitions et propriétés diverses

Récurrence

Un mot infini x est récurrent si tout facteur de x apparaît une infinité de fois dans x - Wikipedia Orange.

  • Le mot ab^\omega - Wikipedia Orange n'est pas récurrent.
  • Le mot de Champernowne binaire
          0100011011000001010011. . .  - Wikipedia Orange
    formé de la concaténation des développements binaires des entiers naturels est récurrent.
  • Un mot ultimement périodique et récurrent est périodique.

Un mot infini x est uniformément récurrent ou à lacunes bornées si deux occurrences consécutives d'un facteur de x sont à distance bornée. Plus précisément, pour tout facteur u de x, il existe une constante N(u) telle que deux occurrences consécutives de u dans x sont à distance au plus N(u) - Wikipedia Orange.

  • Le mot de Champernowne binaire n'est pas uniformément récurrent. En effet, deux occurrences consécutives du symbole 1 peuvent être séparées par des séquences arbitrairement longues de 0 - Wikipedia Orange.
  • Le mot de Fibonacci
          01001010 01001 01001010. . .  - Wikipedia Orange
    est uniformément récurrent. Par exemple, les occurrences des 1 dans le mot infini sont les éléments de la suite A001950 de l’OEIS, soit 2, 5, 7, 10, 13, 15, 18, …. La distance entre deux 1 - Wikipedia Orange consécutifs est donc au plus 3.
  • Le mot de Thue-Morse est uniformément récurrent.

Un ensemble S d'entiers naturels est un ensemble syndétique s'il existe un entier N tel que pour deux entiers consécutifs s<t de S, on ait t-s<N. Un mot infini x est donc uniformément récurrent si, pour tout facteur u de x, l'ensemble S(u) des débuts d'occurrence de u dans x - Wikipedia Orange est syndétique.

La fonction de récurrence R d'un mot infini x donne la valeur maximale des lacunes entre occurrences consécutives de mots d'une longueur donnée. Plus précisément, R(n) est le plus petit entier N tel que tout facteur de x de longueur n soit facteur de tout facteur de longueur N de x - Wikipedia Orange, formellent

R(n)=\inf\{N\mid \forall w\in F_N(x), F_n(w)=F_n(x)\} - Wikipedia Orange

On peut voir l'entier R(n)comme la largeur minimale d'une fenêtre que l'on glisse sur le mot x et qui a la propriété que tout facteur de longueur n - Wikipedia Orange figure toujours dans la section couverte par la fenêtre.

  • Pour le mot de Fibonacci, on a R(1)=3, et R(2)=6; en effet, le facteur 01010 du mot de Fibonacci ne contient pas le facteur 00, mais tout facteur de longueur 6 contient les trois facteurs 00,01,10 parce que 10101 - Wikipedia Orange n'est pas facteur du mot de Fibonacci.
  • Pour le mot de Thue-Morse 01101001100101101001. . ., on a R(1)=3 (tout facteur de longueur 3 contient un 0 et un 1) et R(2)=9 (le facteur 01011010 ne contient pas 11 - Wikipedia Orange).

Voir aussi

Références

Liens externes

mentions légales Wikipédia
politique de confidentialité à propos de Wikipédia avertissements contacts faire un don
P U B L I C I T É