Meilleure réponse
En anglais, la longueur moyenne des mots est de 5,1 caractères (ASCII 8 bits). Vous avez besoin dun séparateur de mots, utilisons simplement le caractère espace. 200 caractères contiendraient 32,8 blocs de 6,1 caractères, y compris lespace de fin (dont le dernier mot na pas besoin), ou 32 blocs de 6,1 caractères et un de 4,8 caractères.
Donc en moyenne , 32 mots anglais modernes complets en 200 caractères (ASCII 8 bits).
Une personne peut prendre un fichier texte, le diviser en une liste courante de 200 caractères et comptez le nombre de mots complets (commençant ou finissant une ligne, ou se terminant par un signe de ponctuation ou un espace – hmm, vous voudriez en fait utiliser 201 caractères pour tester quel est le dernier caractère de lensemble, si cest une lettre alors ne comptez pas le mot, si cest un espace ou un signe de ponctuation ou une fin de ligne, alors faites) dans chaque liste. Tracez ensuite lhistogramme et prenez diverses statistiques univariées. Un projet particulier mais amusant si vous avez pris des textes de différentes langues et de différentes périodes. Il existe des outils en python pour faire cela. Vous pourriez avoir quelques moments de grattage sur la façon de penser aux jeux de caractères UTF-8, car ils ne sont pas encodés en 8 bits mais en 8 bits + 4 bits pour les accents, autres alphabets, etc.
In Chinois, otoh, il y a environ 1,5 logogrammes à une seule unité sémantique («mot») mais chaque logogramme est codé en octets variables (Big5, Guobiao), donc , 200 unités de 1 octet (8 bits) peuvent se traduire par environ 150 logogrammes, ce qui nous donne environ 100 mots en chinois, ou environ 126 si vous comptez chaque «caractère» comme une seule unité. Lencodage des caractères chinois en chinois, japonais et coréen est à lorigine de, err, beaucoup de controverses .
Réponse
200 caractères peuvent créer un grand nombre de mots ou un petit nombre de mots, selon ce que vous voulez en faire.
Le mot le plus long de la langue anglaise est généralement considéré comme: antidisestablishmentarianism. Il comporte 28 caractères. Vous pouvez écrire ce mot 6 fois (168 caractères), et si vous incluez des espaces entre chaque mot (5 caractères) et un point à la fin (1 caractère), votre «phrase» finale compterait 174 caractères. Si vous incluez un autre gros mot dans la phrase, un mot de 25 caractères, alors vous auriez un total de 7 mots, 6 espaces et un point comme « phrase » – totalisant 200 caractères.
Les mots les plus courts de la langue anglaise sont «a», «I» et «O». Vous pouvez donc avoir 100 de nimporte lequel de ces mots, avec 99 espaces et un point à la fin, et remplir jusquà 200 caractères. Cette phrase aurait 100 mots.
PS: Oui, je sais quil y a des mots techniques beaucoup plus longs que lantidisestablishmentarianisme. Mais parmi les mots non inventés et non techniques, il est généralement considéré comme le roi.