Beste antwoord
In het Engels is de gemiddelde woordlengte 5,1 (8-bit ASCII) tekens. U heeft een woordscheidingsteken nodig, laten we gewoon de spatie gebruiken. 200 tekens zouden 32,8 blokken van 6,1 tekens bevatten, inclusief de volgspatie (die het laatste woord niet nodig heeft), of 32 blokken van 6,1 tekens en een van 4,8 tekens.
Dus gemiddeld , 32 complete moderne Engelse woorden in 200 (8-bits ASCII) tekens.
Een persoon kan een tekstbestand nemen en het opsplitsen in een lopende lijst van 200 tekens, en tel het aantal volledige woorden (begin of eind van een regel, of eindigend in een leesteken of spatie – hmm, je zou eigenlijk 201 tekens willen gebruiken om te testen wat het laatste teken in de set is, als het een letter is, tel het woord dan niet, als het een spatie of leesteken is of het einde van de regel, doe het dan) in elke lijst. Teken vervolgens het histogram uit en neem verschillende univariate statistieken. Een eigenaardig maar leuk project als je teksten uit verschillende talen en verschillende tijdsperioden nam. Er zijn tools in python om dit te doen. Je hebt misschien een paar hoofd krabbelmomenten over hoe je moet denken over UTF-8-tekensets, aangezien ze niet zijn gecodeerd in 8 bits maar in 8 bits + 4 bits voor accenten, andere alfabetten, enz.
In Chinees, otoh, er zijn ongeveer 1,5 logogrammen in een enkele semantische eenheid (woord), maar elk logogram is in variabele bytecodering (Big5, Guobiao), dus 200 eenheden van 1 byte (8 bits) kunnen worden vertaald in ongeveer 150 logogrammen, wat ons ongeveer 100 woorden in het Chinees oplevert, of ongeveer 126 als u elk “teken” als een enkele eenheid telt. De codering van Chinese karakters in het Chinees, Japans en Koreaans is de bron van, err, veel controverse .
Antwoord
200 karakters kunnen een groot aantal woorden of een klein aantal woorden creëren, afhankelijk van wat je ermee wilt doen.
Het langste woord in de Engelse taal wordt gewoonlijk beschouwd als: antidisestablishmentarianism. Het is 28 tekens lang. U zou dat woord zes keer (168 tekens) kunnen schrijven, en als u spaties tussen elk woord (5 tekens) en een punt aan het einde (1 teken) plaatst, is uw laatste “zin” 174 tekens lang. Als u nog een groot woord in de zin opneemt, een woord dat 25 tekens lang is, dan heeft u in totaal 7 woorden, 6 spaties en een punt als uw “zin” – in totaal 200 tekens.
De kortste woorden in de Engelse taal zijn “a”, “I” en “O”. U kunt dus 100 van elk van die woorden hebben, met 99 spaties en een punt aan het einde, en 200 tekens invullen. Die zin zou 100 woorden bevatten.
PS: Ja, ik weet dat technische woorden veel langer zijn dan antidisestablishmentarisme. Maar onder niet-bedachte, niet-technische woorden wordt het over het algemeen als koning beschouwd.