La linguistica computazionale si sviluppa nei formalismi descrittivi del funzionamento di una lingua naturale (utilizzata dagli esseri umani), che siano tali da poter essere trasformati in programmi eseguibili da computer.

I concetti che vengono analizzati dalla linguistica computazionale, sono il trovare una mediazione fra il linguaggio umano e le capacità di comprensione della macchina.

Il problema principale, quando si vuole avviare l'analisi computazionale del testo, è stabilire dei criteri di identificazione per quella che è la sua unità di base: la parola.

Cosa sono i token

La creazione di token, ovvero l'operazione con la quale si divide il testo in singole parole, è ormai un'operazione semplice per diversi linguaggi di programmazione , esempio python, specialmente per lingue che utilizzano lo spazio vuoto fra le parole.

Il token è definibile semplicemente come una qualunque sequenza di caratteri delimitata dagli spazi; tuttavia, tale definizione lascia spazio a numerose eccezioni.  (Wikipedia)

L'ambiguità della punteggiatura costituisce un problema anche quando è necessario identificare una frase rispetto alla singola parola.

I diversi tipi di token


È possibile classificare i token in tipi, ovvero raggruppare in classi.

Ad esempio potremmo raggrupparli in base alla forma grafica: due token appartengono allo stesso tipo se sono identici a prescindere dalla posizione nel testo. Si dovrebbe poi fare astrazione dalla rappresentazione tipografica del testo, per escludere differenze dal tipo minuscole / maiuscole, stampato / corsivo ecc. Quando forme tipografiche diverse di una stessa parola vengono ricondotte in una forma standard, si dice che sono ricondotte in una forma normalizzata. (Wikipedia)

Un altro concetto importante è il vocabolario di un testo, cioè l'insieme delle parole ricorrenti che possono essere classificate nella stessa tipologia.

Un indice interessante basato sul lessico di un testo è il rapporto tra il numero di hapax* in esso presente e la lunghezza del testo
(*) "hapax" s'intendono le parole che ricorrono una volta sola.

Il vocabolario

Le parole all'interno di un testo vengono distribuite in base alla lunghezza dello stesso, Pertanto calcolare la loro ripetizione al fine di creare un vocabolario non è un operazione semplice se non si tiene conto di avere una visione dinamica su di esso, cioè studiare il variare nel tempo della composizione del testo.

Il vocabolario cresce con grande velocità all'inizio della lettura di un documento,  ma rallenta al cominciare del ripetizione delle parole. Anche in grandi testi lessicalmente evoluti, la ripetizione perlomeno delle parole grammaticali è inevitabile.

Un altro fattore a favore della ripetitività è la coerenza lessicale, che ci determina un contesto semantico.