Knowledge-poor Approach to Constructing Word Frequency Lists, with Example from Romance Languages

Las listas de palabras con sus frecuencias se usan ampliamente en muchos procedimientos de agrupamiento y categorizacion de textos. Usualmente para la compilacion de tales listas se usan las aproximaciones basadas en morfologia (como el stemmer de Porter) para unir las palabras con el mismo significado. Desafortunadamente, tales aproximaciones requieren de muchos recursos linguisticos dependientes de lenguaje cuando se trabaja con datos multilingues y colecciones multitematicas de documentos… 
