N-grams et identification des auteurs

Introduction by OpenMethods Editor (Delphine Montoliu): This post presents a number code for authorship identification.

Ces derniers temps, les études dans le domaine de l’authorship attribution ou de la classification des textes ont pris un souffle nouveau par le biais de l’utilisation de n-grams, ouvrant des perspectives nouvelles pour la création de modèles indépendants de la langue du texte, de modèles ne nécessitant pas de preprocessing, d’encodage syntaxique, ou de connaissances a priori sur le style des auteurs, avec des taux de réussite souvent relativement élevés. Cette tendance nouvelle mérite quelque peu d’attention et d’explication.

 

Original publication date: 27/07/2011.

Source: N-grams et identification des auteurs | Sacré Gr@@l