12 nov
La similarité et le content spinning

Comment calculer la similarité ?

Lorsqu’on s’intéresse au content spinning, la question du calcul de la similarité est récurrente. La question pourrait être : Comment connaître le degré de ressemblance de deux textes ?
Mais en réalité ce qui intéresse les utilisateurs du content spinning est de savoir à quel moment une version de leur spin serait repérer comme copie d’une autre. Repéré par qui ? La première réponse qui vient à l’esprit est « par Google ». Mais il y a aussi et même principalement les scripts d’annuaires et de communiqués de presse. Car si Google est souple pour des textes au vocabulaire normal (au sens statistique tu terme) il n’en est pas de même pour les scripts d’annuaires ou de CP. Ces derniers ont des techniques différentes de déterminer les plagiats, mais grosso modo ils interrogent Google sur des portions du texte afin de déterminer si le texte est déjà dans l’index. Ici le pourcentage de similarité de chaque phrase est l’indice le plus pertinent pour échapper à ces filtres. Pour ce qui est de Google, on ne peut pas savoir réellement comment il détecte le duplicate content. Mais on peut supposer que Google détecte des textes anormalement similaires. Ce qui implique que l’utilisation des mots les plus usuels nous permet plus de souplesse dans le spin.

Les indices de WISpin :

- Le pourcentage de similarité (Ressemblance Max) : il s’agit du rapport du nombre de mots identiques sur le nombre de mots que contient le texte. Cet indice est synthétique et permet de comparer des spins de même longueur entre eux facilement mais devient vite inefficace pour de longs textes.
- Le pourcentage de similarité par phrase : Il s’agit d’appliquer le calcul précédent à chacune des phrases du texte. On applique un taux de similarité(tolérance) pour chaque phrase et on choisit le % de phrase identique acceptable. Cet indice est efficace pour les annuaires et les CP en réglant le % de phrase identique à 0.
- L’indice 3 mots élimine les textes qui ont trois mots identiques qui se suivent dans les deux textes. C’est un moyen de réintroduire les « petits mots » (stop words).
- Enfin, la moyenne des distances est une sorte d’écart type appliqué à chaque mot identique.

Pas de commentaire »

Pas encore de commentaire.

Flux RSS des commentaires de cet article. TrackBack URL

Laisser un commentaire