08 fév
La version 0.2 de Web Imago Submit est disponible
La version 0.2 apporte beaucoup de nouveautés mais c’est une version en développement.
Je ne passe pas en revue toute les modifications mais voici quelques fonctionnalités:
• remplissage des champs
• remplissage de certains captchas
• descriptions et titres illimités et pondérables
• gestion des listes d’annuaires
• auto clic dans les emails
• gestion des refus
• lors d’un refus la description est considérée comme non-utilisée
• générateur de rapport par liste d’annuaire
• nombre de sites illimités
• soumission massive sur une page
• présélection des catégories…
Il est conseillé d’utiliser Web Imago Spin(c’est pour cela qu’il a été développé) pour produire les descriptions que l’on peut facilement importer dans WI submit.
03 fév
Web Imago Submit 0.2
Cela fait plus de deux ans que le développement de Web Imago Submit 0.2 est au point mort. J’ai donc décidé de mettre en ligne cette version même si elle est incomplète car j’ai bien peur de ne jamais trouver le temps (ni l’envie) de la mettre à jour
Voici la video qui montre les points suivants
- Gestion des listes d’annuaires et notamment l’import via un fichier texte avec la liste des url de soumission.
- La soumission semi-automatisée dans les annuaires avec les différents champs remplis automatiquement et la présélection des catégories.
- La soumission massive avec uniquement le choix de la catégorie.
Le fichier sera disponible au téléchargement mercredi 8 février. (…le temps de quelques vérifications)
26 jan
Des synonymes d’un simple clic.
Certains utilisateurs regrettaient le choix que j’avais fait quant à l’apparition des synonymes : Ils trouvaient peu pratique la méthode consistant à appuyer sur la touche « pipe » pour faire s’afficher les synonymes.
J’ai donc réalisé une nouvelle version qui permet de voir les synonymes d’un simple clic droit sur le mot.
12 nov
La similarité et le content spinning
Comment calculer la similarité ?
Lorsqu’on s’intéresse au content spinning, la question du calcul de la similarité est récurrente. La question pourrait être : Comment connaître le degré de ressemblance de deux textes ?
Mais en réalité ce qui intéresse les utilisateurs du content spinning est de savoir à quel moment une version de leur spin serait repérer comme copie d’une autre. Repéré par qui ? La première réponse qui vient à l’esprit est « par Google ». Mais il y a aussi et même principalement les scripts d’annuaires et de communiqués de presse. Car si Google est souple pour des textes au vocabulaire normal (au sens statistique tu terme) il n’en est pas de même pour les scripts d’annuaires ou de CP. Ces derniers ont des techniques différentes de déterminer les plagiats, mais grosso modo ils interrogent Google sur des portions du texte afin de déterminer si le texte est déjà dans l’index. Ici le pourcentage de similarité de chaque phrase est l’indice le plus pertinent pour échapper à ces filtres. Pour ce qui est de Google, on ne peut pas savoir réellement comment il détecte le duplicate content. Mais on peut supposer que Google détecte des textes anormalement similaires. Ce qui implique que l’utilisation des mots les plus usuels nous permet plus de souplesse dans le spin.
Les indices de WISpin :
- Le pourcentage de similarité (Ressemblance Max) : il s’agit du rapport du nombre de mots identiques sur le nombre de mots que contient le texte. Cet indice est synthétique et permet de comparer des spins de même longueur entre eux facilement mais devient vite inefficace pour de longs textes.
- Le pourcentage de similarité par phrase : Il s’agit d’appliquer le calcul précédent à chacune des phrases du texte. On applique un taux de similarité(tolérance) pour chaque phrase et on choisit le % de phrase identique acceptable. Cet indice est efficace pour les annuaires et les CP en réglant le % de phrase identique à 0.
- L’indice 3 mots élimine les textes qui ont trois mots identiques qui se suivent dans les deux textes. C’est un moyen de réintroduire les « petits mots » (stop words).
- Enfin, la moyenne des distances est une sorte d’écart type appliqué à chaque mot identique.
10 juin
Trouver des proxies valides
Constituer une liste de proxies valides semble être une tâche sans fin dans laquelle on peut perdre beaucoup de temps. En effet la « durée de vie » des proxies gratuits est très courte et il faut constament en chercher de nouveaux.
C’est pourquoi j’ai réalisé un petit logiciel, Web Imago Proxy, qui permet d’automatiser cette tâche.
Le logiciel va chercher les proxies sur divers sites et va les tester un à un de façon à obtenir une liste à jour des proxies gratuits valides.
27 avr
Quelques améliorations pour WISpin
Dans la version précédente l’option permettant de choisir le pourcentage de similarité n’était pas fonctionnelle. La nouvelle version de WISpin arrange ce problème et étend cette fonction avec la possibilité de choisir ses propres critères de choix (% de similarité, % de similarité par phrase, filtre 3 mots et % de similarité corrigé de la distance).
De plus cette version permet d’effectuer l’ensemble des transformations (spinning multi-niveaux et rotations) en un seul clic.
Quelques bugs ont également été corrigés notamment celui de l’export csv.
19 avr
La gestion de listes multiples dans WI Spinning
Une nouvelle version de WI Spinning a été réalisée. Les nouveauté qu’apporte cette version sont au nombre de trois. En premier lieu, j’ai mis en place la possibilité de faire des rotations sur plusieurs niveaux. Mais ce qui pose problème lors des »spinning » multiple c’est d’évaluer la qualité des résultats produits. C’est là qu’intervient la deuxième nouveauté: une batterie d’indicateurs de similarité. Enfin la dernière modification apportée au logiciel concerne la gestion des listes de synonymes. Il désormais possible de créer une liste personnelle ou des listes thèmatiques en plus de la liste principale.
07 avr
Une nouvelle version de Web Imago Spinning
Le logiciel de rotation de contenu, Web Imago spinning, semblait se bloquer chez certains utilisateurs, j’ai donc modifié l’interface afin de corriger ce bug. De plus, certains se sont demandé comment enregistrer les résultats obtenus: il suffit de cliquer sur la disquette. Les paramètre ne permettent pour l’instant que de choisir le nombre de copies (variantes) du texte.
Mode d’emploi:
- décompressez l’archive dans un dossier.
- cliquez sur l’exe.
- rédigez votre texte (cf. article précédent)
- cliquez sur « spinning »
- si vous avez créé des blocs cliquez sur rotation de bloc
- sauver.
02 mar
Logiciel de rotation de contenu
Lors du développement de Web Imago Submit (WIS) j’ai choisi d’intégrer au logiciel une fonctionnalité permettant de démultiplier les descriptions. La nouvelle version de WIS n’est pas encore disponible mais j’ai décider de proposer en téléchargement, en tant que logiciel à part, la fonctionnalité de « spinning »(rotation de contenu).
Le fonctionnement du logiciel est classique: on place entre les « {} » les différents synonymes séparés par « | ». Le logiciel pioche parmi les différents synonymes afin de construire plusieurs textes. J’ai associé un dictionnaire de synonymes (celui d’OO) , c’est parfois utile. Enfin j’ai ajouter une fonction permettant de faire des rotations de phrases ou morceaux de phrase. Pour celà il faut commencer la phrase par « <#1# » et la finir par « > » et indiquer par « #1# » les endroit ou pourra être placée cette phrase.
ex:
#2#les {hommes|êtres humains} {se trompent|s’égarent} en ce qu’ils se {croient|pensent|jugent} {libres|affranchis} et cette {opinion|avis|doxa} consiste en cela {seul|uniquement|exclusivement|seulement} qu’ils sont conscients de leurs {actions|actes} <#2#et {ignorants des |ne connaissent pas les} causes qui les {déterminent|dirigent|gouvernent}>.
1. les hommes s’égarent en ce qu’ils se pensent libres et cette doxa consiste en cela uniquement qu’ils sont conscients de leurs actions et ignorants des causes qui les déterminent.
2. et ne connaissent pas les causes qui les gouvernent les êtres humains s’égarent en ce qu’ils se jugent affranchis et cette opinion consiste en cela exclusivement qu’ils sont conscients de leurs actes .
3. les êtres humains se trompent en ce qu’ils se pensent libres et cette doxa consiste en cela seul qu’ils sont conscients de leurs actes et ne connaissent pas les causes qui les dirigent.
4. les êtres humains se trompent en ce qu’ils se croient libres et cet avis consiste en cela seul qu’ils sont conscients de leurs actions et ignorants des causes qui les gouvernent.
5. et ignorants des causes qui les dirigent les hommes se trompent en ce qu’ils se croient libres et cette opinion consiste en cela uniquement qu’ils sont conscients de leurs actes .
Attention c’est une version en cours de développement, elle est très instable
22 juil
Une nouvelle version de WIA.
Cette nouvelle version n’apporte pas beaucoup de changements. Elle corrige les problèmes rencontrés avec les résultats de Bing et propose la possibilité d’interroger plusieurs DC de google.
Après Google c’est au tour de Bing de modifier sa mise en page et WIA n’est plus capable de retourner les résultats du moteur de recherche de microsoft (Problème signalé par Lucas). WIA a été modifier afin de s’adapter à cette nouvelle mise en page et les résultats semblent corrects.
Cette nouvelle version s’accompagne d’une nouvelle fonctionnalité: la possibilité de faire des recherches sur plusieurs Data Center de Google (
). Cette fonctionnalité a été ajoutée suite à la demande d’un utilisateur (Philippe) et permet d’obtenir la position moyenne des résultats sur 12 DC tirés au hasard. Elle permet également d’obtenir la liste des résultats (les 12 DC interrogés) en survolant la case résultat.



9