COMMENT AIDER UNE ENTREPRISE À SE DÉVELOPPER COMMERCIALEMENT EN OPTIMISANT TECHNIQUEMENT SON SITE WEB DE PROSPECTION ?

MÉMOIRE

MASTER OF BUSINESS ADMINISTRATION
EXPERT EN SYSTÈME D’INFORMATIONS 2018-2020

CORUBLE ANNE-LISE
Chargée de projet web et digital

Avant-propos

Ce mémoire rentre dans le cadre de l’obtention de mon diplôme de MBA Expert en systèmes d’information. Il étudie l’impact de l’optimisation des sites web sur le développement commercial d’une entreprise ayant une stratégie marketing phygital*.

L’idée de ce mémoire est venue d’un besoin et d’une expérience.

Dans le cadre de mon alternance, on m’a informé des problèmes de performance sur les différents sites web que nous gérions. Cela cause un impact négatif sur le référencement. C’est un besoin d’optimisation. 

Mon sujet de projet de groupe durant mon MBA est l’écoresponsabilité* des sites web. L’un des principes de l’écoresponsabilité* est d’optimiser au maximum les sites web pour réduire leurs empreintes écologiques. C’est mon expérience.

De ce besoin et de mon expérience, un chiffre s’est ajouté : 57% des visiteurs abandonnent un site si son temps d’affichage est supérieur à 3 secondes et 80% ne reviendront jamais.

Ce mémoire a pour but d’être une contribution permettant d’exposer les différents obstacles mais aussi les opportunités de développement commercial grâce à l’optimisation technique des sites web.

Les difficultés ont été nombreuses. Comme chacun, j’ai été confrontée au confinement lié au coronavirus qui m’a privée de deux mois de travail. Du fait d’une restructuration interne, la disponibilité des décisionnaires a souvent manqué. De plus, il m’a été difficile de récolter des données fiables et cohérentes du fait de la transversalité de mon sujet.

SITE DE PROSPECTION & RÉFÉRENCEMENT

Introduction

L’objectif est d’optimiser la vitesse du site sur les ordinateurs et les mobiles afin d’augmenter le nombre de lead pour la téléprospection*.

En effet, si une page met plus de 3 secondes à s’afficher, c’est 57% des visiteurs qui abandonneront le site dont 80% qui ne reviendront jamais. On risque de passer à côté de potentiel clients à cause de la lenteur du site.

Pour réaliser ce travail d’optimisation, j’ai commencé par un audit du site actuel :

historique, technologie, performances, etc. Les contraintes organisationnelles et techniques ont été nombreuses. Néanmoins, j’ai pu proposer plusieurs hypothèses de travail.

1.       Qu’est-ce qu’un site de prospection et pourquoi l’optimiser ?

La prospection regroupe l’ensemble des actions qui visent à identifier et contacter de nouveaux clients potentiels nommés prospects et à chercher à les transformer en clients réels (prospection-vente). Un site web peut servir de support à la prospection.

Afin d’attirer des prospects sur le site, il faut que les internautes soient informés de l’existence du site et que celui-ci soit facile à trouver. Quand l’internaute est sur le site, il faut réussir à le convertir en prospect grâce à un site simple et agréable à utiliser ; interviennent les notions d’UX* et d’UI*.

a. L’algorithme de référencement naturel de Google

Pour que les internautes soient informés de l’existence du site et qu’il soit facile à trouver, celui-ci doit être référencé. Le référencement actuel dépend principalement du moteur de recherche Google. Il existe également d’autres moteurs de recherche comme Bing, Yahoo! et Qwant. Chaque moteur de recherche à son propre algorithme* pour référencer les sites web. 

Google utilise un algorithme* complexe et privé composé lui-même de plusieurs algorithmes*. Le but de cet algorithme* est de donner l’information la plus qualitative possible par rapport à la recherche de l’internaute.

Cet algorithme* utilise 5 principaux facteurs :

L’analyse des termes de recherche.

De nombreux modèles linguistiques (l’interpréteur des erreurs d’orthographe, le traitement automatique du langage naturel, le système de gestion des synonymes, etc.) permettent de comprendre les termes de la requête émise par l’internaute. L’algorithme* identifie également la catégorie de la requête pour proposer des informations cohérentes. Par exemple, pour une recherche « L’entreprise avis », l’algorithme* va identifier deux choses : l’entreprise : « L’entreprise » et l’information demandée plus précisément : « Avis ». De plus, si une recherche inclue des mots-clés tendances comme le dernier « score de l’OM », les résultats privilégiés seront les scores de l’OM les plus récents ; c’est l’algorithme* de détection d’actualité.

La recherche de correspondances

Les algorithmes* de Google recherchent dans l’index* les pages les plus pertinentes par rapport à la recherche. Ils analysent l’occurrence d’apparition des motsclés dans les pages et leurs positions (titre, sous-titres, corps du texte). Les algorithmes* recherchent également à l’intérieur des pages sélectionnées si celles-ci incluent d’autres contenus pertinents comme des photos, des vidéos, des PDF, etc. De plus, les pages rédigées dans la même langue que la recherche sont priorisées dans les résultats.

Le classement des pages selon leur utilité

Pour une recherche, il peut exister des milliers de page web pertinentes.

L’algorithme* de Google utilise des centaines de facteurs comme l’actualisation du contenu, le nombre d’occurrences des termes de la recherche, l’ergonomie de la page, etc. Un de ces facteurs se nomme « le degré de fiabilité et d’autorité » d’une page. Celuici recherche les sites avec le plus grand nombre d’internautes et recevant le plus de liens d’autres sites sur le sujet. Cet algorithme* est celui qui évolue le plus vite afin de garantir les meilleurs résultats.

L’affichage des meilleurs résultats

Cet algorithme* étudie différents facteurs indiquant si les internautes bénéficient d’une présentation satisfaisante du résultat sur la page. Parmi ces facteurs existe la compatibilité de la page avec tous les navigateurs web*, l’adaptation du site avec différents types et tailles d’appareils, le temps de chargement des pages, surtout pour les internautes avec une connexion internet lente, etc.  Google propose aux propriétaires des sites web des outils et des conseils détaillés afin de les aider. PageSpeed Insights* et Google Analytics* sont les outils que nous utiliserons par la suite.

La prise en compte du contexte

La situation géographique, l’historique des recherches, les centres d’intérêts sont une partie des facteurs pris en compte pour comprendre le contexte de la recherche de l’internaute. Par exemple, si un internaute recherche « Manchester » et qu’auparavant il avait recherché « Barcelone contre Manchester », le moteur de recherche comprend qu’il doit afficher des informations sur le club de football de Manchester en priorité et non sur la ville de Manchester.

L’ensemble de ces facteurs permet à Google d’être le premier moteur de recherche au monde avec plus de 90% de parts de marché. Google sera notre moteur de recherche de référence pour la suite de ce mémoire.

Dans le cadre de ma problématique, j’ai travaillé sur l’augmentation de la visibilité du site par ses performances. Celles-ci sont mesurées par le PageSpeed Insights*.

b. PageSpeed Insights : Connaître ses performances

PageSpeed Insights* est un outil proposé par Google pour aider les webmasters à optimiser leur site web. Celui-ci mesure la performance d’une page sur les ordinateurs et sur les mobiles et propose des améliorations aux propriétaires des sites.

L’outil offre deux types d’informations : des données de laboratoire* et des données de champ*. Les données de laboratoire* sont obtenues avec un ensemble d’appareils et de paramètres réseaux prédéfinis. Les données de champ* sont récoltées sur des chargements de vraies pages par des utilisateurs réels durant les 30 derniers jours. L’ensemble offre des données complètes.

Le rapport de PSI* (PageSpeed Insights) se compose de 6 sections : Score de vitesse, données de champ*, données de laboratoire*, opportunités, diagnostic et audits réussis. 

Le score de vitesse est calculé sur les données de laboratoire*. 

Les données de champ* indiquent le FCP* (First Contentful Paint) et le FID*

(First Input Delay) à l’aide de vraies expériences utilisateurs du navigateur* chrome durant les 30 derniers jours.

Les données de laboratoires* proviennent de l’analyse de l’API de Lighthouse*. Lighthouse* est un outil open source automatisé pour améliorer la qualité des pages web. Celui-ci a été intégré à PSI* en novembre 2018 par Google pour une plus grande lisibilité des recommandations. Il réunit six types de données : First Contentful Paint, First Meaningful Paint*, Speed Index*, First CPU Idle*, Time To Interactive* et Estimated Input Latency*. Chaque type de données à son propre score sur 100 : de 0 à 49, c’est lent, de 50 à 89, c’est moyen et de 90 à 100, c’est rapide.

Les opportunités contiennent des recommandations pour améliorer les performances. Chacune indique une estimation du gain de temps possible. Le diagnostic propose des conseils de bonnes pratiques de développement qui pourraient être mises en place. Les audits réussis présentent les points de performance déjà validés par la page et qui ne demande pas d’action supplémentaire.  

 Le score du PSI* n’étant pas le seul influenceur du classement des résultats dans Google pour donner suite à une recherche, il n’y a pas de relation unique entre le score du site et le classement dans les résultats. 

c. Naviguer sur le site

La première impression est très importante, y compris sur le web. L’utilisateur n’a besoin que de 50 millisecondes pour se faire une première impression. Pour faire une bonne impression, deux éléments sont importants : la pertinence du contenu offert par le site par rapport à la recherche de l’utilisateur et l’accessibilité technique du site. En effet, si l’affichage du site dure plus de 3 secondes, 57% des utilisateurs partiront et 80% de ces personnes ne reviendrons jamais sur le site. 

On calcul ceci avec le taux de rebond*, c’est-à-dire le pourcentage de visiteurs qui accèdent à une page puis la quittent sans cliquer nulle part ou accéder à une autre page. Pour avoir un taux de rebond* faible, il faut que le site soit rapide et pertinent.

Le score du PSI* est surtout un indicateur de performance de rapidité grandement apprécié par Google. De ce fait, les efforts doivent se concentrer sur la diminution de la vitesse de chargement de la page. Deux points sont importants pour cela : le First Contentful Paint (FCP*) et le First Input Delay (FID*). 

 Le FCP* est l’indicateur de mesure de temps entre le moment où la navigation commence et le temps où le premier contenu s’affiche à l’écran. Pour obtenir un bon score, il faut que le FCP* s’affiche dans la première seconde de chargement de la page. 

Le FID* est l’indicateur de mesure du temps entre la première interaction entre l’utilisateur et la réponse du navigateur*.

Améliorer le FCP* et le FID* permet au site d’être mieux référencé et trouvé par les utilisateurs sur le moteur de recherche Google. 

d. Convertir les utilisateurs en prospects

Une fois le site correctement référencé et pertinent pour l’utilisateur et sa recherche, il est nécessaire de convertir les utilisateurs en prospects. Pour cela, il faut que le site soit accessible techniquement et fonctionnellement afin de permettre la meilleure expérience utilisateur. Dans un contexte digital, l’expérience utilisateur (UX*) recouvre la façon dont un site web ou une application est perçue par ses utilisateurs en fonctions de ses qualités ergonomiques, de navigation et de contenu. En effet, plus l’utilisateur a une bonne expérience du site web, plus il suivra le parcours utilisateur conçu par le service marketing. Le but de ce parcours est de convertir l’utilisateur en prospect.

Par exemple dans le cadre du site web de L’entreprise, les utilisateurs sont convertis en prospects quand ils effectuent une demande de devis via un des nombreux formulaires sur le site.

Une session* est la période pendant laquelle un utilisateur est actif sur son site Web, ses applications, etc. Toutes les données d’utilisation (visionnage de l’écran, événements, e-commerce, etc.) sont associées à l’identifiant d’une session*. 

Pour mesurer ces performances, on peut utiliser trois indicateurs :

  • Le nombre de page vues par session* : C’est le nombre moyen de pages vues au cours d’une session*. Les visites répétées d’un internaute sur une même page sont prises en compte.
  • Le taux de rebond* : Pourcentage de sessions* avec consultation d’une seule page du site au cours desquelles aucune interaction n’a été enregistrée. Une session* avec rebond dure 0 seconde.
  • Durée moyenne des sessions* : Il s’agit de la durée moyenne d’une session*. 

Ces données sont obtenues via la console de Google Analytics* et évoluent dans le temps. 

Google Analytics* est l’outil statistique de Google qui permet à chaque propriétaire de site web de pouvoir analyser son audience et de suivre les statistiques de l’activité de son site. Toutes les données sont anonymisées. Ce logiciel accessible uniquement par le Web et gratuit est utilisé par plus de 85% du marché mondial.

Ses principales fonctionnalités sont :

  • La mesure du nombre de visites et de visiteurs uniques
  • La mesure du comportement des visiteurs sur le site : contenu consulté, temps passé, chemin emprunté, taux de rebond*, etc.
  • L’identification des principales sources de trafic : publicité, référencement naturel, référencement payant, réseaux sociaux, etc.
  • Le profilage des visiteurs : origine géographique, appareil utilisé, navigateur* utilisé, etc.
  • Le suivi des objectifs : achats en ligne, demande de devis et d’information, inscription à une newsletter, etc.

Toutes ces données peuvent être manipulées et extraites sous différentes formes : fichiers, tableaux de bord, rapports, etc. Ces données peuvent ensuite être utilisées pour améliorer l’efficacité du site web.

ÉTAT DES LIEUX & CONTRAINTES TECHNIQUES

1. État des lieux

En octobre dernier, le temps de chargement sur les tablettes et les ordinateurs était de 9,55 secondes. Dans un premier temps, j’ai essayé de comprendre la structure du site de L’entreprise.

Celui-ci est sur un serveur dédié*. Un serveur dédié* est un serveur* mis à disposition par un hébergeur* pour un seul client. Au contraire, un serveur* partagé* par plusieurs clients est nommé serveur mutualisé*. Ce serveur* sert de support à un multisite* avec le CMS* WordPress* comprenant une vingtaine de sites. Au vu de la charge du serveur*, sa configuration est bien assez puissante pour l’utilisation que nous en faisons d’après mes recherches et mes collègues en réseau. Donc le problème ne viendrait pas des capacités du serveur*.

Un CMS*, Content Management System est un logiciel permettant de créer et gérer du début à la fin l’apparence et le contenu d’un site web sans avoir à écrire du code, du langage informatique.19 Il peut être utilisé simultanément par plusieurs individus, propose des chaînes de publications de contenu et permet de gérer séparément la forme et le contenu. WordPress* utilise les langages de programmation HTML*, CSS*, JavaScript*, PHP* et MySQL*.

WordPress* est le CMS* gratuit et open source le plus utilisé dans le monde. Un logiciel open-source* est un type de licence qui permet à chacun de le lire, le modifier ou le redistribuer.  Il représente 33% des sites web mondiaux en 2019, loin devant Joomla, le deuxième CMS*, qui en représente 3%. WordPress* bénéficie d’une très grande communauté chargée d’améliorer régulièrement l’outil et de faire de nombreuses mises à jour fonctionnelles et techniques. De très nombreux thèmes* gratuits et payants existent et sont compatibles avec la plupart des navigateurs* et responsives*. Un site responsif* est un site conçu pour s’adapter à toutes les résolutions d’écran, que ce soit sur ordinateur, tablette ou mobile.

Du côté de notre site, le thème* et le constructeur de page* Kleo de la marque seventhqueen est installé. Un thème* WordPress* est un ensemble de fichiers qui a pour rôle de modifier et personnaliser l’apparence global du site mais également la disposition des contenus. Un page builder ou constructeur de page* en français est une application qui permet de créer des pages web sans écrire des lignes de code ; c’est une interface de création de site web. Kleo est très puissant et offre des possibilités très importantes mais il ajoute un poids important au site : 53,3 Mo.

Pour compléter Kleo, 81 plugins* sont installés en plus pour l’ensemble des sites. Pour le site, 30 plugins* sont actifs. Un plugin*, appelé extension en français, permet d’ajouter de nouvelles options et d’étendre les fonctionnalités d’un site WordPress*, sans avoir besoin de coder. Par rapport aux fonctionnalités proposés par Kleo et les plugins* installés, nous en utilisons très peu sur le site de L’entreprise. De plus, en regardant les messages d’erreurs côté WordPress* et serveur*, plusieurs plugins* génèrent des erreurs, surtout avec le passage à la version 7 de PHP*. En effet, le changement de version d’un langage informatique entraîne souvent des modifications importantes du langage lui-même. Et les plugins* qui utilisent le langage PHP* doivent être mis à jour pour que leurs fonctionnalités restent actives.

Côté utilisateurs, le nombre d’éléments en première page est trop important et provoque des ralentissements à l’ouverture du site. C’est-à-dire que le nombre de fichiers en css* et en JavaScript* chargés est très important. La question du cache* se pose. Aucun plugin* de cache* n’est installé sur le multisite* côté client. Mais le Gzip*, le cache* côté serveur*, est bien actif.  Le CDN* Cloudflare a été mis en place début septembre pour le site L’entreprise.com mais enlevé début avril à la suite de problèmes de cache* et de sécurité. Un réseau de diffusion de contenu (RDC) ou en anglais content delivery network (CDN), est constitué de serveurs* reliés en réseau à travers Internet et qui coopèrent afin de mettre à disposition du contenu ou des données à des utilisateurs. Enfin, des messages nous avertissant que nous atteignons la capacité limite de stockage du serveur* ont commencé à apparaître.

2. HISTORIQUE

Au début, le serveur* a été loué pour mettre en place un site avec le CMS* Magento* avec une configuration serveur* Nginx*. Une configuration serveur* est un ensemble de fichiers de configuration qui définissent les réglages d’un serveur*.

Par la suite, le site du groupe s’est ajouté avec WordPress*. Puis, le site à destination des professionnels a été créé avec Magento*. Cinq autres sites WordPress* indépendants ont été développés.

Postérieurement, un essai de migration* sur le serveur* de l’ancien site de

l’entreprise codé à l’aide de Zend Framework*, un Framework* PHP* a eu lieu mais la migration* n’a pas été concluante pour des problématiques de base de données (MariaDB*) non compatibles avec l’installation actuelle (MySQL*) et a été annulée. 

Helpdesk* a été installé avec le service OsTicket* afin de mettre en place un service de ticket pour les demandes pour le service informatique en interne. Pour cela, la configuration serveur* Apache* a été ajoutée sur le serveur*.   

Puis, un autre site sous PrestaShop* avec une configuration Apache* s’est ajouté. PrestaShop* est un CMS* spécialisé dans la création de boutique en ligne. Le nouveau site de l’entreprise sous WordPress* avec la configuration Apache* a aussi été ajouté sur le serveur*.

Du fait de la double configuration Apache* et Nginx* mis en place sur le serveur*, le logiciel HA Proxy* a été mis en place sur celui-ci. 

Apache* et Nginx* sont tous les deux des logiciels libres de serveur* web. C’està-dire des logiciels qui vont traiter les requêtes des utilisateurs à l’aide des ressources disponibles sur le serveur*. Du fait de son ancienneté, Apache* propose plus de services mais Nginx* est plus efficace pour traiter un nombre de requête très important grâce à son modèle Event Driven*. Apache* utilise le modèle Thread Driven qui crée un thread à chaque fois qu’un utilisateur demande une page web. Un thread*, ou thread* d’exécution, désigne la séquence ordonnée de base comprenant les instructions logicielles qui peuvent être transmises à un cœur de processeur ou être traitées par celui-ci. Quand un thread* attend une information, celui-ci se bloque et créé un nouveau thread* pour une nouvelle demande. Ce modèle pose un problème dans le cas d’un nombre de demandes simultanées importantes car les threads* se bloquent les uns et les autres et augmentent fortement le délai de réponse du serveur*.

Au contraire, le modèle Event Driven* utilise un seul thread* qui traite et répartit toutes les requêtes sur les processus compétents qui eux-mêmes les dispatchent de nouveau si besoin. Cela permet d’avoir une gestion des requêtes fluides, sans blocage et un délai de réponse serveur* faible même avec 10 000 connexions simultanées. 

Pour avoir ces deux logiciels sur le même serveur*, Nginx* est configuré pour utiliser son reverse proxy*. Celui-ci traite toutes les demandes entrantes et détermine si ces requêtes doivent être redirigées vers Apache* ou bien traitées directement par Nginx*. Cependant, utiliser ce reverse proxy* peut causer des problèmes aléatoires difficiles à résoudre et il est recommandé d’installer le logiciel HA Proxy* pour y pallier.

HA Proxy* est un logiciel gratuit et open source qui fournit un load balancing* de haute disponibilité et un reverse proxy* pour les serveurs* web. Le load balancing*, c’est à dire la répartition de charge permet d’optimiser le temps de réponse pour chaque requête en évitant de surcharger les algorithmes* de manière inégale. Le reverse proxy* du logiciel s’exécute avant Apache* et Nginx* afin de rediriger directement les requêtes sur l’un ou l’autre.

Aller au contenu principal