"Mining the Web: Discovering Knowledge from Hypertext Data", de Soumen Chakrabarti - Avis sur le livre

Le livre "Mining the Web: Discovering Knowledge from Hypertext Data" de Soumen Chakrabarti semblait plein de promesses. Malheureusement il n'a pas répondu à mes attentes.

Voici la présentation que l'éditeur fait du livre : "Ce livre est le premier qui soit consacré aux techniques permettant d'extraire de la connaissance de la vaste collection des données non structurées que l'on trouve sur le web. Chakrabarti passe d'abord en revue les questions d'infrastructure tel que le parcourt et l'indexation du web, puis il examine les techniques d'apprentissage automatique (machine learning) de bas niveau qui permettent d'exploiter les données du web (web mining)."

En d'autres mots, ce livre traite des techniques qui permettent de trouver automatiquement des données (ou pages) pertinentes sur le web. Il aborde les problématiques auxquelles sont confrontés les moteurs de recherche lors du parcours et de l'indexation des pages web : nombre énorme de pages à indexer, évolution permanente du corpus à indexer, rafraîchissement des pages déjà indexées... Puis il évoque les différentes façons d'effectuer une recherche à l'intérieur d'un corpus de documents indexés, via des requêtes SQL classiques ou grâce à plusieurs méthodes d'évaluation de la pertinence.

L'auteur aborde ensuite la notion de similarité et aggrégat (clustering) qui consiste en gros à regrouper des documents selon certaines thématiques. Cela permet d'optimiser les recherches sur des termes qui peuvent être hautement ambigu (par exemple, le terme "star" en anglais peut faire allusion aux étoiles dans le ciel, aux stars de cinéma, à l'hymne américain ("star spangled banner")...). En effet, on peut demander à l'utilisateur à quel "cluster" sa recherche appartient et optimiser les résultats retournés.

Il parle ensuite d'apprentissage supervisé (supervised learning), une technique qui consiste à associer à des documents uniquement des mots-clé appartenant à une certaine "classe" de mots-clé définis manuellement. On parle aussi d'apprentissage semi-supervisé (semi-supervised learning), une technique qui consiste à entraîner un moteur de recherche à rattacher des documents à des mots-clé pertinents en lui montrant un ensemble de documents déjà taggés sur lesquels se baser pour tagger les futurs documents.

Enfin, Chakrabarti évoque l'analyse des réseaux sociaux comme moyen d'obtenir des résultats encore plus pertinents. Il faut comprendre "réseaux sociaux" au sens large, c'est-à-dire le fait que les pages web se citent les unes les autres via des liens hypertexte, et que la source de la citation doit être prise en compte dans le classement du document cité (sur lequel le "prestige" de la source rejaillit en partie). Il parle également de l'importance de la "découverte des ressources", c'est-à-dire le fait d'indexer préférentiellement les pages importantes, les pages portant sur un sujet précis (considéré comme pertinent), ou les pages appartenant à une "communauté" (hub) de pages.

L'auteur conclut en évoquant le futur du web mining qui passe par l'extraction d'informations, la compréhension du langage naturel, la réponse aux questions posées en langage naturel...

Pourquoi je n'ai pas adoré ce livre

Je trouve que les sujets abordés par ce livre sont passionnants. Malheureusement, ils le sont de façon extrêmement universitaire. Le livre est truffé d'équations permettant de calculer la similarité entre deux documents ou la pertinence d'un document par rapport à une requête. C'est intéressant pour celui qui fait de la recherche ou celui qui cherche à développer son propre moteur de recherche, mais à mon niveau, mes attentes sont plutôt de comprendre les concepts de base du "web mining" et de trouver des outils prêts à l'emploi qui me permettront effectivement d'extraire des informations du web de façon automatique ou semi-automatique.

Les applications sont multiples, notamment la constitution automatique de bases de données (pour mon annuaire de PME par exemple), et le web mining est étroitement lié au web sémantique, aux web bots, aux agents intelligents... autant de sujets que je trouve passionnants. Malheureusement, ce n'est pas ce livre qui vous permettra de vous sentir plus à l'aise de ces domaines (à moins que vous ayez un bon profil d'informaticien pur).

Poster un nouveau commentaire

Le contenu de ce champ ne sera pas montré publiquement.
  • Les adresses de pages web et de messagerie électronique sont transformées en liens automatiquement.
  • Internal paths in double quotes, written as "internal:node/99", for example, are replaced with the appropriate absolute URL or relative path.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Plus d'informations sur les options de formatage

CAPTCHA
Cette question permet de vérifier que vous êtes humain et d'éviter le spam.