Jean-Roch Meurisse

Learn More
TheWorldWideWeb can be considered an infinite source of information for both individuals and organizations. Yet, if the main standard of publication on the Web (HTML) is quite suited to human reading, its poor semantics makes it difficult for computers to process and use embedded data in a smart and automated way. In this paper, we propose to build a bridge(More)
Mémoire présenté en vue de l'obtention du grade de licencié en informatique. Résumé Dans ce document, nous présentons une méthodologie visant à extraire de sites internet les données et leur structure sémantique. Les pages composant le site sont classées en fonc-tion de leur contenu informationnel en types de pages. Chaque type de pages est décrit dans un(More)
  • 1