Introduction à Python
  • Back to Main Website
  • Home
  • Comprendre Et Installer Python
    • Comprendre Et Installer Python
    • Histoire du Langage
    • Exécution d’un Programme Python
    • Versions et Compilation de Python
    • Le PATH
    • Path.. et environnements virtuels!
    • Les IDEs
    • Les Notebooks

    • Quelques IDEs en Python
    • VsCode - L’IDE Flexible et Polyvalent
    • Spyder - Un IDE Orienté Science des Données
    • PyCharm - L’IDE orienté Python

    • Travaux Pratiques
    • TP Guidé - Installer plusieurs versions de python avec pyenv
    • TP - Construire son python depuis la source
  • Syntaxes et Concepts de Base
    • Syntaxes et Concepts de Base
    • Syntaxe et objets de Base Python
    • Fonctions et Modules
    • Introduction à la POO en Python

    • Travaux Pratiques
    • Exercices d’applications
    • Base de la POO: Exercice
  • Les Librairies Python
    • Les Librairies Python
    • Installer et importer des librairies en Python
    • Les DataFrames
    • Exemple sur pandas
    • Calcul Scientifique et Optimization
    • Machine Learning
    • Recupérer des données du net
    • Python - Aussi un language pour servir des données
    • Visualiser et présenter ces données avec Python

    • Travaux Pratiques
    • TP-3 Libraries
    • TP - Utiliser pandas
  • Bonne pratiques, Dangers, et Astuces
    • Bonne pratiques, Dangers, et Astuces
    • Mutabilité et Scope
    • Typage en Python
    • Asynchronie et Multiprocessing

    • Travaux Pratiques
    • Modern Portfolio Theory - Practical Work
    • Modern Portfolio Theory - Practical Work - Corrected version
    • TP Python for Finance: Introduction to Option Pricing
    • TP Python for Finance: Introduction to Option Pricing - Corrected Version
    • TP - Creer un outil de récupération de donnée
  • Concepts avancés
    • Concepts avancés
    • L’arbre Syntaxique Abstrait ou AST
    • Python Orienté Objet - Les Dunders
    • Python Orienté Objet - les Design Patterns

    • Travaux Pratiques
    • TP-5
  • Sujets de Projets possibles
    • Projets
    • Projets Introduction à Python - Millésime 2024
    • Projets Introduction à Python - Millésime 2025
  • Code source
  1. Recupérer des données du net
  • Les Librairies Python
  • Installer et importer des librairies en Python
  • Les DataFrames
  • Exemple sur pandas
  • Calcul Scientifique et Optimization
  • Machine Learning
  • Recupérer des données du net
  • Python - Aussi un language pour servir des données
  • Visualiser et présenter ces données avec Python
  • Travaux Pratiques
    • TP-3 Libraries
    • TP - Utiliser pandas

On this page

  • Recupérer des données du net
    • Chapitre sur l’Accès à Internet en Python

Recupérer des données du net

Cours
Fondamentaux
Requête HTTP, Webscrapping, websockets, API, JSON, XML, CSV, HTML, SQL, NoSQL, FTP, SSH, …
Author

Remi Genet

Published

2025-02-12

Pyodide Status

Initializing Python Packages

Recupérer des données du net


Chapitre sur l’Accès à Internet en Python

Introduction à l’Accès Internet en Python

Python fournit plusieurs bibliothèques pour interagir avec le Web, permettant des opérations telles que le scraping de données, les requêtes Web, et l’interaction avec les API.

Bibliothèques Clés pour l’Accès à Internet

  1. Requests: Une bibliothèque Python simplifiée pour envoyer des requêtes HTTP. Elle est idéale pour interagir avec des API RESTful.
    • Exemple d’utilisation :

      1
      2
      3
      import requests
      response = requests.get('https://api.exemple.com/data')
      data = response.json()
  2. Beautiful Soup: Utilisée pour le web scraping, Beautiful Soup permet d’analyser le contenu HTML et d’extraire les données nécessaires.
    • Exemple de scraping :

      1
      2
      3
      from bs4 import BeautifulSoup
      soup = BeautifulSoup(html_content, 'html.parser')
      titles = soup.find_all('h1')
  3. Scrapy: Un framework puissant pour créer des crawlers Web. Il est utilisé pour des scrapings plus complexes et des bots d’indexation.
    • Utilisation typique :

      1
      2
      3
      4
      5
      6
      7
      8
      9
      import scrapy
      class MySpider(scrapy.Spider):
          name = 'exemple_spider'
          start_urls = ['http://exemple.com']
          def parse(self, response):
              # Extraction de données
              pass

Exercice Pratique

  1. Objectif: Se familiariser avec les requêtes Web et le scraping en Python.

  2. Énoncé: Écrivez un script qui récupère les titres des dernières nouvelles d’un site d’actualités et les affiche.

  3. Solution:

    1
    2
    3
    4
    5
    6
    7
    8
    import requests
    from bs4 import BeautifulSoup
    response = requests.get('https://news.exemple.com')
    soup = BeautifulSoup(response.content, 'html.parser')
    for title in soup.find_all('h2'):
        print(title.text.strip())

Sécurité et Bonnes Pratiques

  • Respecter les règles du robots.txt: S’assurer de respecter les directives du fichier robots.txt des sites Web lors du scraping.
  • Gestion des erreurs et des exceptions: Traiter correctement les réponses HTTP, comme les erreurs 404 ou 503.
  • Utiliser des headers de requête appropriés: Inclure des informations d’en-tête comme User-Agent pour éviter d’être bloqué par les sites Web.

Conclusion

L’accès à Internet en Python, grâce à des bibliothèques comme Requests, Beautiful Soup et Scrapy, offre un potentiel immense pour collecter et traiter des données du Web. Que ce soit pour des tâches simples comme récupérer des données d’une API ou pour des projets de scraping Web plus complexes, Python fournit les outils nécessaires pour interagir efficacement avec le Web.


Dans le prochain chapitre, nous explorerons comment Python peut être utilisé pour “alimenter” le Web, en se concentrant sur les frameworks Web et le développement backend en Python.

Back to top
Machine Learning
Python - Aussi un language pour servir des données

Introduction à Python, Rémi Genet.
Licence
Code source disponible sur Github

 

Site construit avec et Quarto
Inspiration pour la mise en forme du site ici
Code source disponible sur GitHub