Web Scraping con Python, para extraer trabajos de Github.
Cuando escuchamos hablar de web scraping (también conocido como raspado web), se refiere a la extracción de datos de un sitio web simulando ser un humano. La información se recopila y, posteriormente se exporta a un formato en el cual el usuario se sienta cómodo, por ejemplo una hoja de cálculo o una API.
Lo que todos conocemos como web scraping se puede hacer manualmente, pero por comodidad y ahorro de tiempo, normalmente se usan herramientas automatizadas para extraer datos web, ya que suelen ser menos costosas y operan a un ritmo mucho más rápido.
Web Scraping o Raspado Web
Web Scraping con Python
Una de las herramientas más utilizadas para tal efecto, es Python. Hoy, Diego Caraballo de «Mi diario Python«, nos enseña un pequeño código que simula el acceso a la página de GitHub y, por cada trabajo encontrado (para la posición Python) imprimirá en consola los datos que buscas.
Observa que sencillo nos lo presenta Diego.
# Fuente: www.pythondiario.com import requests from bs4 import BeautifulSoup URL = "https://jobs.github.com/positions?description=Python" r = requests.get(URL) s = BeautifulSoup(r.text, "html.parser") for i in s.find_all("tr", class_="job"): print("Posición: ", i.td.h4.a.text) print("Descripción Url: ", i.td.h4.a.attrs['href']) print("Nombre Compañía: ", i.find("a", class_="company").text) print("Url Compañía: ", i.find("a", class_="company").attrs['href']) print("Tipo de trabajo: ", i.find("strong").text) print("Ubicación: ", i.find("span", class_="location").text, "\n")
Imagen de la simulación real.
Simulación realizada por pythondiario.com
Si no estás familiarizado con el mundo de la programación en Python, es posible que las líneas de código que se muestran en el ejemplo te resulten difíciles de comprender, pero con un poco de práctica… rápidamente te moveras con soltura en él.
Python es fácil de usar, potente, rápido y versátil, lo que lo convierte en una excelente opción tanto para principiantes como para expertos. La legibilidad de Python lo convierte en un excelente primer lenguaje de programación, dado que te permite pensar como un programador y, no perder el tiempo con otras sintaxis confusas.
No cabe ninguna duda, que la mejor forma de aprender algo es mediante la práctica y las preguntas de ejercicio. Puedes revisar cientos de ejercicios en el siguiente link: https://pythondiario.com/ejercicios-de-programacion-python, como también los muchos tutoriales para principiantes que allí se brindan.
Autor: Diego Caraballo en colaboración con Sergio G.B.
Canales de Telegram: Canal SoloLinux – Canal SoloWordpress
Espero que este artículo te sea de utilidad, puedes ayudarnos a mantener el servidor con una donación (paypal), o también colaborar con el simple gesto de compartir nuestros artículos en tu sitio web, blog, foro o redes sociales. Web Scraping con Python.
cool