Web Scraping con Python

Web Scraping con Python, para extraer trabajos de Github.

Cuando escuchamos hablar de web scraping (también conocido como raspado web), se refiere a la extracción de datos de un sitio web simulando ser un humano. La información se recopila y, posteriormente se exporta a un formato en el cual el usuario se sienta cómodo, por ejemplo una hoja de cálculo o una API.

Lo que todos conocemos como web scraping se puede hacer manualmente, pero por comodidad y ahorro de tiempo, normalmente se usan herramientas automatizadas para extraer datos web, ya que suelen ser menos costosas y operan a un ritmo mucho más rápido.

Web Scraping o Raspado Web

Web Scraping o Raspado Web

 

Web Scraping con Python

Una de las herramientas más utilizadas para tal efecto, es Python. Hoy, Diego Caraballo de «Mi diario Python«, nos enseña un pequeño código que simula el acceso a la página de GitHub y, por cada trabajo encontrado (para la posición Python) imprimirá en consola los datos que buscas.

Observa que sencillo nos lo presenta Diego.

# Fuente: www.pythondiario.com

import requests
from bs4 import BeautifulSoup

URL = "https://jobs.github.com/positions?description=Python"

r = requests.get(URL)
s = BeautifulSoup(r.text, "html.parser")

for i in s.find_all("tr", class_="job"):
    print("Posición: ", i.td.h4.a.text)
    print("Descripción Url: ", i.td.h4.a.attrs['href'])
    print("Nombre Compañía: ", i.find("a", class_="company").text)
    print("Url Compañía: ", i.find("a", class_="company").attrs['href'])
    print("Tipo de trabajo: ", i.find("strong").text)
    print("Ubicación: ", i.find("span", class_="location").text, "\n")

Imagen de la simulación real.

Simulacion realizada por pythondiario.com

Simulación realizada por pythondiario.com

 

Si no estás familiarizado con el mundo de la programación en Python, es posible que las líneas de código que se muestran en el ejemplo te resulten difíciles de comprender, pero con un poco de práctica… rápidamente te moveras con soltura en él.

Python es fácil de usar, potente, rápido y versátil, lo que lo convierte en una excelente opción tanto para principiantes como para expertos. La legibilidad de Python lo convierte en un excelente primer lenguaje de programación, dado que te permite pensar como un programador y, no perder el tiempo con otras sintaxis confusas.

No cabe ninguna duda, que la mejor forma de aprender algo es mediante la práctica y las preguntas de ejercicio. Puedes revisar cientos de ejercicios en el siguiente link: https://pythondiario.com/ejercicios-de-programacion-python, como también los muchos tutoriales para principiantes que allí se brindan.

Autor: Diego Caraballo en colaboración con Sergio G.B.

 

Canales de Telegram: Canal SoloLinux – Canal SoloWordpress

Espero que este artículo te sea de utilidad, puedes ayudarnos a mantener el servidor con una donación (paypal), o también colaborar con el simple gesto de compartir nuestros artículos en tu sitio web, blog, foro o redes sociales. Web Scraping con Python.

Chat de SoloLinux en Telegram

 

Una respuesta

  1. zusa
    19/02/2021

Agregar comentario

1 logo sololinux

Suscríbete a SoloLinux

Recibe todos los nuevos artículos es tu correo electrónico

You have Successfully Subscribed!

Ir al contenido