fbpx

¿Es legal el Web Scraping? Te lo explico

En esta rara modernidad, cargada de memes que llegan, se hacen tendencia un tiempo y luego se van, cada tanto se añaden palabras a la “jerga de internet”, que hacen confuso para quienes no están familiarizados con el medio el navegar en foros donde la juventud impera. Palabras como Stalkear, Ghostear, Friendzonear, y más, dejarían “fuera de base” a más de un caminante de las generaciones anteriores.

Pero no solo los de “huesos amarillos”, son propensos a perderse en este mar de palabras “nuevas”, que son adaptadas del inglés, y que en su mayoría no están en el diccionario. En ocasiones aparecen términos propios de otras disciplinas que recuerdan que día a día está vigente la oportunidad de aprender algo nuevo. Como, por ejemplo, “Web Scraping“.

¿Qué es el Web Scraping?

En el mundo de los negocios, estar al tanto de los movimientos de tu competencia es clave para mantenerte “sobre la ola”. Y es que no por nada existe el dicho, “A tus amigos mantenlos cerca, y a tus enemigos… Aún más cerca”. Las ventajas competitivas pueden ser muy efímeras, pero, aquel que sepa aprovecharlas estará más cerca de ser el referente del producto o servicio que preste.

Entonces… ¿Web Scraping es el equivalente a meter a un espía en la nómina de la competencia? Pues no exactamente, en concreto se refiere al proceso de recopilación de contenidos y datos de sitios web usando software. Un ejemplo de su aplicación se puede encontrar en la mayoría de los servicios de comparación de precios, pues estos emplean “web scrapers” para leer la información de precios de varias tiendas online.

En el pasado se dependía de un empleado que investigase los precios de la competencia, establecimiento por establecimiento y apoyándose en los pocos medios de difusión disponibles, luego, conforme los métodos de publicidad y crecían, se podía optar por buscar en las revistas semanales y comunicándose con vendedores a través de líneas telefónicas. A día de hoy, un software reduce bastante el trabajo, aunque no lo sustituye en su totalidad, pues, hay ciertos pasos en los que la mano humana debe intervenir.

@azul_web ¿Qué es Web Scraping? #programming #programacion #hackingetico #teenseñotiktok #seguridadinformatica #aprendeaprogramar #cursogratis ♬ House music(Electro House) – 霸浩

¿Te gustaría aprender Web Scraping? Te recomiendo este curso: Curso Bases del Web Scraping con Python. En este curso obtendrás las bases para poder extraer los datos de las web y poder almacenarlos en una base de datos para que puedas tener y usar los datos como tu gustes en base a tus necesidades.


¿El Web Scraping es legal?

El Web Scraping no sólo sirve para la comparar precios, de hecho, al mirar su definición, es fácil notar que es bastante abierta… Eso de “recopilar contenidos y datos”, hace que de inmediato salte la pregunta: ¿Qué tipo de datos? ¿Hasta dónde pueden llegar en el proceso de recopilación? ¿Mis datos están expuestos?

Lo cierto es que el Web Scraping abre el compás a la recopilación de datos acerca de noticias, motores de búsqueda, gobiernos y sí, redes sociales. Entonces, esto ya se parece más a una herramienta de ensueño para el típico stalker/acosador de película. Sin embargo, hay que hacer la distinción.

El Web Scraping es legal en sitios en los que la información es pública, no está sujeta a derechos de autor y no se trata de datos personales. De lo contrario se trata de Web Scraping malicioso. Por tanto, en el caso, por ejemplo, de Amazon, sus precios están a la distancia de un clic, por lo que la diferencia entre alguien que recoge los precios ofrecidos por distintos vendedores, uno a uno, y otro que usa un software, solo radica en la velocidad y efectividad, pero, ninguno de los dos estaría incurriendo en un delito informático.

¿Cuáles son las posibles consecuencias de hacer Web Scraping malicioso?

Al pensar en consecuencias del mal uso del Web Scraping, quizás lo primero que venga a la mente se trate de amonestaciones, multas y sanciones similares a nivel de la justicia local. Sin embargo, las cosas no solo se reducen a la justicia local en este mundillo. Hay algo que se debe tomar en cuenta, y es que, en cuanto a los derechos de autor, las cosas cada vez son más estrictas.

Si por ejemplo se recopilasen y distribuyesen como propios, datos protegidos, entonces existe la posibilidad de que se emita un aviso de eliminación de DMCA (Digital Millennium Copyright Act/La Ley de Derechos de Autor de la Era Digital). Es decir, que se elimine la página que se usó para distribuir el material ajeno, a modo de sanción radical contra el acto. Según el equipo de KINSTA, las URLs obligadas a ser removidas debido al uso de una marca registrada han sobrepasado los 4 mil millones.

Un caso muy controversial fue el de Cambridge Analitys y su colección de datos de Facebook. Cómo olvidar el rostro de Zuckerberg ante el senado y la cantidad de memes que se publicaron en aquel 2018. Es increíble lo vulnerables que somos a que nuestros datos sean distribuidos.

El caso de HiQ y el CFAA

Aparte del ya mencionado caso de Cambridge Analitys, hubo otro con cierto revuelo, donde la empresa “HiQ” fue protagonista. En este caso, apelando a la definición de CFAA “Computer Fraud and Abuse Act”, lograron zafarse de una demanda.

Los datos que recopilaba HiQ, si bien podían entrar en la categoría “personal” con algunos malabares semánticos, lo cierto es que, eran públicos y los análisis que realizaban con ellos no incurrían en poner en peligro a las personas involucradas, su dignidad o su intimidad.

El equipo de ParseHub documentó muy bien este caso en el siguiente video (está en inglés, pero es posible usar subtítulos):

Está claro que mientras más avanza la tecnología, más vulnerable somos, más rastreables, más fáciles de estudiar. Lo que ayer era una noticia que tardaba días en recorrer todo el mundo, hoy en día se puede dar a conocer en segundos por el fenómeno de internet y la viralización.

Por ello, publicar con prudencia es clave, está en nuestras manos el no compartir más de la cuenta cuando se trata de nuestra vida personal, por nuestro bien y el de las personas que amamos. Cambiando de tema en esta reflexión, notamos que esta herramienta por sí misma no es maliciosa, sino que depende del uso que le demos para caer en dicha clasificación. Por si misma puede otorgar una ventaja tremenda para nuestro negocio, ahorrando horas de consultas a mano y otorgando un panorama más completo.

El conocimiento es poder, aunque el meme sea lo primero que venga a la mente al usar esa frase, no es más que una verdad con todas las de la ley. Si quieres aprender a aprovechar esta herramienta propia de la modernidad, no dudes en empezar hoy mismo con este curso.

Artículos relacionados

Respuestas