Introducción

El proyecto SindeClon tiene objetivos educativos:

Enseñar y compartir técnicas de web scrappingHelpEl web scrapping es una técnica informática de software para extraer información de sitios Web, normalmente simulando ser una persona navegando por las páginas. Aunque está muy relacionado con los buscadores y la indexación Web, el web scrapping está más centrado en transformar los datos no estructurados de páginas Web en datos organizados, para almacenarlos y analizarlos en una base de datos central, en "hojas de cálculo", etc.Adaptación libre de la Wikipedia (en inglés). y fomentar el open dataHelpOpen data o "datos abiertos" es una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Tiene una ética similar a otros movimientos y comunidades abiertos como el código abierto y el acceso libre Extracto de Wikipedia..

Fundemos bibliotecas: hay sitio en el ciberespacio

Con técnicas de web scrapping podemos copiar y estructurar los datos que se presentan desde cualquier página Web, para después poder analizarlos y reutilizarlos como si hubieran sido ofrecidos en formatos manejables.

El proyecto comienza compartiendo código fuente PHP en forma de pequeñas librerías genéricas, pero también encontrarás programas funcionales más o menos completos a modo de ejempos prácticos, que invitan a ser modificados y estudiados para lograr objetivos concretos.

En el ámbito de los contenidos digitales, la reutilización y aprovechamiento de datos públicos generados por la Administración generó unos ingresos de 600 millones de euros a empresas españolas y dio empleo a más de 5.000 personas. Como podrá suponerse, también existen datos interesantes en Webs o servicios que no provienen del sector público...

En el momento en que tengamos uno o varios conjuntos de datos bien organizados, disponemos de una materia prima que nos permite ser creativos, investigar y darle usos nuevos.

Las posibilidades van desde mejorar la presentación original de esos mismos datos, adecuarlos a necesidades específicas, poder complementarlos con otros de distinta fuente... hasta realizar estudios, estadísticas, utilizarlos de una forma completamente nueva, darles vida en entornos donde todavía no están disponibles... Son posibles muchas obras derivadas y nuevos o idénticos servicios alternativos, mientras no haya impedimentos legales para ello.

Más información, en la sección Preguntas frecuentes


 
 
SindeClon project | CONTACTAR