Titel :
|
DE-Kritzow OT Schlemmin - Programmierung eines Scrapers/Crawlers
|
Dokument-Nr. ( ID / ND ) :
|
2024091207280646868 / 908810-2024
|
Veröffentlicht :
|
12.09.2024
|
Anforderung der Unterlagen bis :
|
07.10.2024
|
Angebotsabgabe bis :
|
07.10.2024
|
Dokumententyp :
|
Ausschreibung
|
Vertragstyp :
|
Dienstleistungsauftrag
|
Verfahrensart :
|
Offenes Verfahren
|
Unterteilung des Auftrags :
|
Gesamtangebot
|
Zuschlagkriterien :
|
Wirtschaftlichstes Angebot
|
Produkt-Codes :
|
72210000 - Programmierung von Softwarepaketen
|
Programmierung eines Scrapers/Crawlers
Thunen-Institut fur Regionalentwicklung e.V.
Am Hof 17
19386 Kritzow OT Schlemmin
Kontakt bei Ruckfragen:
Eleonore Harmel
harmel@thuenen-institut.de
Ausschreibung
Programmierung eines Scrapers/Crawlers mit Redaktionstool für eine Wissensdatenbank
Im Rahmen des Projektes Transformationsgestalter*innen - Wissenstransfer aus dem
Labor Ost
Kontext
Das Thünen-Institut hat mit der Landmaschine (www.maschine.land) eine Datenbank zu Projekten, Akteuren
und Wissen auf dem Land aufgebaut, um das gesammelte Wissen und die gefundenen Lösungen sowie die
vielen Akteure sichtbar zu machen.
Im Rahmen der Förderung durch das Bundesprogramm Demokratie Leben! vom BMFSJ soll es möglich
werden, Projekte von bestimmten Partnerwebseiten treffgenau und effizient zu übernehmen. Das Ziel ist,
gemeinsam mit den lokalen Partnerschaften für Demokratie und weiteren Partnern wie der Deutschen Stiftung
für Ehrenamt und Engagement, dem Netzwerk Zukunftsorte oder aus dem Programm miteinander reden zu
größerer Sichtbarkeit, Vernetzung und dem Wissenstransfer zwischen den verschiedenen zivilgesellschaftlichen
Akteuren beizutragen.
Projektziel
Projektziel ist die Bereitstellung eines benutzerfreundlichen Scraping-Tools mit Crawler, das Daten von
spezifischen Webseiten extrahiert und eine Schnittstelle zur Integration in die bestehende Directus-Datenbank
aufweist. Für das Mapping und die redaktionelle Bearbeitung der Daten sollen benutzerfreundliche
Oberflächen angeboten werden.
Anforderungen
POS 1 Web-Scraping und Crawling-Funktionalität
Implementierung eines Web-Crawlers, der gewünschte Webseiten (bspw. miteinanderreden.net,
deutsche-stiftung-engagement-und-ehrenamt.de, land-hat-zukunft.de, wendland.imwandel.net)
durchsucht und die relevanten Projektsteckbriefe indiziert.
Ermöglichung einfacher Konfiguration und Verwaltung der zu scrapenden Webseiten durch nichttechnische Benutzer.
Entwicklung eines robusten Scraping-Tools, das in der Lage ist, Daten von den Projektsteckbriefen
zuverlässig zu extrahieren.
Übersicht der bereits gecrawlten Websites
Die relevanten Projektdaten wie z. B. Titel, Beschreibung, Kategorien, Bilder sind bereits definiert und
müssen nicht erweitert werden. Es muss sich an die spätere Datenstruktur gehalten werden.
Erkennen von Paging-Funktion in Projektübersichten und crawlen aller Inhalte.
Nutzung von KI-Tools zur Auswertung und Analyse der Webseiteninhalte.
Fähigkeit, HTML, JSON, und andere Formate zu verarbeiten, die auf den Zielwebseiten verwendet
werden
POS 2 Datenverarbeitung, -integration und Mapping
Automatische Bereinigung und Normalisierung der extrahierten Daten
Nutzung einer internen Datenbank zur Zwischenspeicherung der Daten
Entwicklung einer intuitiven und benutzerfreundlichen Benutzeroberfläche für die Prüfung und
Anpassung des Mappings der Daten
Mappings individuell pro Website erstellen und speichern
Anzeigen und Bearbeiten der Mapping-Vorschläge anhand mehrerer gecrawlten Projektseiten
Projekte innerhalb einer Seite können unterschiedlich dargestellt sein, dies soll beim Mapping
beachtet werden
Anwendung des überarbeiteten Mappings auf die erfassten Daten
Vorschläge für die Zuordnung und Verschlagwortung durch ein KI-Tool
Als Schlagworte (category) werden die bereits in der Landmaschine vorhandenen verwendet
Bis zu drei zentrale Schlagworte sollen identifiziert und gespeichert werden (maincategory)
Speicherung der finalen Daten in einer MariaDB-Datenbank für Directus (Redaktionstool)
Sicherstellung der Datenkonsistenz und -integrität während des Importprozesses
POS 3 Entwicklung des Redaktionstools (Prüfung und Bearbeitung der Importierten Projekte)
Bearbeitung der Daten für Redakteure über die Benutzeroberfläche in einem eigenen Crawler-Directus
Konfiguration der Benutzeroberfläche führ die übersichtliche Verwendung
Versionierung der Daten, um nachvollziehen zu können, was initial gecrawlt und welcher Stand nach
redaktioneller Überarbeitung importiert wurde
POS 4 Schnittstelle zum Landmaschinen-Directus
Bereitstellung von REST-Interfaces als Schnittstelle zum Directus der Landmaschine
Die gecrawlten und aufbereiteten Daten werden vom Directus der Landmaschine über die
Schnittstelle abgerufen (die Umsetzung der Extension in LM Directus ist nicht Teil der Ausschreibung)
Kommunikation zwischen Redaktionstool Directus und dem Landmaschinen Directus (z. B.
Fehlermeldungen, Import Status, etc.)
Es muss sichergestellt werden, dass das Backend nahtlos in das bestehende System integriert werden kann und
die technischen Voraussetzungen dafür erfüllt sind. Dazu gehört insbesondere die Kompatibilität mit dem
vorhandenen Landmaschine Directus. Zur Speicherung der Daten ist die Verwendung von MariaDB vorgesehen.
Projektsteckbriefe
Im Folgenden eine kurze Übersicht zu den Daten, die beim Crawling einer Webseite zu einem Projekt erfasst
werden sollen. Für die Systeme oder den Prozess des Crawlings benötigte Daten sind hierbei nicht aufgelistet
(z. B. ID, Kategorie Gruppe, Import Datum, ...). In den Anlagen sind die relevanten Datenbank Tabellen der
Landmaschine als ERD abgebildet und werden anhand einer Projektseite beispielhaft veranschaulicht.
Projekt
Titel
Untertitel / Claim
Beschreibung
Gründungsjahr
Besuchsoptionen
E-Mail-Adresse
Telefonnummer
Bilder (jeweils Datei, Titel, Copyright Text)
Projekt Properties (jeweils Key, Beschreibung)
Adresse (Land, Bundesland, Region, Zip, Stadt, Straße, Geokoordinaten Lat./Long.)
Kategorien (jeweils Titel, Maincategory)
Links (jeweils Titel + URL)
Angaben zur Ausführungsfrist/Lieferzeit
Die Umsetzung der beschriebenen Leistungen ist bis Ende Dezember 2024 zu erbringen.
Anforderungen an den Anbieter
Nachweisbare Erfahrung in der Entwicklung von Web-Scraping-Tools und Web-Crawlern.
Erfahrung mit der Integration von Daten in Directus oder ähnliche Datenbankverwaltungssysteme.
Fähigkeit zur Entwicklung benutzerfreundlicher Oberflächen für nicht-technische Benutzer.
Kenntnisse der relevanten Datenschutzbestimmungen und deren Umsetzung in Softwareprojekten.
Erfahrung in der Backend-Entwicklung mit Node.js und der Frontend-Entwicklung mit React oder Vue.
Erfahrung mit der Nutzung von KI-Tools zur Datenanalyse und -verarbeitung.
Vertrautheit mit Datenbanken wie MariaDB.
Kenntnisse in der Einrichtung und Verwaltung von CI/CD-Prozessen.
Angebotsanforderungen
Interessierte Anbieter werden gebeten, ein detailliertes Angebot einzureichen, das Folgendes umfasst:
Eine Beschreibung der vorgeschlagenen Lösung und wie sie die Anforderungen erfüllt.
Eine Projektzeitleiste mit wichtigen Meilensteinen und dem endgültigen Liefertermin.
Eine Aufschlüsselung der Kosten, einschließlich Entwicklung, Integration, Dokumentation und
Schulung.
Referenzen oder Fallstudien ähnlicher Projekte, die vom Anbieter durchgeführt wurden.
Angaben zu den Teammitgliedern, die an dem Projekt arbeiten werden, einschließlich ihrer
Qualifikationen und Erfahrungen.
Zuschlagskriterien
Der Zuschlag wird auf das wirtschaftlichste Angebot erteilt. Die Ermittlung des wirtschaftlichsten Angebotes
erfolgt auf der Grundlage des besten Preis-Leistungsverhältnisses. Neben dem Preis oder den Kosten werden
auch qualitative, umweltbezogene oder soziale Zuschlagskriterien berücksichtigt. Folgende Zuschlagskriterien
sollen angewendet werden:
Prozent Kriterien Erläuterung zur Wertung
40% Preis Max. 9 Punkte (Maximalpunktzahl entspricht
preisgünstigstes Angebot, Abweichung des Preises
im Vergleich zum preisgünstigsten Angebot
entspricht prozentualer Abweichung der Punkte
nach unten)
60% Vorschlag und Arbeitsplan zur geplanten
technischen Umsetzung
Max. 6 Punkte
0 = keine Vorschlag eingereicht bzw. Kriterium nicht
erfüllt
1 - 6 = alle Eignungskriterien im Rahmen der
Arbeitsprobe sind gleichgewichtet und
werden bewertet nach:
Erfahrungen/Kompetenzen
in den Bereichen Social Business und
gesellschaftliche Transformation (max. 2
Punkte): 0 = Kriterium nicht erfüllt oder 2 =
Kriterium erfüllt
Originalität/Kreativität der in der Arbeitsprobe
dargestellten ausgewählten Referenzen
(Individualität, Einzigartigkeit; max. 2 Punkte): 0
= Eignung zu den vorhandenen Produktionen
des Thünen-Instituts nicht erkennbar, 1 =
Passfähigkeit/Kompetenz in Ansätzen
erkennbar, Potential sichtbar oder 2 =
Kompetenz voll erkennbar, Passfähigkeit zum
Thünen-Institut gegeben
Aufbereitungsqualität der eingereichten
Unterlagen (max. 2 Punkte): 0 = Qualität nicht
zufriedenstellend, 1 = Qualität okay, Potential
nach oben oder 2 = Qualität überzeugt
Verfahren
Das Ausschreibungsverfahren wird als öffentliche Ausschreibung durchgeführt. Die Anlagen zur Ausschreibung
können unter folgendem Link heruntergeladen werden:
https://1drv.ms/f/s!AnJq_DltNXjqg5V_TjOo49Akej2kdg?e=wScnc3
Die Ausschreibung ist bis 07.10.2024 12:00 Uhr veröffentlicht. Innerhalb dieser Frist ist ein verbindliches
Angebot per E-Mail an harmel@thuenen-institut.de einzureichen. Fragen sind bis zum 30.09.2024 12:00
Uhr ausschließlich an harmel@thuenen-institut.de einzureichen
Source: 4
https://service.bund.de/IMPORTE/Ausschreibungen/editor/Bundesamt-fuer-Familie-und-zivilgesellschaftliche-Aufgaben/2024/09/567999
9.html
Data Acquisition via: p8000001
|
|