... | ... | @@ -30,8 +30,8 @@ Schritt 2: Datenbank |
|
|
|
|
|
* Der Crawler selbst wird natürlich Open Source sein und die Liste der Seiten öffentlich. Ergo kann jeder seine eigene Datenbank aufbauen und es gibt keine zentrale Kontrolle über die Daten.
|
|
|
|
|
|
Schritt 3:
|
|
|
----------
|
|
|
Schritt 3: Spielwiese
|
|
|
---------------------
|
|
|
|
|
|
* Mit den Daten läßt sich jetzt diverses lustiges Zeugs anstellen. Es ist Teil des Konzepts, daß die konkreten Anwendungsmöglichkeiten nicht überschaubar sind. Ziel ist es, Experimente mit den Daten möglichst einfach zu machen, so daß im Idealfall eine Vielfalt von nützlichen spezialisierten Tools entstehen können.
|
|
|
|
... | ... | @@ -48,4 +48,8 @@ Schritt 3: |
|
|
* Das verlinken der Rohdaten über schema.org bietet Optionen, die hier den Rahmen sprengen würden. Um nur
|
|
|
eine Richtung zu nennen: Kommentar- und Bewertungsseiten können unabhängig der bewerteten Seiten laufen.
|
|
|
Verschiedene Communities können so nach eigenen Spielregeln bewerten und kommentieren. Natürlich sind
|
|
|
diese Daten wieder frei verfügbar, lassen sich crawlen, zusammenführen, aggregieren, durchsuchen, ... |
|
|
\ No newline at end of file |
|
|
diese Daten wieder frei verfügbar, lassen sich crawlen, zusammenführen, aggregieren, durchsuchen, ...
|
|
|
|
|
|
Anhang: Technik
|
|
|
---------------
|
|
|
Wir werden 100% virtuell arbeiten, ohne lokale Infrastruktur zu nutzen. Sprich der Code wird via Gitlab verwaltet und die Software wird bei einem Cloudanbieter (Tendenz: DigitalOcean) als Container auf Kubernetes laufen. Bevorzugte Entwicklungsprache wird - wenig überraschend - Python sein. Von den Buzzwords sollte sich niemand - insbesondere keine "meiner" Anfänger abschrecken lassen. Das Projekt bedarf einer ordentlichen Portion konzeptioneller Arbeit, für die keine langjährige Programmiererfahrung nötig ist. |
|
|
\ No newline at end of file |