opendata.swiss: Automatisiertes Anreichern von Metadaten

Metadaten auf opendata.swiss sollen automatisiert angereichert werden, damit geographische/administrative Untereinheiten gefunden werden

17

⛶  Open fullscreen

📎 pres_Metadaten Gemeinden angereichert.pdf

Szenario: 0 Datensätze gefunden

Sam Schweizer fand opendata.swiss, das zentrale OGD Portal der Schweiz. Sie sucht auf der Seite nach Daten zu ihrem Wohn- und Arbeitsort und gibt im Suchfeld "Zollikofen" ein. Leider erhält sie auf Portal keinen Treffer. Zollikofen ist aber natürlich unter anderem in der Statistik der Schweizer Städte aufgeführt. Die Erklärung: Der Begriff "Zollikofen" ist in den indexierten Metadaten nicht vorhanden, obwohl das Attribut in den Daten vorhanden ist.

Ziel: Das bringt was

Die Metadaten auf opendata.swiss sollen automatisiert angereichert werden, so dass geographische bzw. administrative Untereinheiten (z.B. Gemeinden, Kantone, Geschäftsstellen) bei der Suche in den Datasets der Obereinheiten (z.B. Schweiz, Kantone, Bundesämter) gefunden werden. Mit mehr als 8600 offene Datasets von Bund, Kantonen und Gemeinden und monatlich zwischen 20'000-25'000 eindeutigen Zugriffe werden Eure Ideen Wahrgenommen: Verbesserungen des Portals sind also Verbesserungen für die Schweiz.

Fazit: Konkret und nachhaltig

Eure Ideen bringen konkrete Verbesserungen für die Menschen, die bereits heute nach Schweizer OGD suchen. In unserer Challenge könnt ihr zudem unsere API kennenlernen und euch auf zukünftige Anfragen vorbereiten.

Ressourcen

Organisation: Geschäftsstelle OGD beim Bundesamt für Statistik

 Title

 opendata.swiss

GovTech:

opendata.swiss: Automatisiertes Anreichern von Metadaten

Kontext

Projekt entstand am govtech-hackathon 2023. Die Challenge ist hier zu finden: https://hack.opendata.ch/project/947

Ziel

Die Metadaten auf opendata.swiss sollen automatisiert angereichert werden, damit geographische Untereinheiten (z.B. Gemeinden, Kantone) bei der Suche nach Datasets gefunden werden, obschon sie nicht in den Metadaten von https://www.opendata.swiss aufgeführt sind. Gewählter Ansatz: Brute Force. Parse the datasets and add tag, if a Gemeinde is mentioned.

Scope PoC

  • Auswahl von 300 Datasets
  • Beschränkung auf Datasets mit csv-Ressourcen.
  • Beschränkung auf downloadfiles < 5 MB

todo

  • Liste der download-Links mit den entsprechenden Package- und Ressourcen-IDs. > ./harvester
  • Harvesten der Datasets > onedrive.com/...
  • Liste aller Gemeindenamen > ./data
  • Parsen der Downloadfile nach den Gemeindenamen > ./parser
  • POST der gefundenen Gemeindanamen auf das entsprechende Dataset
  • Dokumentieren!

zusätzliche Infos:

To do (future):

  • Ausweiten auf weitere Parameter
  • Für die Einbindung von Geodaten. -> cp. https://davidoesch.github.io/geoservice_harvester_poc/
  • Produktivsetzung:
    • Automatisierung nach dem Harvesting (vorausgesetzt: Einwilligung der Datapublisher)
    • Service für Datapublisher, damti sie selber die Metadaten ergänzen.
    • ???
This content is a preview from an external site.
 

Event finished

24.03.2023 16:00

updated sources and print filename (@gmacauda)

Find

24.03.2023 14:13

Edited content version 87

24.03.2023 14:13 ~ pascal_hurni

Repository updated

24.03.2023 14:12 ~ pascal_hurni

Edited content version 83

24.03.2023 14:12 ~ pascal_hurni

Edited content version 80

24.03.2023 14:12 ~ pascal_hurni

Edited content version 78

24.03.2023 14:07 ~ pascal_hurni

Edited content version 76

24.03.2023 14:01 ~ pascal_hurni

updated test_files.csv (Basel-Stadt) (@gmacauda)

go through all datasets (@HesterFrederiek)

Fix basel script (@Dirk Furrer)

Rename enrichmetadata.py to enrichmetadata/enrich_metadata.py (@hurni)

Add files via upload (@hurni)

Delete entich_metadata directory (@hurni)

Merge remote-tracking branch 'origin/main' (@HesterFrederiek)

add test_final.csv (@HesterFrederiek)

Add script to fetch base-stadt urls (@Dirk Furrer)

Update enrich_metadata.py (@hurni)

Update and rename enrichmetadata.py to entichmetadata/enrich_metadata.py (@hurni)

Add files via upload (@hurni)

Merge remote-tracking branch 'origin/main' (@HesterFrederiek)

remove comma at beginning/end (@HesterFrederiek)

Attempt at full text indexer

set axis=1 (@HesterFrederiek)

correct column name (@HesterFrederiek)

do first 100 files (@HesterFrederiek)

remove columns resource_id and filename before export (@HesterFrederiek)

Merge remote-tracking branch 'origin/main' (@HesterFrederiek)

read first 153 files (@HesterFrederiek)

removed line 290, converted to csv (@aresssera)

added datafiles < 1mb (@gmacauda)

add onbadlines='skip' for now (@HesterFrederiek)

add komma in string namesPresent (@HesterFrederiek)

changed get delimiter (@gmacauda)

Merge remote-tracking branch 'origin/main' (@HesterFrederiek)

add datafiles_path (@HesterFrederiek)

Update get_keywords.py (@aresssera)

added example files (@gmacauda)

add source (@HesterFrederiek)

Limit download to 160 files max

Merge remote-tracking branch 'origin/main' (@HesterFrederiek)

add data_path (@HesterFrederiek)

Update README.md (@hurni)

added mapping file for parsing (@gmacauda)

Merge remote-tracking branch 'origin/main' (@HesterFrederiek)

add export_path (@HesterFrederiek)

Update README.md (@hurni)

add export folder (@HesterFrederiek)

add communitylistpath (@HesterFrederiek)

Update README.md (@hurni)

changed folder location of etat communes (@gmacauda)

Update README.md (@hurni)

bugfix in error handling

Find

24.03.2023 08:55

Edited content version 74

24.03.2023 08:55 ~ giamac

pushed some changes: * harvester with fetch_resources.py script using tobias's script url lists * first attempt at augmenting json for full text indexing POC see you later, when my train arrives (currently blocked somewhere around Ins...)

24.03.2023 06:29 ~ esimon

dfakae

23.03.2023 16:17 ~ dfurrer

aresssera

23.03.2023 16:14 ~ jastoj

gmacauda

23.03.2023 16:14 ~ giamac
23.03.2023 15:57 ~ pascal_hurni

Ask

23.03.2023 10:57

Joined the team

23.03.2023 10:57 ~ tlorusso

Die aktuelle Implementation des DCAT-Standards auf opendata.swiss https://handbook.opendata.swiss/de/content/glossar/bibliothek/dcat-ap-ch.html?highlight=dcat

23.03.2023 10:42 ~ pascal_hurni

App der Schweizer Gemeinden (web) https://www.agvchapp.bfs.admin.ch/fr/communes/query

23.03.2023 10:41 ~ esimon

Joined the team

23.03.2023 10:35 ~ jastoj

Joined the team

23.03.2023 10:33 ~ tschw

gebt mir bitte ein :) falls ihr drin seid

23.03.2023 10:33 ~ pascal_hurni

Joined the team

23.03.2023 10:32 ~ dfurrer

Edited content version 43

23.03.2023 10:31 ~ pascal_hurni

Joined the team

23.03.2023 10:21 ~ Hester

Event started

23.03.2023 09:00

Soyez le bienvenu ! Alle sind willkommen ! Tutti sono i benvenuti !

22.03.2023 15:54 ~ pascal_hurni

Joined the team

22.03.2023 14:07 ~ pascal_hurni

Hallo zusammen, wir haben einen POC der 20'000 Datensätze der Kantone zurückgibt die als Dienste / Donwlaoddienst zur verfügung stehen und ABSTRACT KEYWORD CONTACT TITLE etc angreichert sind https://davidoesch.github.io/geoservice_harvester_poc/

21.03.2023 14:31 ~ davidoesch

Joined the team

21.03.2023 14:10 ~ davidoesch

Edited content version 6

03.03.2023 07:00 ~ florihas

Edited content version 4

02.03.2023 09:27 ~ florihas

Joined the team

27.02.2023 09:49 ~ florihas
 
Alle Teilnehmer*innen, Sponsor, Partner, Freiwilligen und Mitarbeiter*innen unseres Hackathons sind verpflichtet, dem Hack Code of Conduct zuzustimmen. Die Organisatoren werden diesen Kodex während der gesamten Veranstaltung durchsetzen. Wir erwarten die Zusammenarbeit aller Teilnehmer*innen, um eine sichere Umgebung für alle zu gewährleisten. Mehr Details befinden sich in die GovTech Hackathon Guidelines.

Tous les participant-es, sponsors, partenaires, bénévoles et collaborateurs/collaboratrices de notre hackathon sont tenus d'accepter le Hack Code of Conduct. Les organisateurs feront appliquer ce code tout au long de l'événement. Nous attendons de tous les participants qu'ils coopèrent afin de garantir un environnement sûr pour tous. Pour plus de détails, veuillez consulter les Guidelines du GovTech Hackathon.

Creative Commons LicenceDie Inhalte dieser Website stehen, sofern nicht anders angegeben, unter einer Creative Commons Attribution 4.0 International License | Le contenu de ce site web est, sauf indication contraire, sous licence Creative Commons Attribution 4.0 International.

GovTech Hackathon 2023