V rámci české DBpedie je k dispozici SPARQL endpoint, kde je nahrán vždy nejaktuálnější vyextrahovaný snapshot z české Wikipedie. Jednotlivé vyextrahované datasety si ovšem, nyní nově, můžete i stáhnout a libovolně použít. Přejděte na odkaz Datasety kde jsou aktuální soubory ve formátu n-triples. Popis jednotlivých souborů naleznete na hlavní stránce DBpedie .
Během aktualizace české DBpedie byly zároveň přidány následující datasety:
- anchor-text.nt – obsahuje anchor texty interních odkazů v rámci české Wikipedie
- external-links.nt – obsahuje externí odkazy jednotlivých Wikipedia stránek
- geo-coordinates.nt – obsahuje souřadnice ve strukturovaném formátu pro lokace obsažené ve Wikipedii
- homepages.nt – vyextrahované homepages k jednotlivým Wikipedia stránkám
- image-galleries.nt – obsahuje seznam galerií obrázků pro Wikipedia stránku
- images.nt – dataset obrázků zahrnuté ve Wikipedia stránce (vyextrahované jsou pouze ty obrázky, které mají free licenci)
- long-abstracts.nt – obsahuje dlouhý abstrakt k jednotlivým Wikipedia stránkám
- out-degree.nt – počet odkazů vycházejících z článku Wikipedie a směřující do jiného článku Wikipedia
- page-ids.nt – obsahuje ID Wikipedia stránek
- page-length.nt – obsahuje velikost Wikipedia stránky
- short-abstracts.nt – obsahuje krátký abstrakt k jednotlivým Wikipedia stránkám
Ostatní datasety již byly zahrnuty v předchozích verzích české DBpedie