Přidány nové datasety

Posted on

V rámci české DBpedie je k dispozici SPARQL endpoint, kde je nahrán vždy nejaktuálnější vyextrahovaný snapshot z české Wikipedie. Jednotlivé vyextrahované datasety si ovšem, nyní nově, můžete i stáhnout a libovolně použít. Přejděte na odkaz Datasety kde jsou aktuální soubory ve formátu n-triples. Popis jednotlivých souborů naleznete na hlavní stránce DBpedie .

Během aktualizace české DBpedie byly zároveň přidány následující datasety:

  • anchor-text.nt – obsahuje anchor texty interních odkazů v rámci české Wikipedie
  • external-links.nt – obsahuje externí odkazy jednotlivých Wikipedia stránek
  • geo-coordinates.nt – obsahuje souřadnice ve strukturovaném formátu pro lokace obsažené ve Wikipedii
  • homepages.nt – vyextrahované homepages k jednotlivým Wikipedia stránkám
  • image-galleries.nt – obsahuje seznam galerií obrázků pro Wikipedia stránku
  • images.nt – dataset obrázků zahrnuté ve Wikipedia stránce (vyextrahované jsou pouze ty obrázky, které mají free licenci)
  • long-abstracts.nt – obsahuje dlouhý abstrakt k jednotlivým Wikipedia stránkám
  • out-degree.nt – počet odkazů vycházejících z článku Wikipedie a směřující do jiného článku Wikipedia
  • page-ids.nt – obsahuje ID Wikipedia stránek
  • page-length.nt – obsahuje velikost Wikipedia stránky
  • short-abstracts.nt – obsahuje krátký abstrakt k jednotlivým Wikipedia stránkám

Ostatní datasety již byly zahrnuty v předchozích verzích české DBpedie

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *