dbpedia-owl:abstract
|
- Klasifikace je ve strojovém učení a statistice druh problému, když máme určit, do které z kategorií dat dané pozorování patří. K tomu máme k dispozici trénovací množinu obsahující pozorování (data, instance), pro která jsou kategorie správně určeny. Jednotlivá pozorování jsou analyzována do množiny kvantifikovatelných vlastností, známých jako nezávislé proměnné, rysy, fíčury (features) apod. Tyto vlastnosti můžou být kategoriální (např. "A", "B", "AB" nebo "O" pro krevní skupiny), ordinální (např. "velký", "střední" nebo "malý"), celočíselné (např. počet výskytů slova v emailu) anebo reálné (např. měření krevního tlaku). Některé algoritmy pracují pouze s diskrétními hodnotami a požadují, aby se celočíselná nebo reálná data diskretizovala, tj. převedla se na kategorie obsahující podobná pozorování (např. "méně než 5", "mezi 5 a 10", "víc než 10"). Jako příklad problému klasifikace je přiřazení emailu do třídy "spam" nebo "ne-spam" anebo přiřazeni diagnozy danému pacientovi, podle jeho pozorovaných charakteristik (pohlaví, věk, krevní tlak, přítomnost nebo absence určitých symptomů, ...)Algoritmus, který implementuje klasifikaci, se nazývá klasifikátor. Tento termín se používá také pro matematickou funkci, která je implementována algoritmem, a zobrazuje vstupní data na třídy.V terminologii strojového učení je klasifikace považována za metodu učení s učitelem, to jest učení, při kterém je známá trénovací množina správně klasifikovaných příkladů. Analogická metoda v učení bez učitele je známá jako klastrování a spočívá ve spojování dat do kategorií podle nějaké míry vnitřní podobnosti (např. odvozené ze vzdálenosti mezi instancemi, které jsou považovány za vektory ve vícedimenzionálním vektorovém prostoru).Terminologie není jednotná a liší se v statistice a strojovém učením, případně v různých aplikačních oblastech.
|
rdfs:comment
|
- Klasifikace je ve strojovém učení a statistice druh problému, když máme určit, do které z kategorií dat dané pozorování patří. K tomu máme k dispozici trénovací množinu obsahující pozorování (data, instance), pro která jsou kategorie správně určeny. Jednotlivá pozorování jsou analyzována do množiny kvantifikovatelných vlastností, známých jako nezávislé proměnné, rysy, fíčury (features) apod. Tyto vlastnosti můžou být kategoriální (např.
|