Model strojového učení pro analýzu clickbaitu

Publikace

Abstrakt

Výsledkem typu funkční vzorek (Gfunk) je naučený model strojového učení pro analýzu a rozpoznávání clickbaitu. Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující nadpisy z několika amerických zpravodajských serverů.

Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec tak měl výzkumný tým k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny 2 kategorie (normal, clickbait).

K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %.

Vstup: Věta v článku/nadpis - krátký text, např.: "Top 10 nejlepších vánočních receptů!!!" Výstup: klasifikace: Hodnota od 0 do 1, která reprezentuje, do jaké míry je model přesvědčen, že je věta clickbait. Jako zlomová hodnota je tedy brána 0.5 (0.5 > x - standardní věta; 0.5 <= x - clickbait).

Klíčová slova

umělá inteligence natural language processing žurnalistika média clickbait