Naším cílem je predikovat rodný jazyk (L1) autorů anglických esejí za pomoci korpusu TOEFL11, ve kterém jsou známy jazykové úrovně autorů a témata esejí. Úlohu řešíme jako klasifikační úlohu pomocí řízených metod strojového učení. Zaměřujeme se na ladění atributů, mezi které jazykovou úroveň a témata nezahrnujeme.
Atributy navrhujeme napříč jazyky L1. Experimentujeme s několika technikami pro filtrování a kombinaci atributů s ohledem na kritéria z informační teorie.
Celkem jsme natrénovali čtyři modely SVM a pomocí většinového hlasován í je zkombinovali do modelu dosahujícího úspěšnosti 72.5%.