Ladění atributů v soutěži NLI Shared Task 2013: zpráva týmu z Univerzity Karlovy

Publikace na Matematicko-fyzikální fakulta |

2013

Abstrakt

Naším cílem je predikovat rodný jazyk (L1) autorů anglických esejí za pomoci korpusu TOEFL11, ve kterém jsou známy jazykové úrovně autorů a témata esejí. Úlohu řešíme jako klasifikační úlohu pomocí řízených metod strojového učení. Zaměřujeme se na ladění atributů, mezi které jazykovou úroveň a témata nezahrnujeme.

Atributy navrhujeme napříč jazyky L1. Experimentujeme s několika technikami pro filtrování a kombinaci atributů s ohledem na kritéria z informační teorie.

Celkem jsme natrénovali čtyři modely SVM a pomocí většinového hlasování je zkombinovali do modelu dosahujícího úspěšnosti 72.5%.

Klíčová slova

ladění atributů soutěži shared task 2013 zpráva týmu univerzity karlovy