Studujeme vliv různých metod výběru dat na anglicko-český strojový překlad. Vyhodnocujeme kvalitu nové paralelního korpusu CzEng 1.0, popisujeme jednoduchou metodu jak zlepšit pokrytí slovníku extrahovaného z paralelních dat a zkoumáme několik metod filtrace paralelních dat pro lepší překlad.
Příspěvek zároveň slouží jako popis našeho systému CU-TAMCH-BOJ v soutěži WMT12.