Jedná se o paralelní korpus českých a převážně anglických abstraktů vědeckých prací a prezentací publikovaných autory z Ústavu formální a aplikované lingvistiky Univerzity Karlovy v Praze. U každého publikačního záznamu jsou autoři povinni uvést jak původní abstrakt (v češtině nebo angličtině), tak jeho překlad (v angličtině nebo češtině) v interním systému Biblio. Údaje byly filtrovány na duplicity a chybějící záznamy, aby každý záznam byl dvojjazyčný.
Navíc záznamy publikovaných prací, které jsou indexovány společností SemanticScholar, obsahují příslušný odkaz. Datový soubor byl vytvořen z exportu databáze Biblio ze září 2022 a je uložen ve formátu JSONL, přičemž každý řádek odpovídá jednomu záznamu.