www.mari-language.com:	ENGLISH \| МАРЛА \| ПО-РУССКИ
Тӱҥ лышташ » Corpus Infrastructure

Corpus of Literary Mari

Тиде материал нерген кызыт англичан йылме дене веле лудаш лиеш. Марий ден руш версий ямдылалтеш да вашке савыкталтшаш.

[Launch the corpus]

The following video illustrates rudimentary functionalities of the corpus:

[Rudimentary instructions]

The Mari corpus project was initiated by scholars from Ghent (Alexandra Simonenko), Helsinki (Jack Rueter, Niko Partanen), Moscow (Anna Volkova), Munich/Vienna (Jeremy Bradley), Tromsø (Trond Trosterud), Turku (Jorma Luutonen), and Yoshkar-Ola (Andrey Chemyshev, Gennadiy Sabantsev, Nadezhda Timofeeva). It represents an effort to create a morphologically annotated corpus of literary Mari (both Meadow Mari and Hill Mari) searchable in myriad ways (by lexeme, by morphological pattern, by syntactic pattern). The first working version of this corpus was released on 23 December 2020 and contains 57.38 million tokens of Meadow Mari texts and 6.25 million tokens of Hill Mari text. Texts represent different genres (fiction, non-fiction, law, news, science) and represent over a century of Mari literacy.

Participating and supporting institutions:



The Mari Web Project дене паша тӱҥ шотышто Вена университетын финн-угор шымлымаш пӧлкаштыже кая. Марла-англичанла мутерым ямдылымаште Австрийысе шанче фонд (FWF: P22786-G20) эҥертыш лийын. Проектнан кокымшо йыжыҥже (The Mari Web Project: Phase 2) Коне фондын окса полышыж дене шукталтеш. Проект дене пашан посна ужашыже Мюнхенысе Людвиг-Максимилиан лӱмеш университетын Финн-угор да урал шымлымаш институтыштыжо ышталтеш.
Пытартыш уэмдымаш: 2024-ше ийын идым тылзын 1-ше кечыштыже Доступность нерген увертарымаш (немычла)