Современное развитие вычислительной техники позволяет нам принять участие в раньше невозможных направлениях научного исследования естественного языка. Основной, необходимой базой данных являются корпусы языков, в том числе и репрезентативные большие (национальные) корпусы. Уже широко доступны общие программные средства позволяющее эффективно обрабатывать большие количества текстов, как и средства поиска в корпусах. Всё-таки, создание корпуса с большим количеством данных требует определённый план организации обработки текстов, вместе с структурой программного обеспечения. В докладе представлена общая система позволяющая быстро применить специфические черты обработки данных конкретного языка. Обсуждены необходимые аспекты национального корпуса, как с лингвистической, так и с компьютерной точек зрения. Система использует преимущественно современный объектно-ориентированный язык программирования Python, имеющий превосходные возможности обработки текстовых данных. Разметка текста состоит из двух частей, из лингвистической (внутренней) разметки текста, которая является внутренним свойством лингвистических единиц (слов) в тексте, и из общих данных о документах (метатекстовая, внешняя разметка). Внутренняя разметка текста входит прямо в формат обработанных текстов, в результате использования существующих стандартов репрезентации текстовых данных, как XML (XCES). Внешняя разметка сохраняется в простых текстовых файлах, с реляционной базой данных построенной над этой структурой. Introduction There exists a reasonably extensive literature concerning principles of corpora structure and end-user interaction [1, 2, 3, 4 and many others]. However, technical details of corpora construction are usually left out as uninteresting or too closely tied up with a specific corpus, and therefore not applicable in general. As with every big project, creating and maintaining an extensive (i.e. “national”) corpus of written language requires careful thought up design of data structure and of data manipulation. Consequently, each newly created big corpus ends up reinventing the wheel and implementing the data workflow and manipulation from the scratch. During the Slovak National Corpus construction, we did basically the same thing, but we tried to make our design general and clean, in order to serve as an inspiration for eventual other yet to be created big corpora. This does not include end-user information searching by a corpus manager – there are several (thought not many)