Словари, созданные на основе НКРЯ

На сайте размещены экспериментальные словари, созданные на основе Национального корпуса русского языка с участием сотрудников Отдела корпусной лингвистики и лингвистической поэтики Института русского языка им. В. В. Виноградова РАН.

Грамматический словарь новых слов русского языка.
Е. А. Гришина, О. Н. Ляшевская

Новый частотный словарь русской лексики.
О. Н. Ляшевская, С. А. Шаров

Русскоязычный корпус проекта Aranea

Araneum Russicum

Русский язык.

  1. Minus (120 M)
  2. Maius (1,20 G)
  3. Maximum (13,7 G)

Araneum Russicum Russicum

Русский язык только на российских доменах (.ru, .su, .рф)

Russian Web corpus (ruTenTen)

ruTenTen: Corpus of the Russian Web

The Russian Web Corpus (ruTenTen) is a language corpus made up of texts collected from the Internet. The corpus belongs to the TenTen corpus family which is a set of the web corpora built using the same method with a target size 10+ billion words. Sketch Engine currently provides access to TenTen corpora in more than 30 languages.

Генеральный интернет-корпус русского языка (ГИКРЯ)

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) [англ. General Internet Corpus of Russian (GICR)] — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Корпус дает возможность производить:

Список текстовых корпусов на разных языках

Последнее обновление данных: en — 19 июля 2017 г., ru — 1 августа 2017 г.

Приведён список текстовых корпусов на различных языках. В самом низу страницы находятся ссылки на корпуса, описанные на этом сайте.

Хельсинкский аннотированный корпус русских текстов (ХАНКО)

Проект по созданию Хельсинкского аннотированного корпуса русских текстов ХАНКО осуществляется на Отделении славянских и балтийских языков и литератур Хельсинкского университета. Предполагается, что корпус будет содержать морфологическую, синтаксическую и функциональную информацию о текстах общим объемом около 100 тыс. текстоформ, извлеченных из журнала «Итоги».

Национальный корпус русского языка (НКРЯ)

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) [англ. — Russian National Corpus (RNC)] — доступный для поиска электронный онлайновый корпус русских текстов. Открыт 29 апреля 2004 года. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.

В Корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).