Urban Dictionary

Urban Dictionary — онлайн-словарь слов и фраз англоязычного сленга. По состоянию на март 2013 года сайт содержал более 7,2 тысяч словарных определений. Материалы редактируются добровольцами и оцениваются посетителями сайта. 

Словари, созданные на основе НКРЯ

На сайте размещены экспериментальные словари, созданные на основе Национального корпуса русского языка с участием сотрудников Отдела корпусной лингвистики и лингвистической поэтики Института русского языка им. В. В. Виноградова РАН.

Грамматический словарь новых слов русского языка.
Е. А. Гришина, О. Н. Ляшевская

Новый частотный словарь русской лексики.
О. Н. Ляшевская, С. А. Шаров

Русскоязычный корпус проекта Aranea

Araneum Russicum

Русский язык.

  1. Minus (120 M)
  2. Maius (1,20 G)
  3. Maximum (13,7 G)

Araneum Russicum Russicum

Русский язык только на российских доменах (.ru, .su, .рф)

Russian Web corpus (ruTenTen)

ruTenTen: Corpus of the Russian Web

The Russian Web Corpus (ruTenTen) is a language corpus made up of texts collected from the Internet. The corpus belongs to the TenTen corpus family which is a set of the web corpora built using the same method with a target size 10+ billion words. Sketch Engine currently provides access to TenTen corpora in more than 30 languages.

Хакеров подвел Google-переводчик

Раздел

Эксперты определили национальность создателей вируса WannaCry. Исследователи смогли вычислить предположительное происхождение хакеров, создавших вирус WannaCry. Согласно проведенному лингвистическому анализу, родным языком злоумышленников с большой долей вероятности является китайский.

Attribution of the WannaCry ransomware to Chinese speakers

Раздел

The notorious WannaCry malware infestation began on Friday, May 12, 2017 and spread rapidly throughout the world, infecting hundreds of thousands of computers and causing major damage.  Speculation concerning the identity of the perpetrators focused on North Korea, but the supposed connection was never convincingly demonstrated, and there were no other serious suspects.

Генеральный интернет-корпус русского языка (ГИКРЯ)

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) [англ. General Internet Corpus of Russian (GICR)] — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Корпус дает возможность производить:

Список текстовых корпусов на разных языках

Последнее обновление данных: en — 19 июля 2017 г., ru — 1 августа 2017 г.

Приведён список текстовых корпусов на различных языках. В самом низу страницы находятся ссылки на корпуса, описанные на этом сайте.

Хельсинкский аннотированный корпус русских текстов (ХАНКО)

Проект по созданию Хельсинкского аннотированного корпуса русских текстов ХАНКО осуществляется на Отделении славянских и балтийских языков и литератур Хельсинкского университета. Предполагается, что корпус будет содержать морфологическую, синтаксическую и функциональную информацию о текстах общим объемом около 100 тыс. текстоформ, извлеченных из журнала «Итоги».

Всемирный атлас языковых структур

«Всемирный атлас языковых структур» (англ. The World Atlas of Language Structures, WALS) — одна из крупнейших открытых баз данных в области лингвистической типологии, включающая информацию о распределении большого числа фонологических, грамматических, лексических и иных явлений в языках мира.

Что вы знаете о национальном корпусе?

Хотя слово «национальный корпус» сразу вызывает некие военные ассоциации, на самом деле за ним скрывается совершенно мирное и гуманитарное понятие.

Национальный корпус русского языка (НКРЯ)

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) [англ. — Russian National Corpus (RNC)] — доступный для поиска электронный онлайновый корпус русских текстов. Открыт 29 апреля 2004 года. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.

В Корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).

Языковая сложность

Раздел

Темы

Лингвист Александр Пиперски о лингвистическом изучении сложности, формализованных языковых описаниях и взаимнооднозначности соответствия между формой и значением.

MRC Psycholinguistic Database

MRC Machine Usable Dictionary. Version 2.00   

The MRC Psycholinguistic Database version 1, was provided as an on-line service (see Coltheart, 1981b). The service drew on three files and several access programs. The first file was a dictionary of words, the second and third files were sets of word association norms from the Edinburgh Thesaurus. The service has now been discontinued.  

University of Oxford Text Archive

The University of Oxford Text Archive develops, collects, catalogues and preserves electronic literary and linguistic resources for use in Higher Education, in research, teaching and learning. The OTA also gives advice on the creation and use of these resources, and is involved in the development of standards and infrastructure for electronic language resources.

MRC Psycholinguistic Database Machine Usable Dictionary

Раздел

MRC Psycholinguistic Database Machine Usable Dictionary : expanded Shorter Oxford English Dictionary entries Coltheart, M. (Max), 1939-; Wilson, Michael John, 1939- s.n. s.l.: s.d

Note: For additional information see: Coltheart, Max.--"MRC Psycholinguistic database" in Quarterly Journal of Experimental Psychology 33A (1981):497-505.--Catalogued on RLIN

Download: zip

Designation: Text data
Size: (16 files : ca. 12.5 megabytes)