SUBTL Word Frequency

Раздел

Features

  • Based on spoken-like language
  • Based on 50 million words

Search online in SUBTL database

Documentation

Brysbaert, M. & New, B. (2009) Moving beyond Kucera and Francis: A Critical Evaluation of Current Word Frequency Norms and the Introduction of a New and Improved Word Frequency Measure for American English. Behavior Research Methods, 41 (4), 977-990. 

Download

Corpus

Команды обработки

Подсчет статистики по словам в 5000 первых строк

 head -n 500000 Subtlex.US.txt | sed 's/\([^ ]*\)/\U&/g' | grep -w -i -o -E '[A-Za-z]+' | sort | uniq -c | sort -n | sed 's/^ *//g' | tee Subtlex.Stat.txt | wc -c

Подсчет статистики по словам  во всем файле

Добавить комментарий

Ограниченный HTML

  • Допустимые HTML-теги: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • Строки и абзацы переносятся автоматически.
  • Адреса веб-страниц и email-адреса преобразовываются в ссылки автоматически.
CAPTCHA
А не робот ли вы случайно?
3 + 4 =
Решите эту простую математическую задачу и введите результат. Например, для 1+3, введите 4.