Wednesday, February 5, 2014

Сколько слов в английском языке? И кто их считает?

Сегодня прочитала несколько интересных статей о количестве слов в английском языке, об организациях, занимающихся их подсчетом, и о трудностях этого процесса. Спешу поделиться. 

The Global Language Monitor (GLM) использует последние разработки в области статистики, цифрового анализа и компьютерных технологий с целью документирования англоязычной лексики и анализа языковых тенденций в мире, а именно в Интернете, блогосфере, электронной и печатной медиапродукции. Каждый год они публикуют Annual Survey of Global English, согласно которому на данный момент (1 января 2014) в английском языке насчитывается 1.025.109 слов. Сами специалисты признают, что подсчитать количество слов в отдельном языке невозможно, т.к. нет четкого определения слова, и поэтому список GLM вызывает огромное количество споров, т.к. в него входят такие "слова", как 404 (Ошибка 404: сервер не найден), Web 2.0, N00b, Financial Tsunami, 24/7, 3-D и т.д. В ответ на критику со стороны традиционалистов  GLM напоминает о Leet или 1337, альтернативном английском алфавите, используемом в Интернете. "It's a burgeoning trend; it's called L33t Speak. Check the New York Times, where you will find and goodly amount of headlines featuring Government 2.0 or Healthcare 2.0, and the like". А вот редакторы словаря Websters's, более консервативные в методе отбора слов, насчитали всего 450.000 слов (3 издание, 1961) в а/я. Такая разбежка в цифрах объясняется прежде всего ориентацией GLM на живой (устный и письменный) язык, в отличие от Websters's с его 10-летней проверкой временем (каждое слово должно "продержаться" минимум 10 лет, чтобы попасть в словарь). GLM же отражает живой, меняющийся язык, в котором слова постоянно отмирают, на смену им придумываются новые, а старые получают новое значение и оформление.
Еще я вычитала об очень молодой науке, которая называется культуромика. Ее специалисты занимаются изучением поведения людей и культурных тенденций с помощью статистического анализа оцифрованных книг. Появилась она благодаря Google и ученым из Harvard, которые в 2010 г. запустили проект, под названием Google Ngram Viewer. Этот инструмент позволяет проанализировать лексикон английского языка, отследить частоту употребления в текстах того или иного понятия, имени, названия (а следовательно, и интерес к явлениям, личностям и событиям, ими обозначаемыми), изменения в грамматике английского языка и многое другое. Его создатели отмечают, что инструмент этот "fantastically addictive". И на самом деле, зайдите на этот сайт и введите интересующее вас слово в поисковик,—вы получите наглядный график упоминания данного слова в литературе на протяжении двух веков: от 1800 до 2000 года! Например, о human rights никто не говорил практически на протяжении 150 лет, а потом резкий скачок после ±1970. Слово Internet имеет вполне ожидаемый график иглы. А вот если ввести два понятия сразу, то становится понятным, в какой области лежат наши приоритеты: например, God и money: интерес к этим понятиям всегда был стабилен, но слово "money" гораздо частотнее. 
Для своего проекта Google использовали 5.195.769 книг, что дало им более 500 миллиардов слов для анализа. Несмотря на такое количество данных, инструмент довольно ограничен для анализа языка в целом и общества, им пользующегося, т.к. отражает только лишь литературный язык (а как известно, писать книги и издавать их дело избранных) и не фиксирует изменений в разговорном языке, в языке смс-ок и в языке "неизбранных". Тем не менее, это необыкновенно полезный инструмент для литературоведов, антропологов, историков, социологов и прочей научной братии. Кстати, Google/Harvard исследователи насчитали 1.022.000 слова в а/я.

Вот 2 интересные статьи о культуромике и совместном проекте Google и Harvard: 
1. статья на сайте радио "Свобода" (на р/я)
2. статья на сайте моего любимого National Public Radio (на а/я) 

А вот ссылка на онлайн дебаты о том, сколько же слов в русском языке и кто из нас более "великий, могучий, свободный". 

4 comments:

  1. тьма?
    или тьма-тьмущая?

    ReplyDelete
  2. 100 тыщ миллионов ;)

    ReplyDelete
    Replies
    1. кто их считает - понятно.
      и сто тыщ миллионов тоже понятно :)

      Delete