Три слова

Large_wordwinevodka

Компания Google продолжает удивлять. Недавно состоялся запуск новой программы под названием Google Ngrams. В чем ее особенность? При чем здесь вино?

 

Сейчас Google Ngrams отсканировал порядка 5,2 млн книг на всех возможных языках, в том числе и на русском, начиная с 1800 года. Отныне программа хранит эту информацию в своей базе данных. Любой пользователь может задать любое слово или их группу и программа моментально построит график частоты упоминания этого слова (слов) в том объеме информации и временном периоде, который отсканировал Google.

Хочу сразу оговориться, что программа пока не идеальна и ограничена в своих возможностях. Например, она не делает различий между бестселлером и научным трудом, равно как и не понимает различий между химией или историей. В расчет берутся все книги. Попробовать может любой - программа беcплатная. Вот мы и попробовали провести собственный небольшой эксперимент.

Эксперимент №1:

Нами были обозначены три слова для поискового запроса: «вино», «пиво» и «водка», и вот как графически выглядит частота упоминания этих слов в отсканированных книгах. Но хотим предупредить тех, кто захочет «поиграться» с этой программой, что она чувствительна к тому, большая буква или маленькая.

В графике наглядно показано, что упоминание слов «пиво» и «водка» не сильно изменилось за последние двести с лишним лет. А вот «вино», имея максимальный процент упоминаний где-то в районе 1830 года, потом постоянно теряет, но, несмотря на это, его позиция по-прежнему выше, чем у двух других слов. Еще раз хотим подчеркнуть несовершенство программы. Например, к термину «вино» было отнесено и произведение Рея Бредбери «Вино из одуванчиков», которое, как известно, к вину как алкогольному напитку отношения не имеет. Кроме того, употребление всех этих слов может быть и в негативном контексте как элемент антиалкогольной пропаганды. Ну тут уж ничего не сделаешь.

 

Эксперимент №2

А как обстоит дело с английским языком для тех же слов: «wine», «beer» и «vodka»?

 

Внешне картина очень похожа, хотя уже слышны возгласы: в английском слово «vodka» употребляется довольно редко, гораздо чаще слово «liquor». Но мы уже писали о несовершенстве программы.

Что следует из этих графиков? Что о вине пишут куда больше, чем об остальных алкогольных напитках, а пьют меньше, по крайней мере русскоговорящие или англоязычные. Когда количество упоминаний в литературе слова «вино» перейдет в соответствующее количество его потребления? Вопрос литературный и риторический...

 


Автор: Михаил Бабинский

  • Livejournal
  • Я.ру
  • Liveinternet

Код для блога:

Как это будет выглядеть »


Комментарии


Только авторизованные пользователи данного сайта могут оставлять свои комментарии.

Если Вы хотите добавить комментарий, то Вам нужно ВОЙТИ используя Ваш логин и пароль.
Если у Вас нет логина и пароля, то для их получения Вам необходимо ЗАРЕГИСТРИРОВАТЬСЯ на этом сайте.