Математики проверили на прочность закон Ципфа

admin 23 Фев, 2016 06:52 ПП | Категория Все новости, Наука | Нет комментариев

Испанские математики проверили на прочность закон Ципфа, согласно которому при попытке упорядочить все слова языка или текст по убыванию частоты их использования частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n.

Для того чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту «Гутенберг» — инициативе по созданию и распространению электронной универсальной библиотеки, которая включает 31075 книг на английском языке. Прежние попытки применить закон Ципфа ограничивались десятками текстов, а теперь исследователи работали с настоящим массивом данных, пишут Новости ИТ

Ученые поставили перед собой задачу определить, вписываются ли тексты в закономерность, согласно которой второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Таким образом, ими была избрана простейшая формулировка закона Ципфа.

Согласно итогам исследования, при условии, что опущены наиболее редкие и архаичные формы слов, порядка 55 процентов текстов вписываются в закон Ципфа. Если учитывать эти слова, то соответствие закономерности снижается до 40 процентов.

Лингвист Джордж Кингсли Ципф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее.

После этого вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Ципф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского — 0,06-0,07.

Источник: lenta.ru

Похожие новости:

Автор: admin

Добавить комментарий


Яндекс.Метрика Украина онлайн
© 2012-2017 copyright Новости ИТ