Эмпирический закон Ципфа
Хорошо известная (и, при этом, простая) эмпирическая закономерность распределения частоты слов естественного языка в текстах большого объема — помогает отсеивать отделам антиспама искусственные (генерированные) тексты. Это значит, что в общем случае, рекомендуется проверять большие объемы текста на соответствие этому закону.
Напомним, в базовой формулировке закон гласит:
Если все слова языка (или слова текста большого объема) упорядочить по убыванию частоты их использования, то частота N-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру N. Число N носит название ранга слова. Так, скажем, второе по популярности слово, будет встречаться в тексте примерно в два раза реже первого, а десятое по популярности — в десять раз реже первого. И так далее.
Тут требуется брать во внимание три момента:
- Чем меньше объем текста (в словах) — тем большие отклонения от закона Ципфа будут наблюдаться. Это «нормально» в данном случае.
- При анализе всей совокупности текстов сайта — рекомендуется анализировать именно контентную часть и исключать из рассмотрения обвязку документов (меню, сквозные блоки).
- Закон Ципфа является далеко не единственным при анализе текстов на естественность. Рекомендуем ознакомиться с первой передачей из цикла «Аналитика SEO».
Дата ответа:
Автор ответа: Дмитрий Севальнев
Дата ответа:
Дата ответа:
Дата ответа:
Дата ответа: