Алгоритм определения сгенерированного текста
Предлагаю обсудить, как поисковые системы определяют, что на сайте не человеческий а сгенерированный програмой текст.
Обычно дорвейщики используют генераторы контента на основе цепей маркова. Я так понимаю, что этот текст и яндекс и гугл отличает от человечкского.
Палю тему - поисковики смотрят ещё на последовательности слов, у них есть схемы, какие слова идут за какими, и если в тексте очень мало таких совпадений, то текст генерируеммый.
Пример
Я живу в (большом/красивом/новом) доме. И после слова живу не может быть например слово скисшем.
__________________
Недорогой хостинг! forum-seo.net/showthread.php?p=10754 Для просмотра ссылок или изображений в подписях, у Вас должно быть не менее 30 сообщение(ий). Сейчас у Вас 0 сообщение(ий).
|