«

»

Апр 26

буквы

https://www.etxt.ru/reports/?id=16865

Программы на поиск неуникальных отрывков текстов основаны на работе ПС, а самых популярных две — Гугл и Яндекс.
Программа на Адвего построена на проверке шинглов, их количество равно количеству слов. Т. е. — 3 шингла = три слова, 4 ш. = 4 сл.
А вот программа на Текст.ру основана на пассажах. И пассажи для Гугла и Яндекса разные — 5 и 8, соответственно.
Проверка на пассажи отличается от проверки шинглами. Если по шинглам проверка делает шаг в размер (количество выставленных шинглов), то пассаж накладывает определенное число слов друг на друга.

Пример.

Возьмем предложение:
Ваш домашний мастер – это служба домашнего сервиса, специализирующаяся на оказании услуг бытового сервиса.

Здесь будет проверка для одного поисковика идти так:
Ваш домашний мастер – это,
дальше так:
домашний мастер – это служба,
дальше так:
мастер – это служба домашнего.

И т.д.
То есть, программа прогоняет по 5 слов для одного ПС и по 8 слов для другого, не через шаг, а пассажами и вычисляет схожесть пассажа. Например, если из 5 слов 3-4-5 слов являются неуникальными, то система подсвечивает весь кусок.

Вот в тот момент, когда Вы случайно попадаете на определенное слово и заменяя его, разрываете цепочку, вам кажется, что в системе глюк. На самом деле по тексту таких пассажей может быть несколько. И 10 слов подряд — это 1/20 текста размером в 2000 знаков. Вот и получается, что изменив одно НУЖНОЕ слово, вы добиваетесь 100 % с изначальных 80%.

Следовательно, чем больше текст, тем меньший процент совпадений, тем большая вероятность получить 100% с первого раза.

А глюк на счет того, что несколько людей одновременно проверяют текст и у них показывает разный уник — тут вообще все просто.
1) Территориальность. В вашем регионе может и не показать сайт «купить суши в Москве». Это отдельная тема, много писать не хочу, но Я. и Г. скупили всю литературу, выпущенную за последние 100 лет. Вы представляете, сколько эти машины знают?
2) Возможно, в тот момент, когда Вы проверяли, сайт, который подсветился у заказчика, был закрыт на реконструкцию или просто деньги закончились, не индексировался временно.
3) Бывает плохой сигнал. Антиплагиат ждет ответа определенное время, если сервер не отвечает, он пропускает, как 100% уник. А на самом деле могут быть просто технические неполадки и уже через 5 минут сервер ответит, уник снизится.
И т.д.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>