Генерация текстов
Рубрики: Советы 07.02.2011Это четвертая статья из серии про размножение текстов. Так как на написание умных поучительных статей совершенно нет времени, то перехожу в режим свободного повествования. Заранее извиняюсь за возможные неточности и описки.
Итак, с основными понятиями - шинглом и уникальностью (процентом схожести) читатели уже знакомы. Рассмотрим теперь общий принцип работы программ генерации, пока без привязки к конкретному софту.
Сперва для размножения подготавливается исходная статья, так называемый ИСХОДНИК. Основные требования к исходнику - отсутствие заумных логических конструкций и штампов. Оптимальный вариант это логически законченные, короткие (порядка десятка слов) предложения. Кроме того, очень нежелательно использовать специфические, трудно синонимизируемые слова и выражения. А вот ПЕРЕЧИСЛЕНИЯ (например: красный, желтый, зеленый) в статье-исходнике очень пригодятся.
Далее, по возможности к каждой лексической единице текста (слову, фразе, предложению) подбирается синоним. Естественно, понятие "синоним" в данном случае следует понимать в широком смысле. Это может быть и слово и словосочетание и целое предложение. Причем необязательно заменять слова словами, а фразы - фразами. Намного эффективнее как раз обратные замены, когда к отдельным словам подбираются синонимы-словосочетания, а к словосочетаниям - отдельные слова (а также фразы другой длины). Главное, чтобы в процессе генерации статей вам не понадобился мастер по ремонту компьютеров - ведь приписанный к слову синоним увеличивает общее количество вариантов в два раза - так что процессор в процессе генерации греется по полной программе.
Прикинем, по сколько синонимов необходимо будет подобрать к каждому слову, чтобы получить на выходе достаточное количество уникальных статей. Будем исходить из стандартного комплекта СЕО-шника: 100 статей, шингл - 5 слов, схожесть - 5%. Такие параметры размножения позволяют ограничиться синонимизацией только слов и словосочетаний. Более строгие требования к количеству и уникальности статей приведут к необходимости рерайтить каждое предложение, что резко повышает трудозатраты примерно в два раза. Конечно имеется еще один сомнительный способ повысить уникальность сгенерированных статей. Это использование не совсем подходящих синонимов, чем нередко грешат начинающие множители. В результате получаются хотя и уникальные, но корявые, совершенно нечитабельные тексты, которые быстро вылетают из индексов поисковиков (зачастую даже не попав туда вообще). К тому же такие неадекватные тексты приводят к пессимизации сайтов, наложению на них всевозможных фильтров - вплоть до полного исключения из поиска (бана)...
И тут Остапа понесло... Что ж, придется отложить оценку необходимого уровня синонимизации до следующего раза.
Ранее Размножение текстов (3) | Позже ВТБ банк - адреса, счета и прочие реквизиты. Или что необходимо указать перед походом в банкоматы ВТБ 24.