В Интернете имеется несколько программ для размножения текстов. Принцип работы таких приложений, в принципе, одинаков.

- в программу помещается исходная статья;

- к словам и фразам подбираются синонимы;

- на основе переставляемых (допускающих перестановки) частей текста
создаются перестановки (в основном это - перечисления);

- для полученного шаблона выставляются параметры генерации и начинается,
собственно, сам процесс создания контента.

Алгоритмы генерации, сравнения и отбора наиболее уникальных статей у всех программ, естественно, различаются. Тем не менее, общие принципы работы генераторов статей одинаковые:

- из возможных вариантов статей выбирается произвольный (иногда этот процесс пытаются оптимизировать);

 - выбранный вариант текста сравнивается с отобранными ранее;

- если взаимная уникальность статьи кандидата и отобранных ранее текстов удовлетворяет критериям отбора, статья добавляется. Если нет, то отбрасывается.

Данный цикл повторяется до тех пор, пока не наберется нужное количество статей, подходящих под выставленные требования уникальности.

Основная проблема, с которой сталкивается программа генерации статей, это огромное количество возможных вариантов. Тот факт, что программа может создать миллиарды разных вариантов текста обычно вызывает у новичков восхищение.
Однако, не все так просто. Возможных вариантов не миллиарды и не триллионы, а гораздо больше. Обычные, интуитивно понятные законы математики, просто перестают работать в таких условиях. (Кстати компьютеры при генерации текстов также работают на пределе возможностей).

Чтобы количественно оценить эффективность шаблона необходимы познания в таких областях высшей математики, как законы больших чисел, комбинаторика, теория вероятностей и т.п. Здесь перечислены лишь те разделы математики, о которых хотя бы слышало большинство. Если основательно залезть во все эти дебри, то  получится толстенная и непонятная для большинства книга.

Однако, чтобы понимать процессы генерации все же придется осознать некоторые моменты:

1. Количество возможных вариантов практически бесконечно.

Попробуем оценить сколько различных статей получится из стандартного (для таких целей текста. Пусть исходная статья состоит из 400-500 слов (обычный 2-3 килознаковый веб-текст). Если к каждому слову подобрано по два синонима, то общее количество комбинаций составит три в четырехсотой пятисотой степени. Или девять в двухсотой-двухсотпятидесятой. Или десять в двухсотой.

Что такое 10 в степени 200? На первый взгляд ничего страшного – всего лишь единица с 200 нулями. Небольшая техническая загвоздка состоит в том, что количество атомов во Вселенной лишь 10 в 78-й степени. Поэтому, даже при оптимистичном прогнозе развития нанотехнологий, все это сочинительство (точнее, хотя бы его ничтожную часть) просто некуда будет записать.

Затраты времени можно даже не обсуждать... По-любому, мы все умрем, так и не дождавшись окончания (а фактически, начала... ну хотя бы когда на прогресс-баре появится «выполнено 1%...») процесса.

Однако, практически, это как-то все-таки работает. Пожалуй стоит отложить обсуждение этих вопросов до следующей статьи, чтобы обезопасить извилины и психику читателей.

Кстати, сгенерированный контент – отличный стройматериал для создания доров. Но здесь мой личный опыт закачивается. Тем, кто хочет узнать как создать дорвеи, лучше воспользоваться рекомендациями профессионалов-дорвейщиков...

Ранее | Позже