Показать сообщение отдельно
Старый 07.09.2009, 17:21   #3
Seo-man

Администратор

 
Аватар для Seo-man
 
Регистрация: 08.05.2008
Адрес: Молдова/ПМР, Тирасполь
Сообщений: 3,557
Вы сказали Спасибо: 95
Поблагодарили 137 раз(а) в 124 сообщениях
Репутация: 1596
По умолчанию

Настройка лент
Важно – наличие внешних ссылок зависит от наличия тэга <a> в фильтре тэгов!
• «Name Feed:» – название
• «RSS or Atom URL:» – url адрес rss/atom ленты
• «To Category:» – выбор куда будут импортироваться публикации
• «Source link:» – копирайт (текст или html)
• «Feed Import interval:» – период запуска обновления ленты в секундах
• «Min length:» - порог минимальной длинны публикации в символах. Если длинна контента публикации меньше этого значения публикация не будет импортирована.
• «Get content:» – макрокоманды для парсинга контента из html. Есь две основные команды – {get} – текст будет добавлен в публикацию и {skip} – текст будет пропущен (включая тэги)
• «Images align:» - выравнивание картинок в публикации
• «Active» – активация/деактивация парсинга ленты
• «Upload thumbnail» – загрузка на сервер маленьких картинок
• «Upload images» – будут грабится картинки
• «Show thumbnail in preview» – будет отображаться маленькая картинка в предпросмотре
• «Available tags in text» – теги которые будут оставлены в тексте
• «Images pattern: » шаблон для вставки картинок
• «Published?(or Draft): » публиковать или добавлять как черновик.
• «Length: 450 chars: » длинна в символах от начала публикации до момента вставки тэга <!--more-->
• Static page pattern: - сигнатура для парсинга статической страницы.
• Count new post for add: - коридор ограничитель добавления публикаций в блог за один запуск.
• Images count: - коридор ограничитель добавления картинок в каждой публикации. Позволяет ограничить до нужного уровня количество загружаемых картинок в каждой публикации.
• Agent: - установка User agent для парсера.
• Use proxy – использовать в работе прокси
• Parse only RSS feed – парсить контент только из rss ленты
• Allow image hotlink? - запрет/активация хотлинкования картинок с с сайта источника (по умолчанию, если папка для сохранения картинок доступна, то картинки загружаются на хост, если по какойто причине скрипт не может загрузить картинку, он ее хотлинкует если хотлинк включен, и если хотлинк отключен, то картинки их контента просто удалятся).
• Synonimize content? – активация синонимизации контента и процент синонимизации
• Highlight keywords? – подсветка определенных ключевиком тэгом <b> (вводить ключевики через запятую.)
• Max post on day – максимальное количество публикаций за сутки, которое будет добавлено из этого источника
• Use Global Allowed Words? – активировать фильтр обязательных слов для этого источника
• Use Global Stop Words? – активировать фильтр стоп слов для этого источника
• Post Tags – добавлять метки (тэги) для публикаций из этого источника
• Charset content: - принудительная установка кодировки контента
• Replace adjective? – технология уникализации контента используя наречия.
• Get all links from page. depth: - портатор сайта. Задаем стартовую страницу, глубину обхода сайта, и количество ссылок, парсер будет сканировать весь сайта и пытаться парсить публикации.
• Max post – позволяет задать ограничение на парсинг определенного количества публикаций за день либо за запуск.
• «Synonimize and replace adjective title?» синонимизация и уникализация заголовка наречиями.
• Use bookmark? – модуль добавления ссылок в букмарки будет добавлять ссылки на каждую публикацию, добавленную в блог с этого источника
• Get title: - сигнатура которая позволяет парсить любой контент и добавлять его в качестве заголовка публикации.
• Youtube: - добавление видео до или после публикации по заданному киворду.

Меню замены
«From» – что нужно заменить
«To» – на что заменить (можно добавить html или текст)
«Limit» –максимум замен на одной странице

«Delete» – для удаления записи, отметьте галочку и нажмите «Save»
«Active» – позволяет скрипту производить замену

Сортировка по категориям в зависимости от наличия ключевиков
«KeyWord» – ключевик
«Cetegory» – категория куда добавлять
«Delete» – для удаления записи, отметьте галочку и нажмите «Save»
«Active» – позволяет скрипту производить авто распределение
Import from category - автоматический импорт слов из названий категорий блога в сортировщик по ключевым словам

Синонимизация



Посты Wordpress'a – еще несинонимизированные публикации блога
Search Synonim – поиск синонима по слову
Import Synonim – импорт Ваших баз синонимов. Импортировать можно как из txt файла так и из gz архива. Каждая группа синонимов в новой строке. Импортировать можно как из файла так и из директории на сервере. Position word задает позицию первого синонима в CSV формате. Это сделано для удобства. Например в нулевой позиции может идти порядковый номер синонима в файле.
Charset – кодировка файла с синонимами.
Truncate table – очистить базу синонимов перед загрузкой новой.
Опции

Debug – включить или отключить дебаг(лог работы).
Format for portator: - расчирения файлов которые будет обрабатывать портатор.
User for XMLRPC – логин пароль в блог (требыется для работы через XMLRPC )
Allowed words - фильтр обязательных слов. Можно использовать маску вида «моск*»
Stop words – фильтр запрещенных слов
Images property – граничные размеры картинок при закачке на сервер.
Time offset – смещение времени публикации новых постов в часах относительно текущего времени блога.
Min Sort Keyword length – параметр влияющий на работу Import from category минимальная длинна слов в названии категорий которые будут обработаны.
Proxy List – список прокси серверов.
Min Post Tags length - скрипт автоматически формирует тэги (метки) для публикаций блога из слов в заголовке публикации. Этот параметр позволяет ограничить длину обрабатываемых слов.
Setting Bookmarks – системы букмарков, необходимо вводить логин и пароль по одному для аккаунта в каждую строку.
Export Setting Feedmaster – экспорт настроек в файл.
Import Setting Feedmaster – импорт настроек из файла.
Clear Table Posts – удаление всех публикаций.


Меню Delete post

Кнопка delete - удалив из этого меню публикации, вы позволите парсеру их повторно распарсить.

Как работает скрипт?
Загружаем ленту, выбираем из нее все публикации, отбираем те что еще не обработаны (идентификация идет по URL на публикацию)
Пытаемся загрузить html с полной публикацией используя url из rss канала.
Если не может загрузить - пропускаем
Удаляем или устанавливаем редирект на внешние ссылки
Загружаем картинки, ресайзим их
Проверяем длину контента если меньше значения Min length - пропускаем
Заменяем слова (закладка Words for replace)
«Подсвечиваем» ключевики – меню «Highlight keywords?»
Распределяем по рубрикам – фильтр «Sort Keywords to wordpress category»
Устанавливаем признаки для публикации – ping, tag <!--more-->, Allowed comments

Полезно знать:
Иногда парсер не парсит ленту – в чем причина? Как будто он зависает.

Некоторые сайты имеют защиту от парсинга или ddos. Был случай что во время тестирования парсера ленты которые мы активно использовали для тестирования временно были недоступны с ip нашего сервера. Следовательно эти ресурсы обладали защитой. Будьте внимательны, настраивайте импорт через определенный интервал времени или используйте прокси!

В чем проблема?

Попросите администратора сервера активировать php функцию iconv(). Обычно это решается быстро и положительно.



Загрузка базы синонимов
Вы можете импортировать Ваши базы синонимов используя функцию импорта из txt файла или gz архива.
Оптимизация запуска скрипта. Управление нагрузкой. Настройка cron.

Следует обратить внимание на то, что парсер во время работы нагружает сервер.
Потому если на одном сервере много сайтов, то запускать по cronу каждый блог нужно в свое время а не все одновременно.

Скрипт импорта нужно запускать через эмуляцию загрузки страницы в unix системе (команды wget или GET). Запуск через php особенно на русскоязычных блогах может приводить к неправильной работе!
Если запуски парсеров на разных блогах производить в свое время, то без проблем на одном сервере можно держать20 блогов и больше. Проверено.

Также рекомендую использовать параметр Feed Import interval: в настройках каждой ленты. Используя разные интервалы для каждой ленты, можно добиться того, что в один момент времени парсер будет парсить только часть лент а не все, тем самым нагрузку на сервере можно распределить по времени.
__________________
Недорогой хостинг! forum-seo.net/showthread.php?p=10754
Для просмотра ссылок или изображений в подписях, у Вас должно быть не менее 30 сообщение(ий). Сейчас у Вас 0 сообщение(ий).
Seo-man вне форума   Ответить с цитированием
Этот пользователь сказал Спасибо Seo-man за это полезное сообщение:
sergeyu (31.01.2010)