Парсер MassArticleParser автоматически парсит все статьи с указанных сайтов. Просто укажите в файле sites.txt список сайтов, с которых нужно спарсить статьи, и нажмите START. Никаких настроек не требуется! Начало и конец статьи определяются автоматически, удаляется не относящийся к статье контент. Статьи могут сохраняться со всеми тегами, или можно сохранять только текст или изображения.
В template.txt задаётся шаблон для сохранения статей. Теги шаблона: [ARTICLE_URL] - урл страницы, с которой взята статья. [ARTICLE_TITLE] - тайтл страницы. [ARTICLE_H] - первый заголовок H, если есть. [ARTICLE_KEY] - первый заголовок H, либо тайтл, если заголовка H нет. От тайтла берётся самая длинная часть. [ARTICLE_BODY] - сама статья.
Статьи сохраняются в папку articles. В папке urls для каждого сайта сохраняются урлы, с которых спарсены статьи. При повторном парсинге эти страницы уже не обходятся. В поле "Threads" указывается, сколько сайтов парсить одновременно. В поле "Auto abort after" указывается максимальное время парсинга сайта, при превышении которого будет делаться сброс потока. Файл настроек указывается в "Profile", а файл шаблона в "Template". Кнопки: START - запуск парсинга. PAUSE - остановить парсинг, дождавшись завершения начатых парсингов сайтов. STOP ALL - немедленно останавливает все потоки. ABORT - сбрасывает выделенный поток. Если потоков много, то обновление списка будет тормозить. Чтобы список не обновлялся, можно поставить галочку "Do not update thread list". Если её снять, то список снова будет обновляться.
Можно писать свои скрипты для обработки статей. Например: