Спарсил баш

Вообще гордиться особо нечем. Просто взял да спарсил.

Прога пишется за пять минут, выполняется за пятнадцать.

На форму ставятся два текстовых поля у обоих выключается перенос строк, idHTTP это компонент на вкладке indi clients,его просто лепим на форму.

procedure parsbash;
var i,i2:integer;
begin

for i:=1 to 505 do
begin
memo1.Text:=IdHTTP1.Get(‘http://bash.org.ru/index/’+inttostr(i));
memo1.Lines.SaveToFile(‘temp’);
memo1.Lines.LoadFromFile(‘temp’);

for i2:=0 to memo1.Lines.Count do
if pos(‘<div>’,memo1.Lines[i2])=3 then
memo2.Lines.Add(memo1.Lines[i2]);

memo2.Lines.SaveToFile(‘vse.txt’);
end;
end;

Результат правда надо почистить от тегов <div> и </div> но уж это точно может каждый.
Выкладываю итоговый результат. Каждая строка это отдельная запись. Лишние теги уже убрал.

elsper.ru/wp-content/vse.rar


Автор: Elsper.ru


VN:F [1.9.14_1148]
Rating: 0.0/10 (0 votes cast)

6 thoughts on “Спарсил баш

  1. Парсинг это плохо. Я сам парсю разные сайты для контента, например был сайт на 25к страниц я с него спарсил 8к страниц. Там был реально набранный оформленный контент. обидно то что у меня тоже есть СДл сайты, с уникальным, форматированным контентом, а их может тоже кто то парсит.

  2. Офигеть как все просто на делфе делается О_о Надо будет попробовать что-нибудь замутить… в сторону интернета вообще не программировал ни разу, потому что не знаю как… а делфю знаю более менее.

  3. По внутрякам ни в плюс ни в минус.
    Забаненные берут только если у них пр есть. В общем то за счет пр и росту.

  4. Я помню как-то спарсил все новости с top.rbc.ru и два каталога статей, когда парсеры писать учился 🙂

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Спoнcopcкиe ссылки