Elsper » Архив блога » Спарсил баш

Вообще гордиться особо нечем. Просто взял да спарсил.

Прога пишется за пять минут, выполняется за пятнадцать.

На форму ставятся два текстовых поля у обоих выключается перенос строк, idHTTP это компонент на вкладке indi clients,его просто лепим на форму.

procedure parsbash;
var i,i2:integer;
begin

for i:=1 to 505 do
begin
memo1.Text:=IdHTTP1.Get(’http://bash.org.ru/index/’+inttostr(i));
memo1.Lines.SaveToFile(’temp’);
memo1.Lines.LoadFromFile(’temp’);

for i2:=0 to memo1.Lines.Count do
if pos(’<div>’,memo1.Lines[i2])=3 then
memo2.Lines.Add(memo1.Lines[i2]);

memo2.Lines.SaveToFile(’vse.txt’);
end;
end;

Результат правда надо почистить от тегов <div> и </div> но уж это точно может каждый.
Выкладываю итоговый результат. Каждая строка это отдельная запись. Лишние теги уже убрал.

elsper.ru/wp-content/vse.rar


Автор: Elsper.ru


Комментарии (6) на запись “Спарсил баш”

  1. webbomj пишет:

    Парсинг это плохо. Я сам парсю разные сайты для контента, например был сайт на 25к страниц я с него спарсил 8к страниц. Там был реально набранный оформленный контент. обидно то что у меня тоже есть СДл сайты, с уникальным, форматированным контентом, а их может тоже кто то парсит.

  2. Elsper пишет:

    Может и плохо, хотя конкретно баш итак парсят все кому не лень :)

  3. Курский бомж пишет:

    Офигеть как все просто на делфе делается О_о Надо будет попробовать что-нибудь замутить… в сторону интернета вообще не программировал ни разу, потому что не знаю как… а делфю знаю более менее.

  4. Владимирский Бомж пишет:

    Как там у тебя сетлинкс? Берут?
    Монетизируешь забаненные ГС?

  5. Elsper пишет:

    По внутрякам ни в плюс ни в минус.
    Забаненные берут только если у них пр есть. В общем то за счет пр и росту.

  6. solarscape пишет:

    Я помню как-то спарсил все новости с top.rbc.ru и два каталога статей, когда парсеры писать учился :)

Оставить комментарий

Рейтинг блогов

Рейтинг блогов