Ahojte, potreboval by som spravit jednu teoreticky jednoduchu vec. Problem je, ze nejsom programator, ale ak mi niekto pomozete nasmerovat k nejakemu zdrojaku, tak to mozno viem prisposobit k mojim potrebam, resp. mozno na to uz aj existuje nejaky nastroj.
Konkretne by som potreboval z www.orsr.sk stiahnut na definovanu mnozinu ICO stiahnut urcite data. Kedze tych ICO mam asi 5000 rucne by mi to trvalo dost dlho, takze hladam nejake riesenie ako to zatomatizovat.
Takze potrebujem toto:
1) Otvorit stranku http://orsr.sk/hladaj_ico.asp?ICO=#####&SID=0 kde ##### je ICO
2) Na vyslednej stranke otvorit aktualny vypis (link asi bude musiet program vyhladat v zdrojaku webu)
3) Nasledne z vysledneho suboru vycitat data
Viete mi poradit?
Dakujem
program pre stahovanie definovych dat z webu
Re: program pre stahovanie definovych dat z webu
Ja osobne by som sa rozhodol, či to potrebujem robiť jednorazovo alebo pravidelne. Ak by som to mal robiť pravidelne, naprogramovanie by mi trvalo 1-2 hodiny v jave. Možno aj menej. Google: "java download http file", na parsovanie HTML by som použil knižnicu HTMLCleaner, s tou mám skúsenosti. V pythone alebo perle by to bolo asi rychlejšie ale to neovládam.
Alebo v linuxe cez wget, grep a znova wget.
Jednorazovo by som tom robil pomocou text. editora, Notepad++ . Vychádzam z toho, že zoznam iČO je v texťáku. Pomocou makier by som s toho spravil stranku s odkazmi na vyhľadavanie jednotlivých IČO. Potom nejakým doplnkom napr. DTA vo Firefoxe dám stiahnúť všetky vyhľadávacie stránky. Potom hromadným prehľadávaním v Notepad++ vyhľadám správny link na aktuálny výpis z OR, linky skopírujem, znova z nich spravím HTML stránku a znova všetky výpisy stiahnem cez ten DTA.
Alebo v linuxe cez wget, grep a znova wget.
Jednorazovo by som tom robil pomocou text. editora, Notepad++ . Vychádzam z toho, že zoznam iČO je v texťáku. Pomocou makier by som s toho spravil stranku s odkazmi na vyhľadavanie jednotlivých IČO. Potom nejakým doplnkom napr. DTA vo Firefoxe dám stiahnúť všetky vyhľadávacie stránky. Potom hromadným prehľadávaním v Notepad++ vyhľadám správny link na aktuálny výpis z OR, linky skopírujem, znova z nich spravím HTML stránku a znova všetky výpisy stiahnem cez ten DTA.
Re: program pre stahovanie definovych dat z webu
v pythone je to na 10 riadkov, to final_html asi ešte treba ďalej spracovať
Kód: Vybrať všetko
import urllib2
import lxml.html
zoznam_ico = ['111','222']
for ico in zoznam_ico:
html = urllib2.urlopen("http://orsr.sk/hladaj_ico.asp?ICO=%s"%(ico)).read()
magic = lxml.html.fromstring(html)
linky = magic.cssselect('div.bmk')
for link in linky:
final_link = link.cssselect('a')[0].get('href')
final_html = urllib2.urlopen(final_link).read()
print 'toto trva v jave 2 hodiny', final_html
Me like Pentium
- Courage_SK
- Používateľ
- Príspevky: 1624
- Dátum registrácie: Po 01. Nov, 2010, 19:52
- Bydlisko: Považská Bystrica - Rozkvet
Re: program pre stahovanie definovych dat z webu
print 'toto trva v jave 2 hodiny', final_html
CPU AMD Phenom II X4 955@3,9GHz + Gelid Tranquillo Rev.2
MB Gigabyte GA-890GPA-UD3H (rev. 2.1) GPU MSI GT 9600 512MB 700MHz@750MHz
RAM Corsair Vengeance DDR3 4GB 1600MHz CL9
PSU Coolermaster 600W SILENT Pro Mouse Logitech MX 518
Fan regulator Zalman Fan Mate 2 Wheel MOMO Racing Force Feedback
LCD Dell U2312HM
MB Gigabyte GA-890GPA-UD3H (rev. 2.1) GPU MSI GT 9600 512MB 700MHz@750MHz
RAM Corsair Vengeance DDR3 4GB 1600MHz CL9
PSU Coolermaster 600W SILENT Pro Mouse Logitech MX 518
Fan regulator Zalman Fan Mate 2 Wheel MOMO Racing Force Feedback
LCD Dell U2312HM
- molnart
- Pokročilý používateľ
- Príspevky: 6993
- Dátum registrácie: Ut 19. Jún, 2012, 23:03
- Bydlisko: Bratislava/Samorin
Re: program pre stahovanie definovych dat z webu
diky chlapci, sice v robote uz na to medzitym nasadili 4 pracovnikov full-time ktori to rucne vypisuju (a potom ze preco mame krizu kde sa straca efektivita...), ale idem sa na to pozriet, taketo cvicenia mame min. raz za rok....
Spoiler: ukázať
Re: program pre stahovanie definovych dat z webu
ty jo,daj sem full zadanie, dám ti to dokopy za 10min a vypýtajte si tam odmeny .)
Me like Pentium