program pre stahovanie definovych dat z webu

Sekcia o programovaní, programovacích jazykoch...
Používateľov profilový obrázok
molnart
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 6993
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

program pre stahovanie definovych dat z webu

Príspevok od používateľa molnart »

Ahojte, potreboval by som spravit jednu teoreticky jednoduchu vec. Problem je, ze nejsom programator, ale ak mi niekto pomozete nasmerovat k nejakemu zdrojaku, tak to mozno viem prisposobit k mojim potrebam, resp. mozno na to uz aj existuje nejaky nastroj.

Konkretne by som potreboval z www.orsr.sk stiahnut na definovanu mnozinu ICO stiahnut urcite data. Kedze tych ICO mam asi 5000 rucne by mi to trvalo dost dlho, takze hladam nejake riesenie ako to zatomatizovat.

Takze potrebujem toto:

1) Otvorit stranku http://orsr.sk/hladaj_ico.asp?ICO=#####&SID=0 kde ##### je ICO
2) Na vyslednej stranke otvorit aktualny vypis (link asi bude musiet program vyhladat v zdrojaku webu)
3) Nasledne z vysledneho suboru vycitat data

Viete mi poradit?

Dakujem
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
cca01

Re: program pre stahovanie definovych dat z webu

Príspevok od používateľa cca01 »

Ja osobne by som sa rozhodol, či to potrebujem robiť jednorazovo alebo pravidelne. Ak by som to mal robiť pravidelne, naprogramovanie by mi trvalo 1-2 hodiny v jave. Možno aj menej. Google: "java download http file", na parsovanie HTML by som použil knižnicu HTMLCleaner, s tou mám skúsenosti. V pythone alebo perle by to bolo asi rychlejšie ale to neovládam.
Alebo v linuxe cez wget, grep a znova wget.
Jednorazovo by som tom robil pomocou text. editora, Notepad++ . Vychádzam z toho, že zoznam iČO je v texťáku. Pomocou makier by som s toho spravil stranku s odkazmi na vyhľadavanie jednotlivých IČO. Potom nejakým doplnkom napr. DTA vo Firefoxe dám stiahnúť všetky vyhľadávacie stránky. Potom hromadným prehľadávaním v Notepad++ vyhľadám správny link na aktuálny výpis z OR, linky skopírujem, znova z nich spravím HTML stránku a znova všetky výpisy stiahnem cez ten DTA.
Používateľov profilový obrázok
Scorp
Používateľ
Používateľ
Príspevky: 2225
Dátum registrácie: So 09. Apr, 2005, 20:00
Bydlisko: Krankenhaus

Re: program pre stahovanie definovych dat z webu

Príspevok od používateľa Scorp »

v pythone je to na 10 riadkov, to final_html asi ešte treba ďalej spracovať :)

Kód: Vybrať všetko

import urllib2
import lxml.html

zoznam_ico = ['111','222']

for ico in zoznam_ico:
    html = urllib2.urlopen("http://orsr.sk/hladaj_ico.asp?ICO=%s"%(ico)).read()
    magic = lxml.html.fromstring(html)
    linky = magic.cssselect('div.bmk')
    for link in linky:
        final_link = link.cssselect('a')[0].get('href')
        final_html = urllib2.urlopen(final_link).read()
        print 'toto trva v jave 2 hodiny', final_html

Me like Pentium
Používateľov profilový obrázok
Courage_SK
Používateľ
Používateľ
Príspevky: 1624
Dátum registrácie: Po 01. Nov, 2010, 19:52
Bydlisko: Považská Bystrica - Rozkvet

Re: program pre stahovanie definovych dat z webu

Príspevok od používateľa Courage_SK »

print 'toto trva v jave 2 hodiny', final_html
:hysterical:
CPU AMD Phenom II X4 955@3,9GHz + Gelid Tranquillo Rev.2
MB Gigabyte GA-890GPA-UD3H (rev. 2.1) GPU MSI GT 9600 512MB 700MHz@750MHz
RAM
Corsair Vengeance DDR3 4GB 1600MHz CL9
PSU
Coolermaster 600W SILENT Pro Mouse Logitech MX 518
Fan regulator
Zalman Fan Mate 2 Wheel MOMO Racing Force Feedback
LCD
Dell U2312HM
Používateľov profilový obrázok
molnart
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 6993
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

Re: program pre stahovanie definovych dat z webu

Príspevok od používateľa molnart »

diky chlapci, sice v robote uz na to medzitym nasadili 4 pracovnikov full-time ktori to rucne vypisuju (a potom ze preco mame krizu kde sa straca efektivita...), ale idem sa na to pozriet, taketo cvicenia mame min. raz za rok....
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
Používateľov profilový obrázok
Scorp
Používateľ
Používateľ
Príspevky: 2225
Dátum registrácie: So 09. Apr, 2005, 20:00
Bydlisko: Krankenhaus

Re: program pre stahovanie definovych dat z webu

Príspevok od používateľa Scorp »

ty jo,daj sem full zadanie, dám ti to dokopy za 10min a vypýtajte si tam odmeny .)
Me like Pentium

Návrat na "Programovanie"