Semalt beschreift Op URLitor - Ganz cool Web Scraping & Data Extractioun Tool

URLitor ass en neit awer effektiv Web-Schrack- an Datenextraktiounstool. Fir URLitor ze benotzen, musst Dir just eng Lëscht derbäi vun all URLen den Inhalt vun deem Dir wëllt online schrauwen an der verfügter Schabloun. Da musst Dir den HTML Element spezifizéieren deen Dir wëllt aus de Websäiten extrahieren an klickt op de Schécken Knäppchen. Et ass sou einfach wéi dat. Mat dësem Tool brauch Dir keng Kopie oder Paste aus dem Browser méi ze maachen.

xPath ass eng Sprooch déi benotzt gëtt fir Informatiounen an XML Dateien ze sichen. Et benotzt verschidde Ausdréck fir Node-Sets oder Noden an XML Dateien ze wielen. Ausdréck, déi XPath versteet, sinn zimmlech ähnlech wéi déi, déi mat normale Computerdateien oder Dokumenter benotzt ginn.

Och wann XPath mat verschiddene Programméierungssprooche benotzt gëtt, gouf dëst Tool fir Benotzer gebaut déi kee Programmkenntnisser hunn. Also, Dir braucht net e Programméierer ze sinn fir et ze benotzen. Mat dësem Tool kënnt Dir Daten aus e puer HTML an XML Säiten extrahieren.

Fir d'Einfachheet ze benotze sinn e puer dacks benotzten XPath Ausdréck virausdefinéiert an engem Dropdown-Menü, sou datt d'Benotzer just ee vun hinnen wiele mussen jee no hirem Zil. Wéi och ëmmer, erlieft Benotzer vu XPath hunn d'Fräiheet hir personaliséiert Ausdréck ze benotzen wa se wëllen.

De Tool ass entwéckelt mat der Kapazitéit vun 100 URLen an enger eenzeger Schraufsessioun, an et dauert maximal 10 Ausdréck gläichzäiteg. An anere Wierder, et kann Daten aus maximal 100 URLen gläichzäiteg schrauwen.

E puer wichteg XPath Personnagen, déi geännert oder bäigesat kënne ginn, goufen direkt hei ënnendrënner:

1. // div [2] - Dësen Ausdrock wielt déi zweet Div hierarchesch;

2. // link [@ rel = 'kanonesch'] / @ href - Dësen Ausdrock wielt de Standuert (ref) vum Tag, deen benotzt gëtt fir den rel-Attributer op de kanonesche duer ze setzen;

3. / html / head / meta [@ name = 'Beschreiwung'] / @ Inhalt - Dësen Ausdrock gëtt benotzt fir Inhalt ze wielen;

4. // * [@ class = 'class-name'] - Dir kënnt dësen Ausdrock benotze fir all Elementer mat 'class-name' als CSS Klass ze wielen;

5. // h2 | // title - Dësen Ausdrock ka benotzt gi fir den éischten H2 an den Titeltitel ze wielen;

6. // * [name () = 'h1' oder Numm () = 'Titel'] - Dësen Ausdrock funktionnéiert genau wéi deen hei uewen. Wéi och ëmmer, den Ausdrock hei uewe ass besser well se méi kuerz ass;

7. // * [enthält (@class, 'thumb')] - Dësen Ausdrock wielt all Element dat CSS Klass huet an enthält och 'thumb' fir Extraktioun;

8. // parent :: * [text () = 'Wëllkomm'] - Dësen Ausdrock wielt den Elterendeel vun all Element dat den Text 'Welcome' huet;

Dëst Tool ass eng Beta Versioun a konnt nach ëmmer mat e puer Feeler funktionnéieren. Wéi och ëmmer, et ass ëmmer nach e super Tool fir Benotzer mat wéineg oder guer keng Programméierungswëssen, well all dacks benotzt Ausdréck zu engem Menu virdru definéiert sinn wéi virdru gesot.

mass gmail