Webkaparás a Semalt Expert segítségével

A webkaparás, más néven a webes adatgyűjtés, az a módszer, amellyel adatot nyerhetnek a webhelyekről. A webes betakarító szoftver közvetlenül elérheti az internetet a HTTP vagy egy böngésző segítségével. Noha a folyamatot egy szoftver felhasználó manuálisan hajthatja végre, a technika általában egy automatikus bejárást jelent egy webbejáró vagy robot segítségével.

A webkaparás olyan folyamat, amikor a strukturált adatokat az internetről a helyi adatbázisba másolják áttekintés és visszakeresés céljából. Ez magában foglalja a weboldal letöltését és a tartalom kibontását. Az oldal tartalmát elemezhetjük, megkereshetjük, átstrukturálhatjuk, és az adatokat másolhatjuk egy helyi tárolóeszközbe.

A weboldalak általában szöveges alapú jelölőnyelvekből állnak, mint például az XHTML és a HTML, amelyek mindegyike szöveges formában tartalmaz sok hasznos adatot. Ezeknek a webhelyeknek a nagy részét azonban az emberek végfelhasználói számára tervezték, nem pedig automatizált felhasználásra. Ez az oka annak, hogy a kaparószoftver jött létre.

Sok módszer alkalmazható a hatékony webkaparáshoz. Néhányat az alábbiakban fejlesztettek ki:

1. Emberi másolás és beillesztés

Időről időre még a legjobb webkaparó eszköz sem helyettesítheti az ember kézi másolása és beillesztése pontosságát és hatékonyságát. Ez leginkább olyan helyzetekben alkalmazható, amikor a webhelyek akadályokat állítanak fel a gépi automatizálás megakadályozására.

2. Szövegminta illesztése

Ez egy meglehetősen egyszerű, de hatékony megközelítés az adatok weboldalakról történő kinyerésére. Ennek alapja lehet a UNIX grep parancs, vagy csak egy adott programozási nyelv, például Python vagy Perl reguláris kifejezési eszköze.

3. HTTP programozás

A HTTP programozás statikus és dinamikus weblapokra egyaránt használható. Az adatok kibontása HTTP kérések küldésével távoli webszerverre történik, miközben a socket programozást használja.

4. HTML elemzés

Sok webhely általában egy kiterjedt oldalakkal rendelkezik, amelyeket dinamikusan készítenek egy mögöttes szerkezeti forrásból, például adatbázisból. Itt a hasonló kategóriához tartozó adatokat hasonló oldalakra kódolják. A HTML elemzés során a program általában felismeri egy ilyen sablont egy adott információforrásban, lekérdezi annak tartalmát, majd lefordítja egy kapcsolt formába, amelyet burkolónak neveznek.

5. DOM elemzés

Ebben a technikában egy program beágyaz egy teljes értékű webböngészőbe, például a Mozilla Firefoxhoz vagy az Internet Explorerbe, az ügyféloldali szkript által generált dinamikus tartalom beolvasására. Ezek a böngészők a weboldalakat DOM-fába is elemezhetik, attól függően, hogy mely programok képesek az oldalak egyes részeit kibontani.

6. Szemantikus kommentárok felismerése

A lekaparni kívánt oldalak szemantikai jelöléseket és kommentárokat, vagy metaadatokat tartalmazhatnak, amelyek felhasználhatók bizonyos adatrészletek megtalálására. Ha ezeket a kommentárokat beágyazták az oldalakba, akkor ezt a technikát a DOM-elemzés különleges esetének tekinthetjük. Ezeket a kommentárokat szintén szintaktikai rétegbe lehet rendezni, majd a weboldalaktól külön tárolni és kezelni. Lehetővé teszi a kaparók számára az adatséma, valamint a parancsok lekérését ebből a rétegből, még mielőtt az az oldal lekaparná.