Citat:
Ursprungligen postat av
Nikus
Ja det kanske hjälper men till en början tänker jag inte utveckla en bot(om mitt program ens hamnar i den definitionen) som loggar in i forumet utan parsa sådant som är tillgängligt för alla.
Jag kommer använda JSoup(Java) för ändamålet. Både lätt och smidigt att selektera element man är intresserad av. Dessutom verkar det vara väldokumenterat. Började först med att manuellt extrahera datat men tror inte det skulle hålla i längden. Gjorde även misstaget att använda mig utav regex för att "filtrera" html-sidan.
http://stackoverflow.com/questions/1...contained-tags.
Skulle jättegärna vilja höra hur du går igenom html-sidan för att hämta datat du är intresserad av. Då skulle man kanske inte behöva använda en plugin.
Jag använder Selenium i JS men som också finns tillgängligt för Java.
Jag stog mellan valet att parsa HTML själv eller använda en riktig webbläsare. Jag valde då en riktig webbläsare, då Selenium.
Det är egentligen ett testverktyg, men det går fint att använda för scraping.
Fördelen med att använda en riktig webbläsare är flera:
Dels så är den redan platsade DOM:en garanterad att vara exakt densamma som i alla webbläsare.
Dels så fungerar JavaScript
Och dels så kan målet inte skilja mellan din scraper och en vanlig besökare eftersom allt är identiskt med en vanlig besökare (det är ju en riktig webbläsare), vilket utökar framtida användningsområden.
Och sist men inte minst så kan du t.ex. köra Google Chrome så att du ser exakt vad som händer på sidan under utvecklingen. I produktion kan du sedan byta till en headless webbläsare så att du slipper har ett fönster öppet.
Nackdelen är att eftersom det är en riktig webbläsare så kommer även vissa resursfiler att laddas ner från sidan, vilket gör att du belastar målet mer