• 1
  • 2
2020-12-22, 17:18
  #1
Medlem
Bobby Knights avatar
Jag skulle vilja sammanställa datafrån en sida som bara presenteras dagligen. Tanken är att "web scrapa" ner sidan, parsa den och utvinna datan som sedan sätts in i en databas för vidare presentation.

Den "vidare presentationen" ska göras via en php-driven sida.

Frågan är vilka verktyg som är bäst att använda för att scrapa, parasa och sedan lägga in i den databas. Är det Python, PHP, basch-script... ?
Citera
2020-12-22, 17:26
  #2
Medlem
SandSpindels avatar
Citat:
Ursprungligen postat av Bobby Knight
Jag skulle vilja sammanställa datafrån en sida som bara presenteras dagligen. Tanken är att "web scrapa" ner sidan, parsa den och utvinna datan som sedan sätts in i en databas för vidare presentation.

Den "vidare presentationen" ska göras via en php-driven sida.

Frågan är vilka verktyg som är bäst att använda för att scrapa, parasa och sedan lägga in i den databas. Är det Python, PHP, basch-script... ?

Windows eller Linux-miljö?
Invoke-WebRequest i Powershell fungerar på alla moderna Windows-miljöer. Ingen installation krävs.
Citera
2020-12-22, 17:53
  #3
Medlem
Bobby Knights avatar
Utvecklar i linux, vad den ev. hemsidan ska köras i för miljö senare är oklart.

Vill gärna att det ska vara operativsystemoberoende.
Citera
2020-12-22, 18:50
  #4
Medlem
Offices avatar
Om du ändå använder dig av php så varför inte låta php sköta webscrapandet?
Citera
2020-12-22, 18:53
  #5
Medlem
Helge.Palmcrantzs avatar
Finns Gui/program som gör det automatiserat åt dig baserat på vad du vill ha för info. Kolla Octoparse eller Parsehub.
Citera
2020-12-22, 19:43
  #6
Medlem
Necriss avatar
Har du försäkrat dig om att sidan inte har någon API som kan ge dig samma data på rtt lättare sätt?
Citera
2020-12-23, 15:19
  #7
Medlem
key33s avatar
Finns säkert moduler och metoder som är nyare/bättre som jag inte känner till, men med requests och beautifulsoup så brukar det gå väldigt enkelt, och re - regex om det är krångligt att parsa ut någon data med bsoup.
Citera
2020-12-30, 16:21
  #8
Medlem
Python är ett av de vanligaste scriptspråken att webscrapa i, framförallt med BeautifulSoup.
Det är också en av de lättaste språken att komma igång med. Viktigast att komma ihåg när man börjar med python är dock att när man letar guider bör man specificera om det är version 2.7 eller version 3 man letar efter. (lika bra att satsa på 3)

Det första du bör kontrollera är dock om din sida är renderad serverside eller clientside.

Högerklicka på sidan och kör 'view source' och sök på text som du förväntar dig att sidan ska innehålla. Om den finns där så är sidan serversiderenderad och då kan du scrapa den med vilket verktyg som helst.

Gör den inte det då är den clientsiderenderad och då blir det lite krångligare eftersom din scraper måste köra javascript.
Citera
2020-12-30, 16:23
  #9
Medlem
Citat:
Ursprungligen postat av Bobby Knight
Jag skulle vilja sammanställa datafrån en sida som bara presenteras dagligen. Tanken är att "web scrapa" ner sidan, parsa den och utvinna datan som sedan sätts in i en databas för vidare presentation.

Den "vidare presentationen" ska göras via en php-driven sida.

Frågan är vilka verktyg som är bäst att använda för att scrapa, parasa och sedan lägga in i den databas. Är det Python, PHP, basch-script... ?
Kolla in den här: PHP WebScraper Pro (free download)
Citera
2021-02-06, 17:58
  #10
Medlem
Bobby Knights avatar
Lyckades göra det jag ville med hjälp av curl och php (curl finns inbyggt i php) samt regular expressions på datan som curl tankade hem.
Citera
2021-04-05, 14:00
  #11
Medlem
Cameltotems avatar
Htmlagilitypack till c#.

Tar in hela HTML sidan, du plockar ut noderna enkelt då du har LINQ och intelisennse och slipper gissa dig till var skiten ligger.

En jävla apa kan göra det, skit i phyton och de
Citera
2021-04-05, 14:17
  #12
Medlem
ja curl med Googlebot som user-agent. Alla sidor vill bli scrapade av Google
Citera
  • 1
  • 2

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in