Vinnaren i pepparkakshustävlingen!
  • 2
  • 3
2018-01-13, 22:05
  #25
Medlem
Det är helt otroligt att ingen nämner javascript.

Alla andra förslag än javascript är sinnessjuka. Med javascript så kan du köra sidor exakt så som de är menade att köras, och därmed är du säker på att du inte missar någonting.

Med alla andra språk så riskerar du att tappa data som du i övrigt kan se när du surfar i en webbläsare. Webben är liksom redan byggd för javascript.

TS: "Bästa språk för inhämtning av information från Kina?"
Svar 1: "Engelska!"
Svar 2: "Teckenspråk!"

WTF? Hur tänker ni?
__________________
Senast redigerad av Daudodidi 2018-01-13 kl. 22:09.
Citera
2018-01-13, 23:05
  #26
Medlem
distanss avatar
Citat:
Ursprungligen postat av Daudodidi
Det är helt otroligt att ingen nämner javascript.

Alla andra förslag än javascript är sinnessjuka. Med javascript så kan du köra sidor exakt så som de är menade att köras, och därmed är du säker på att du inte missar någonting.

Med alla andra språk så riskerar du att tappa data som du i övrigt kan se när du surfar i en webbläsare. Webben är liksom redan byggd för javascript.

TS: "Bästa språk för inhämtning av information från Kina?"
Svar 1: "Engelska!"
Svar 2: "Teckenspråk!"

WTF? Hur tänker ni?

Java har nämnts lite i förbifarten.. Det handlar ju inte bara om att "köra sidor" utan att hämta och spara relevant information så enkelt som möjligt. JS behöver inte nödvändigtvis vara bäst på det senare. Kollar du på Github så är Python betydligt populärare än JS att använda för detta. Kanske inte bara Flashback som tänker galet med andra ord!
Citera
2018-01-14, 00:26
  #27
Medlem
Citat:
Ursprungligen postat av distans
Java har nämnts lite i förbifarten..
Den som rekommenderar Java vet förmodligen inte vad den talar om.

Javascript och Java är inte samma sak. Två helt olika språk som inte har ett dugg med varandra att göra.

Citat:
Det handlar ju inte bara om att "köra sidor" utan att hämta och spara relevant information så enkelt som möjligt. JS behöver inte nödvändigtvis vara bäst på det senare.
Jo, javascript är bäst för detta.

Utan javascript så förlorar du data. Javascript är det enda språket som kan ta del av 100% av datan.

Det spelar ingen roll om det finns andra språk som kan spara data så enkelt som möjligt eftersom de inte klarar uppgiften att hämta datan till fullo.

Citat:
Kollar du på Github så är Python betydligt populärare än JS att använda för detta. Kanske inte bara Flashback som tänker galet med andra ord!
Då är det dåliga scrapers som endast kan parsa HTML. Finns säkert jättemånga dåliga scrapers, men det förändrar inte det faktum att de resulterar i en informationsförlust.


Hade jag fått välja vilket språk jag ville så skulle jag sagt Haskell eftersom parsingmöjligheterna är fantastiska och språket är i det närmsta perfektion, eller Python om man är amatör (annars det språk man känner sig bekväm i). Men detta är ingen smakfråga. Vill man scrapa på webben så är det javascript som gäller, inget annat.


Dessutom så är Javascript och Python ungefär precis lika enkla (enligt mig).


TS:
Kör Javascript i Node. Sedan så använder du Googles egna "puppeteer".

Du kör nu en riktig webbläsare (Chrome) som kan hantera 100% av samma data som din webbläsare kan göra (för att det är en webbläsare). Bättre scraping än verktyget webben är utvecklad för kan du omöjligen få.
__________________
Senast redigerad av Daudodidi 2018-01-14 kl. 00:46.
Citera
2018-01-14, 05:11
  #28
Medlem
distanss avatar
Citat:
Ursprungligen postat av Daudodidi
Den som rekommenderar Java vet förmodligen inte vad den talar om.

Javascript och Java är inte samma sak. Två helt olika språk som inte har ett dugg med varandra att göra.

"Java" har väl/kanske används lite slarvigt istället för "Javascript". Så stryk "Java"

Citat:
Jo, javascript är bäst för detta.

Utan javascript så förlorar du data. Javascript är det enda språket som kan ta del av 100% av datan.

Det spelar ingen roll om det finns andra språk som kan spara data så enkelt som möjligt eftersom de inte klarar uppgiften att hämta datan till fullo.

Fritt ur minnet kan väl Perl, Python, R och Beautifulsoup skrapa JS renderade sidor mha moduler/bibliotek? Sen är ju frågan vilken information på en sida man är ute efter. Det som kräver JS är kanske helt ointressant. Varje sida är ju unik och man måste anpassa programmet därefter.

Nu var det som sagt ett tag sen jag gjorde någon seriös scraper, men då fungerade Perl mer än väl. På senare tid har jag labbat lite med R, och har inte haft några problem med att hämta informationen jag ville ha från JS sidor.

Citat:
Då är det dåliga scrapers som endast kan parsa HTML. Finns säkert jättemånga dåliga scrapers, men det förändrar inte det faktum att de resulterar i en informationsförlust.

Du förutsätter att informationen man vill åt kräver JS. Att t.ex. plocka en aktiekurs från SVT Text eller Avanza fungerar utmärkt utan JS!

TS är inte ute efter en fullsides textlagring för att bygga sin alldeles egna sökmotor. Han vill plocka lite data här och var. Säger inte att JS är ett dåligt alternativ för detta, men det är inte ett måste!
Citera
2018-01-14, 12:10
  #29
Medlem
Citat:
Ursprungligen postat av distans
Fritt ur minnet kan väl Perl, Python, R och Beautifulsoup skrapa JS renderade sidor mha moduler/bibliotek?
Jag vet inte vad du syftar på. Men javisst, om "mha moduler/bibliotek" är skrivna med Javascript.

Citat:
Sen är ju frågan vilken information på en sida man är ute efter. Det som kräver JS är kanske helt ointressant. Varje sida är ju unik och man måste anpassa programmet därefter.

Nu var det som sagt ett tag sen jag gjorde någon seriös scraper, men då fungerade Perl mer än väl. På senare tid har jag labbat lite med R, och har inte haft några problem med att hämta informationen jag ville ha från JS sidor.



Du förutsätter att informationen man vill åt kräver JS. Att t.ex. plocka en aktiekurs från SVT Text eller Avanza fungerar utmärkt utan JS!

TS är inte ute efter en fullsides textlagring för att bygga sin alldeles egna sökmotor. Han vill plocka lite data här och var. Säger inte att JS är ett dåligt alternativ för detta, men det är inte ett måste!
Att du klarade dig med en dålig scraper är jättebra.

De flesta hade säkert klarat sig med en dålig scraper som bara kan parsa HTML.

Så TS får fundera på om hans källor funkar med dåliga scrapers och om de kommer att göra det i framtiden.
__________________
Senast redigerad av Daudodidi 2018-01-14 kl. 12:17.
Citera
2018-01-14, 12:30
  #30
Medlem
Bara sluta, du låter som inget mer än någon som bara kan javascript och trycker ner andra bara för att, kanske har du också bara läst nån bok i javascript om hur bra det är och försöker låta som om du har någon kunskap. Det är skämmigt att läsa.
Citera
2018-01-14, 12:42
  #31
Medlem
Hrass avatar
Använder själv Python med BeautifulSoup (parsning HTML och XML) och Selenium (emulering av webbläsare) vilket fungerat bra. För tungt om du ska tråla igenom stora delar av webben, men för att hämta in data från utvalda sidor och obemärkt automatisera Facebook och liknande fungerar det utmärkt.

Finns en del fallgropar om du kör headless, så det är lite pill med att sätta igång allting första gången (se t.ex. https://www.namekdev.net/2016/08/sel...w-system-xvfb/)
Citera
2018-01-14, 14:01
  #32
Medlem
Citat:
Ursprungligen postat av Gottisborgen
Bara sluta, du låter som inget mer än någon som bara kan javascript och trycker ner andra bara för att, kanske har du också bara läst nån bok i javascript om hur bra det är och försöker låta som om du har någon kunskap. Det är skämmigt att läsa.
Det är min egna slutsats. Du kan omöjligt ta del av 100% av all data utan att köra js.

Du kan visserligen köra något i valfritt språk som i sin tur kör JS, men du måste köra JS. Då får det bli t.ex. Python -> JS -> Python -> Spara data istället för JS -> Spara data

Det spelar ingen roll hur obekvämt du tycker att det är. Många sidor skapar data i JS, och det behövs JS för att köra JS.

Tycker snarare att det är du som verkar okunnig och inte är förmögen att sätta dig in i ett annat språk än vad du redan kan som inte kan acceptera en såpass enkel sak ens när orsaken förklaras mycket tydligt.


Orsaken till att jag endast förespråkar JS (i detta fallet) är som sagt av den enkla anledningen att endast JS(-motor) kan köra JS.

Har du något annat argument än "Du är dum"?
__________________
Senast redigerad av Daudodidi 2018-01-14 kl. 14:10.
Citera
2018-01-14, 14:20
  #33
Moderator
vhes avatar
Citat:
Ursprungligen postat av Daudodidi
Orsaken till att jag endast förespråkar JS (i detta fallet) är som sagt av den enkla anledningen att endast JS(-motor) kan köra JS.

Visst är det så, men så länge det finns bindningar från andra språk så spelar det ju ingen roll. Alla högnivåspråk använder sig av bibliotek skrivna i andra språk. För det mesta är dessa bibliotek skrivna i C eller möjligen C++, men det är ju inget som säger att det måste vara så. Bindningar till browsers, via t.ex. Selenium finns t.ex. Det finns även Pythonbindningar till Puppet, även om jag verkligen inte vet hur kvaliten på de är.

En orsak till att ingen nämnt JavaScript innan du gjorde det är möjligen att få anser att JavaScript är ett så värst bra nybörjarspråk. Det är fullt av egendomliga gotchas, och flera vanliga koncept (prototyping, closures, futures m.m.) brukar få även erfarna programmerare att klia sig i huvudet. Att kasta JavaScript, och framför allt node med sin synnerligen asynkrona modell (och komplett vansinniga ekosystem) på en total nybörjare kan vara något som inte anses lämpligt. Åtminstone inte av mig, och uppenbarligen inte av någon av trådens övriga deltagare heller - dig undantaget.
Citera
2018-01-16, 21:57
  #34
Medlem
distanss avatar
Citat:
Ursprungligen postat av Daudodidi
Jag vet inte vad du syftar på. Men javisst, om "mha moduler/bibliotek" är skrivna med Javascript.

Jag syftar på andra språk som kan nyttja en JS motor för att parsa JS.. som med största sannolikhet inte är skriva med JS!

Citat:
Att du klarade dig med en dålig scraper är jättebra.

De flesta hade säkert klarat sig med en dålig scraper som bara kan parsa HTML.

Så TS får fundera på om hans källor funkar med dåliga scrapers och om de kommer att göra det i framtiden.

Om något fungerar exakt som det ska, hur kan det då vara dåligt?

Citat:
Orsaken till att jag endast förespråkar JS (i detta fallet) är som sagt av den enkla anledningen att endast JS(-motor) kan köra JS.

Hur parsar du JS med Haskell?
Citera
2019-09-19, 12:34
  #35
Medlem
R nämndes tidigare i tråden. Är det någon som har erfarenhet att använda det för att scrapa hela webbsidor?
Citera
2019-09-25, 23:38
  #36
Medlem
Fancyfruits avatar
Jag skulle vilja veta hur "lätt" det egentligen skulle vara att hämta information om aktier från ex. Avanza. Finns det någon som gjort det här?

Frågar då jag inte har någon vidare koll själv.

Tänkte försöka mig på det och se vad för information som går att utvinna av data man kan komma över.
Citera
  • 2
  • 3

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback