Vinnaren i pepparkakshustävlingen!
  • 1
  • 2
2017-04-29, 11:18
  #1
Medlem
Hej!
Eftersom det gäller Flashback och informationen som ligger här undrar jag om det är okej att programmatiskt skrapa datat som postas i forumet?
Enligt robottexten verkar det okej att göra det så länge det dröjer 5 sekunder efter varje anrop:
Citat:
User-agent: *
Allow: /
Crawl-delay: 5

Vad säger flashbacks moderatorer/admin om detta?
Citera
2017-04-29, 11:36
  #2
Medlem
Mia-Rovys avatar
Det verkar som att det bara är att crawla på. Har inte fått höra några protester (annat än från användaren "Gonzo-fisting", den användaren tror att du gör det för att du vill verka cool).

Det hade givetvis varit trevligt om det fanns ett API (som jag tagit upp i en tidigare tråd), men på den fronten möts jag bara av tystnad (utöver Gonzo-fistings vrede över att jag försöker vara cool)

Så crawla på du
__________________
Senast redigerad av Mia-Rovy 2017-04-29 kl. 11:49.
Citera
2017-04-29, 12:01
  #3
Medlem
Citat:
Ursprungligen postat av Mia-Rovy
Det verkar som att det bara är att crawla på. Har inte fått höra några protester (annat än från användaren "Gonzo-fisting", den användaren tror att du gör det för att du vill verka cool).

Det hade givetvis varit trevligt om det fanns ett API (som jag tagit upp i en tidigare tråd), men på den fronten möts jag bara av tystnad.

Så crawla på du
Håller med dig att ett API skulle vara behjälplig. Nu blir det mer att jag måste kolla så att html strukturen inte ändras.

Googlar man på detta så får man fram lagen om katalogskydd och då blir jag lite osäker om det är okej s.a.s. Hittade t.o.m följande flashbacktråd: (FB) Katalogskydd på webben? där FrasseFloyd användaren pratar om sammanställning av information och när katalogskyddet gäller men jag kommer inte riktigt publicera informationen som jag crawlar utan bara analysera den. Vet du vad lagen säger om det?

Låt säga att jag crawlar trådarna som ligger i fliken "Nya ämnen" och analyserar dem för att se om de är skapade i korrekt underforum.
Citera
2017-04-29, 12:07
  #4
Medlem
Mia-Rovys avatar
Citat:
Ursprungligen postat av Nikus
Håller med dig att ett API skulle vara behjälplig. Nu blir det mer att jag måste kolla så att html strukturen inte ändras.

Googlar man på detta så får man fram lagen om katalogskydd och då blir jag lite osäker om det är okej s.a.s. Hittade t.o.m följande flashbacktråd: (FB) Katalogskydd på webben? där FrasseFloyd användaren pratar om sammanställning av information och när katalogskyddet gäller men jag kommer inte riktigt publicera informationen som jag crawlar utan bara analysera den. Vet du vad lagen säger om det?

Låt säga att jag crawlar trådarna som ligger i fliken "Nya ämnen" och analyserar dem för att se om de är skapade i korrekt underforum.
Jag tror att det inte omfattar privat bruk, så det ska vara lugnt förutsatt att du endast använder detta för ditt egna privata bruk.
Citera
2017-04-29, 12:22
  #5
Medlem
Citat:
Ursprungligen postat av Mia-Rovy
Jag tror att det inte omfattar privat bruk, så det ska vara lugnt förutsatt att du endast använder detta för ditt egna privata bruk.
Tack Mia-Rovy. Nej det är till eget bruk och inget som kommer publiceras.
Citera
2017-04-29, 21:20
  #6
Medlem
Citat:
Ursprungligen postat av Mia-Rovy
Jag tror att det inte omfattar privat bruk, så det ska vara lugnt förutsatt att du endast använder detta för ditt egna privata bruk.
Jag har ytterligare en fråga. Det här med att 5 sekunders fördröjning. Är det något som bör följas?

Exempelvis så är första tråden på heta ämnen ~1180 sidor stor. Om jag väntar 5 sekunder efter varje parsening av sidan blir det totalt ~100 minuter.

Något som kanke tar ~ 1 minut ifall man skiter i 5 sekunders regeln.

Jag vet att man bör vara försiktig så att man inte råkar överbelasta servern men hur mycket gör man det när allt man gör är att bläddra igenom alla sidor i en tråd och parse'ar datat? Finns det något sätt att kontrollera detta på? Wireshark?

EDIT: Vill inte på något sätt skada användarnas åtkomst till sidan. Jag har stor respekt för yttrandefriheten och vill inte att den hindras av mina dumma misstag.
__________________
Senast redigerad av Nikus 2017-04-29 kl. 21:25.
Citera
2017-04-30, 09:49
  #7
Medlem
Mia-Rovys avatar
Citat:
Ursprungligen postat av Nikus
Jag har ytterligare en fråga. Det här med att 5 sekunders fördröjning. Är det något som bör följas?

Exempelvis så är första tråden på heta ämnen ~1180 sidor stor. Om jag väntar 5 sekunder efter varje parsening av sidan blir det totalt ~100 minuter.

Något som kanke tar ~ 1 minut ifall man skiter i 5 sekunders regeln.

Jag vet att man bör vara försiktig så att man inte råkar överbelasta servern men hur mycket gör man det när allt man gör är att bläddra igenom alla sidor i en tråd och parse'ar datat? Finns det något sätt att kontrollera detta på? Wireshark?

EDIT: Vill inte på något sätt skada användarnas åtkomst till sidan. Jag har stor respekt för yttrandefriheten och vill inte att den hindras av mina dumma misstag.
Du kan ställa in antal inlägg per sida till 40, det bör reducera antalet sidor något.

Vad ska du crawla med? Är det något färdigt verktyg eller? Jag bygger min egna robot i JS och Selenium. Det borde vara crawlern som hanterar timing m.m


Det är upp till dig om du respekterar Flashbacks önskan om 5 sekunder. Förmodar att de kan spärra IP på de som inte lyder.

Sedan så kan jag tycka att Flashback borde tillmötesgå behovet mer om de vill undvika för högt tryck från robotar. Behovet kommer bara att öka i framtiden, inte minska. Och varje robot som sätts ut lär stanna. Hade de haft ett API eller något liknande så hade detta inte behövts.
__________________
Senast redigerad av Mia-Rovy 2017-04-30 kl. 10:13.
Citera
2017-04-30, 09:51
  #8
Moderator
bernad_laws avatar
Låt mig fråga en sak: Vad är syftet med dessa operationer?
Citera
2017-04-30, 10:06
  #9
Medlem
Mia-Rovys avatar
Citat:
Ursprungligen postat av bernad_law
Låt mig fråga en sak: Vad är syftet med dessa operationer?
I mitt fall är det för att jag vill samla ihop data till ett notifikationsystem, där jag också vill kunna skriva inlägg från systemet utan att behöva surfa in på Flashback.

På det sättet kan jag har Facebook, Flashback, nyheter, m.m samlat på ett ställe istället för att behöva spendera massa tid på att klicka på knappar och skriva adresser om dagarna.

Varför användaren vill gå igenom alla inlägg i en tråd vet jag inte riktigt. Det vore spännande att veta. Det går nog att göra mycket häftigt med den datan.

Själv vill jag för tillfället bara samla in data om nya trådar, heta trådar, första sidan av inlägg i tråden, mina citat, PM och även kunna posta data


Och givetvis kan man använda det i illasinnade syften, såsom att analysera användare. Det är inte mitt syfte (och har svårt att tro att det är TS syfte), men man ska inte hymla med att det går.
__________________
Senast redigerad av Mia-Rovy 2017-04-30 kl. 10:11.
Citera
2017-04-30, 12:09
  #10
Medlem
Citat:
Ursprungligen postat av bernad_law
Låt mig fråga en sak: Vad är syftet med dessa operationer?
För min del handlar det om att utföra en analys av alla skrivna inlägg i en tråd och utifrån det, mha maskininlärning, ta fram en kort beskrivning vad tråden handlar om, en sk. document summarization. Då behöver man inte läsa igenom tusentals sidor för att få ett hum om vad det handlar om.

Finns egentligen väldigt mycket att göra med så mycket data som finns tillgängligt på forumet. Vad sägs om automatiskt kategorisering av trådar eller borttagning av inlägg som bryter mot flashbacks regler? Ett sådant system sklle spara väldigt mycket tid och hålla flashback rent från trollinlägg och offtopic trams. Dessutom skulle vi inte längre behöva några moderatorer. .

Jag kommer inte använda detta för att analysera specifika användare och deras beteende på flashback. Jag kommer hantera inläggen som en stor textmassa.
Citat:
Ursprungligen postat av Mia-Rovy
I mitt fall är det för att jag vill samla ihop data till ett notifikationsystem, där jag också vill kunna skriva inlägg från systemet utan att behöva surfa in på Flashback.

På det sättet kan jag har Facebook, Flashback, nyheter, m.m samlat på ett ställe istället för att behöva spendera massa tid på att klicka på knappar och skriva adresser om dagarna.

Varför användaren vill gå igenom alla inlägg i en tråd vet jag inte riktigt. Det vore spännande att veta. Det går nog att göra mycket häftigt med den datan.

Själv vill jag för tillfället bara samla in data om nya trådar, heta trådar, första sidan av inlägg i tråden, mina citat, PM och även kunna posta data


Och givetvis kan man använda det i illasinnade syften, såsom att analysera användare. Det är inte mitt syfte (och har svårt att tro att det är TS syfte), men man ska inte hymla med att det går.

Visst är det så. Det är skrämmande hur mycket data som kan användas för att just analysera vad en användare skriver, hur ofta och under vilka tidspunkter. Man kan få mycket information "mellan raderna" som kanske en vanlig användare inte riktigt kan. Jag anser att det är moraliskt och etiskt fel att göra det så det är inget jag tänker utföra.
Citera
2017-04-30, 12:28
  #11
Medlem
Citat:
Ursprungligen postat av Mia-Rovy
Du kan ställa in antal inlägg per sida till 40, det bör reducera antalet sidor något.

Vad ska du crawla med? Är det något färdigt verktyg eller? Jag bygger min egna robot i JS och Selenium. Det borde vara crawlern som hanterar timing m.m


Det är upp till dig om du respekterar Flashbacks önskan om 5 sekunder. Förmodar att de kan spärra IP på de som inte lyder.

Sedan så kan jag tycka att Flashback borde tillmötesgå behovet mer om de vill undvika för högt tryck från robotar. Behovet kommer bara att öka i framtiden, inte minska. Och varje robot som sätts ut lär stanna. Hade de haft ett API eller något liknande så hade detta inte behövts.
Ja det kanske hjälper men till en början tänker jag inte utveckla en bot(om mitt program ens hamnar i den definitionen) som loggar in i forumet utan parsa sådant som är tillgängligt för alla.

Jag kommer använda JSoup(Java) för ändamålet. Både lätt och smidigt att selektera element man är intresserad av. Dessutom verkar det vara väldokumenterat. Började först med att manuellt extrahera datat men tror inte det skulle hålla i längden. Gjorde även misstaget att använda mig utav regex för att "filtrera" html-sidan. http://stackoverflow.com/questions/1...contained-tags.

Skulle jättegärna vilja höra hur du går igenom html-sidan för att hämta datat du är intresserad av. Då skulle man kanske inte behöva använda en plugin.
__________________
Senast redigerad av Nikus 2017-04-30 kl. 12:31.
Citera
2017-04-30, 13:27
  #12
Medlem
Mia-Rovys avatar
Citat:
Ursprungligen postat av Nikus
Ja det kanske hjälper men till en början tänker jag inte utveckla en bot(om mitt program ens hamnar i den definitionen) som loggar in i forumet utan parsa sådant som är tillgängligt för alla.

Jag kommer använda JSoup(Java) för ändamålet. Både lätt och smidigt att selektera element man är intresserad av. Dessutom verkar det vara väldokumenterat. Började först med att manuellt extrahera datat men tror inte det skulle hålla i längden. Gjorde även misstaget att använda mig utav regex för att "filtrera" html-sidan. http://stackoverflow.com/questions/1...contained-tags.

Skulle jättegärna vilja höra hur du går igenom html-sidan för att hämta datat du är intresserad av. Då skulle man kanske inte behöva använda en plugin.
Jag använder Selenium i JS men som också finns tillgängligt för Java.

Jag stog mellan valet att parsa HTML själv eller använda en riktig webbläsare. Jag valde då en riktig webbläsare, då Selenium.

Det är egentligen ett testverktyg, men det går fint att använda för scraping.

Fördelen med att använda en riktig webbläsare är flera:
Dels så är den redan platsade DOM:en garanterad att vara exakt densamma som i alla webbläsare.

Dels så fungerar JavaScript

Och dels så kan målet inte skilja mellan din scraper och en vanlig besökare eftersom allt är identiskt med en vanlig besökare (det är ju en riktig webbläsare), vilket utökar framtida användningsområden.

Och sist men inte minst så kan du t.ex. köra Google Chrome så att du ser exakt vad som händer på sidan under utvecklingen. I produktion kan du sedan byta till en headless webbläsare så att du slipper har ett fönster öppet.


Nackdelen är att eftersom det är en riktig webbläsare så kommer även vissa resursfiler att laddas ner från sidan, vilket gör att du belastar målet mer
Citera
  • 1
  • 2

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback