Vinnaren i pepparkakshustävlingen!
2017-06-11, 21:55
  #1
Avstängd
Hej.

Skulle vilja få tag i en specifik annons med bilder som publicerades på bla hemnet 2016.


(databas som publicerar och länkar till externa mäklarsidor)
Där fanns ett objekt med ca 30-tal högupplösta bilder på en villa.


Wayback påstår sig ha snapshots av hemnet.se

men allt innehåll är ju borta?
deras crawler verkar bara tagit spegling på startsidan och dess index.
Det är ju 0,0001 % av innehållet på sajten så var hittar man resten....



Jag har därefter hittat att just SkandiaMäklarna har kvar delar av annonsen på deras engelska listing.
Kör jag wayback på deras sajt, är allt innehåll också borta.
broken_url på samtliga bilder och media



Exempel på arkiverad sida:

https://web.archive.org/web/20160404...iamaklarna.se/

Följer man meny listing som leder till /property finns bara en röra av gammal
meta data som description och brutna bilder som bör leda till media. Se:

https://web.archive.org/web/20160814...erquilla-21-b/



Hur gräver man vidare?

Antingen är det jag som inte hittat tricket, för inte kan det vara så värdelös crawler eller archiever på wayback att dom bara tar en snapshot på startsidan, och sen påstår sig ha "historik" på internet.

Det är som om att en 3-åring tar printscreen på blocket.se förstsida och sparar som en bildfil och sen har som affärside att sälja "blocket annonser från dåtiden" när det är helt ogiltigt och inte ens finns någon data där.
Citera
2017-06-11, 21:59
  #2
Medlem
Skriv in i Chromes adressfält/Googles sökfält:
Kod:
cache:http://select.skandiamaklarna.se/property/la-cerquilla-21-b/
(alternativt klicka här)

archive.org och dylika sidor arkiverar normalt inte dynamisk content.
Citera
2017-06-11, 22:14
  #3
Avstängd
PS.


Update.

Hmmm lyckades hitta en del sökvägar via bild-sökningar och fann då deras wordpress bygge:

.se/wp-content/uploads/xxxxx


Där dom verkar skapat följande:


http://select.skandiamaklarna.se/wp-content/uploads/2015/10/IMG_0136-min.jpg


Då är bara frågan, varför inte fler bilder dyker upp.

Jag hittar bara ca 5st.

wayback kan inte göra någonting med länken ovanför.
Däremot kan man ju söka med Google-Bilder på site: skandiamaklarna.se och wp-content ovanför.

Filtrerar googlesökningen på anpassad period.
men ingen större lycka.

Har också provat ändra löpnumren på bildserien (dvs IMG_0xxx ) så då är frågan om dom använt flera källor och uppladdningar?
Citera
2017-06-11, 22:15
  #4
Medlem
De kan helt enkelt omöjligt spara allt innehåll som någonsin funnits på nätet
Citera
2017-06-11, 22:17
  #5
Medlem
Citat:
Ursprungligen postat av .RIHTT
PS.

...Missade du mitt svar eller är du ute efter något jag missförstod?
Citera
2017-06-11, 22:19
  #6
Avstängd
Citat:
Ursprungligen postat av Regentia
Skriv in i Chromes adressfält/Googles sökfält:
Kod:
cache:http://select.skandiamaklarna.se/property/la-cerquilla-21-b/
(alternativt klicka här)

archive.org och dylika sidor arkiverar normalt inte dynamisk content.

Hej.

Den cachade sidan är exakt den som jag hittat också.



http://webcache.googleusercontent.co...hrome&ie=UTF-8


Det är så att säga inget nytt under solen.
Senaste kända version, nämligen den som existerar nu .
Objektet med 5 bilder finns kvar.

medans det under början av 2016, alt 2015 fanns då annons i sin helhet med +40 bilder.
Citera
2017-06-11, 22:39
  #7
Avstängd
Citat:
Ursprungligen postat av Regentia
...Missade du mitt svar eller är du ute efter något jag missförstod?


Missade ditt svar iom det frenetiska arbete jag lade.
Se inlägget 16 minuter efteråt.



Så det jag hittills hittat är bilder
som googles bildsökning hämtar i realtid på deras sajt /wp-uploads.


1. Finns det ingen som då crawlat deras wp-upload mapp under perioden jag söker och sparat dess innehåll? det är ju knappast en skyddad mapp nu och kan inte ha varit det då.

2. Kan det haft annan sökväg då?
Låt säga 2015-04-01 tills 2016-12-31
Citera
2017-06-11, 22:53
  #8
Medlem
Citat:
Ursprungligen postat av .RIHTT
Missade ditt svar iom det frenetiska arbete jag lade.
Se inlägget 16 minuter efteråt.



Så det jag hittills hittat är bilder
som googles bildsökning hämtar i realtid på deras sajt /wp-uploads.


1. Finns det ingen som då crawlat deras wp-upload mapp under perioden jag söker och sparat dess innehåll? det är ju knappast en skyddad mapp nu och kan inte ha varit det då.

2. Kan det haft annan sökväg då?
Låt säga 2015-04-01 tills 2016-12-31

Nu är jag med.

Eftersom det är ett objekt som finns kvar och en mäklare finns som kontaktperson är det enklaste sättet att maila mäklaren.

Wayback machine indexerar långt ifrån allt och Google, Bing, Yahoo och co. behåller i regel bara en mirror som uppdateras allt eftersom sidan finns kvar.
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback