Få fram alla länkar i en URL

2016-07-26, 21:33 #13

Medlem

Reg: Jul 2009

Inlägg: 1 193

Citat:

Ursprungligen postat av iconicatab

okej - E-disken. Skriv:

Kod:

E:
cd \
dir wget* /S
cd "\Program Files (x86)\GnuWin32\"
md data
cd data
..\bin\wget -v -S -r -l 1 --spider -np -a flickr_log.txt https://www.flickr.com/photos/visualechos/sets/72157622467976256

Ah, sorry. Fick det här.

Citera

2016-07-27, 08:52 #14

Medlem

Reg: Jul 2012

Inlägg: 5 760

Citat:

Ursprungligen postat av spuuunit

Ah, sorry. Fick det här.

Du verkar inte ha lyckats installera wget i Windows exe-format.

Jag rekommenderar att du drar hem och bootar en Linux Live-distro istället.

Citera

2016-07-27, 09:46 #15

Medlem

Reg: Oct 2009

Inlägg: 149

Citat:

Ursprungligen postat av spuuunit

Oj, du verkar ha hittat något! Jag förstår bara inte hur jag ska göra... Koden ger mig en massa error. Hur skrev du?

Min kodsnutt är skriven i ES6, så du måste köra den i en webbläsare med stöd för ES6 (mer specifikt Array.prototype.reduce(), arrow functions och template literals). Jag körde den i Chrome.

För att lättare förstå hur den fungerar kan man dela upp den och skriva om den:

Kod:


const allLinksInDocument = Array.prototype.slice.call(document.links);



function concatenater(accumulatedString, currentLink) {

    return accumulatedString + "\n" + currentLink.href;

}



const stringWithAllURLs = allLinksInDocument.reduce(concatenater, "");



console.log(stringWithAllURLs);

Men ja, det är inte säkert att det går att lösa det på det sättet.

Citera

2016-08-02, 03:25 #16

Medlem

Reg: Jan 2008

Inlägg: 3 439

Citat:

Ursprungligen postat av spuuunit

Jag vill få fram alla länkar som finns på den här URL:en, egentligen alla länkar till bilderna. Tex denna länk: https://www.flickr.com/photos/visual...7622467976256/. Problemet är att den länken står ingenstans under "View Page Source" i Firefox. Utan man måste "Save Page As...", där i den HTML-filen man laddar ner står länken.

Jag har testat en massa olika metoder, men inget snappar upp alla länkar. Här är bla vad jag testat:

Kod:

using (WebClient client = new WebClient())
{
    string code = client.DownloadString("http://www.flickr.com/photos/visualechos/sets/72157622467976256");
}

Kod:

using (WebClient client = new WebClient())
{
    client.DownloadFile("http://www.flickr.com/photos/visualechos/sets/72157622467976256", @"C:\code.html");
}

Kod:

// Using HtmlAgilityPack
private List<string> LINK = new List<string>();
public void GetLinks(string url)
    {
        HtmlWeb hw = new HtmlWeb();
        HtmlAgilityPack.HtmlDocument doc = hw.Load(url);
        foreach (HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]"))
        {
            LINK.Add(link.GetAttributeValue("href", "link not found"));
        }
    }
private void btnStoreLinks_Click(object sender, EventArgs e)
    {
        GetLinks("https://www.flickr.com/photos/visualechos/sets/72157622467976256");
    }

En liten ändring som fungerar för mig:

Kod:

var linklist = document.DocumentNode.Descendants().Where(
                q => q.Name == "a").ToList();

Citera

Få fram alla länkar i en URL

Stöd Flashback