Vinnaren i pepparkakshustävlingen!
2022-04-28, 22:01
  #49
Medlem
Enterprises avatar
Citat:
Ursprungligen postat av Methos
Intressant
Men kan vi använda apin? Är inte den stängd för folk som betalar typ?

Vad körde du?
request.Session().post()? eller bara requests.post()?

Är du snäll att posta koden?
Jag körde bara Network-recordern i Browser.
Men har du kollat denna? Tror du går över ån för att hämta vatten.
https://jobtechdev.se/sv/produkter
Filtrera sedan på "öppna data".
Kolla t.ex. https://links.api.jobtechdev.se/
Helt öppen API. Enkel GET-request med JSON-svar.
__________________
Senast redigerad av Enterprise 2022-04-28 kl. 22:06.
Citera
2022-04-28, 22:07
  #50
Medlem
Citat:
Ursprungligen postat av Enterprise
Jag körde bara Network-recordern i Browser.
Men har du kollat denna? Tror du går över ån för att hämta vatten.
https://jobtechdev.se/sv/produkter
Filtrera sedan på "öppna data".
Kolla t.ex. https://links.api.jobtechdev.se/
Helt öppen API. Enkel GET-request med JSON-svar.

Oh. tack. För mig spelar det ingen som helst roll var ifrån jag hämtar annonserna. Jag ska bara analysera vissa termer, begrepp och språkbruk jag har sett i annonser inom skolverksamheten.

Så den kan indexera annonserna?
Citera
2022-04-28, 22:09
  #51
Medlem
Enterprises avatar
Citat:
Ursprungligen postat av Methos
Oh. tack. För mig spelar det ingen som helst roll var ifrån jag hämtar annonserna. Jag ska bara analysera vissa termer, begrepp och språkbruk jag har sett i annonser inom skolverksamheten.

Så den kan indexera annonserna?
Har inte provat, men den ena ingången ger tydligen länkar till alla annonser (vet ej hur många och vilket urval), medan den andra ingången ger detaljer för varje annons m.h.a. ID som hämtas från den första ingången.

Det här är bara en API av många som finns på huvudlänken.

Kolla även denna:
https://gitlab.com/arbetsformedlinge...JobSearchEN.md
Detta funkar direkt från shell:
__________________
Senast redigerad av Enterprise 2022-04-28 kl. 22:11.
Citera
2022-04-28, 22:18
  #52
Medlem
Enterprises avatar
Citat:
Ursprungligen postat av Bonnatorp
Nej det var jönköpings företagsregister.
Behövde namnen därifrån för att kunna söka på allt, då det inte verkar gå söka på län på AB.
Hmm... jag kollade på den siten som du scrapar och den verkar ha en lättåtkomlig API.

Jag ger dig en ledtråd, följande curl anrop gav första sidans annonser i JSON-format, direkt i terminalen helt utan Selenium:


Onekligen spännande Query-format...
Men poängen är att jag tror inte du nödvändigtvis behöver använda Selenium.
Hur fick jag fram anropet? På samma sätt som med Platsbanken ovan, genom Devtools i browsern.

Edit:
Även en rejält "bantad" version av URL:n ger resultat (om än inte samma):
Kod:
curl "https://jonkoping.uc.standout.se/companies.json?draw=1"
__________________
Senast redigerad av Enterprise 2022-04-28 kl. 22:21.
Citera
2022-04-28, 22:23
  #53
Medlem
Citat:
Ursprungligen postat av Enterprise
Har inte provat, men den ena ingången ger tydligen länkar till alla annonser (vet ej hur många och vilket urval), medan den andra ingången ger detaljer för varje annons m.h.a. ID som hämtas från den första ingången.

Det här är bara en API av många som finns på huvudlänken.

Kolla även denna:
https://gitlab.com/arbetsformedlinge...JobSearchEN.md
Detta funkar direkt från shell:


riktigt gods!
https://gitlab.com/arbetsformedlinge...ch_examples.py
Citera
2022-04-28, 22:26
  #54
Medlem
Enterprises avatar
Citat:
Ursprungligen postat av Methos
riktigt gods!
https://gitlab.com/arbetsformedlinge...ch_examples.py
Härligt! Fill your boots, as it were.
Citera
2022-04-28, 22:27
  #55
Medlem
Bonnatorps avatar
Citat:
Ursprungligen postat av Enterprise
Hmm... jag kollade på den siten som du scrapar och den verkar ha en lättåtkomlig API.

Jag ger dig en ledtråd, följande curl anrop gav första sidans annonser i JSON-format, direkt i terminalen helt utan Selenium:


Onekligen spännande Query-format...
Men poängen är att jag tror inte du nödvändigtvis behöver använda Selenium.
Hur fick jag fram anropet? På samma sätt som med Platsbanken ovan, genom Devtools i browsern.

Edit:
Även en rejält "bantad" version av URL:n ger resultat (om än inte samma):
Kod:
curl "https://jonkoping.uc.standout.se/companies.json?draw=1"
Alltså hur hittar folk fria API:er till sidor så lätt?
Tycker jag bara hittar betaltjänster, men jag gissar att det finns något knep för det.
Nu är ju företagsregistret färdigt, men hur tillgår man t.ex. API för allabolag?
Gör man bara curl-anrop och hoppas på det bästa?
Är nämligen inte hemma just nu.
Citera
2022-04-28, 22:31
  #56
Medlem
Citat:
Ursprungligen postat av Bonnatorp
Alltså hur hittar folk fria API:er till sidor så lätt?
Tycker jag bara hittar betaltjänster, men jag gissar att det finns något knep för det.
Nu är ju företagsregistret färdigt, men hur tillgår man t.ex. API för allabolag?
Gör man bara curl-anrop och hoppas på det bästa?
Är nämligen inte hemma just nu.

Inspector gadjet,tu,tu... Precis, man använder Inspector i browsern när man surfar sidan.
Citera
2022-04-28, 22:39
  #57
Medlem
Citat:
Ursprungligen postat av Enterprise
Härligt! Fill your boots, as it were.

Nu är det frågan om man skall spara varje brödtext i en egen fil eller på något sätt spara in den i en db.
Båda två är ju apslöa metoder.

Jag tror att det är bäst om man kör det i två steg; hämtning av brödtexten i en fil och sedan från filerna köra textanalys.
Citera
2022-04-28, 22:40
  #58
Medlem
Enterprises avatar
Citat:
Ursprungligen postat av Bonnatorp
Alltså hur hittar folk fria API:er till sidor så lätt?
Tycker jag bara hittar betaltjänster, men jag gissar att det finns något knep för det.
Nu är ju företagsregistret färdigt, men hur tillgår man t.ex. API för allabolag?
Gör man bara curl-anrop och hoppas på det bästa?
Är nämligen inte hemma just nu.
Nja, det beror på vad du vill åt. Till skillnad från Platsbanken (som bara vill sprida sina annonser) så har inte Allabolag något att tjäna på att dela med sig "deras" data, utan att de annonser som de har sålt visas. De förlorar alltså på ett curl-anrop och har därför anpassat sig därefter. Jag har själv gjort en VBA-applikation för Word där man kunde hämta exakt företagsnamn från ett org.nr. Detta gjordes genom curl-anrop från VBA. Men, jag gjorde det mot Google istället för mot Allabolag, på grund av nämnda skäl. Söksträngen på Google var typ: [orgnr] allabolag.
VBA-skriptet fick då ett sökresultat hos Google där det kunde få ut företagsnamnet, direkt från Googles indexering. Allabolag var alltså none the wiser. Mer detaljerad information blir nog svårare dock.
Citera
2022-04-28, 23:20
  #59
Medlem
Bonnatorps avatar
Citat:
Ursprungligen postat av Enterprise
Nja, det beror på vad du vill åt. Till skillnad från Platsbanken (som bara vill sprida sina annonser) så har inte Allabolag något att tjäna på att dela med sig "deras" data, utan att de annonser som de har sålt visas. De förlorar alltså på ett curl-anrop och har därför anpassat sig därefter. Jag har själv gjort en VBA-applikation för Word där man kunde hämta exakt företagsnamn från ett org.nr. Detta gjordes genom curl-anrop från VBA. Men, jag gjorde det mot Google istället för mot Allabolag, på grund av nämnda skäl. Söksträngen på Google var typ: [orgnr] allabolag.
VBA-skriptet fick då ett sökresultat hos Google där det kunde få ut företagsnamnet, direkt från Googles indexering. Allabolag var alltså none the wiser. Mer detaljerad information blir nog svårare dock.
Det lät extremt användbart. Dock sket det sig då jag inte har organisationsnumret för dessa, och märkligt nog fanns det inte i företagsregistret heller.
Insåg nu att jag kunde ha nallat telefonnumren också för bolagalistan i fråga, men det glömde jag. Rackarns.

Jaja, det är ju ingen egentlig brådska med saken.
Tror jag testar hamra järnet med en IP och tar så många jag hinner, och blir den ens bannad så sänker jag tempot markant och jobbar med det jag har medans resten tuggar färdigt.

Kan man ha flera seleniuminstanser igång samtidigt förresten?
Tänkte ifall jag kan låta mitt eniroscript tugga på samtidigt som alla bolag.
Det länkades en API tidigare till eniro, men där vart jag blockad efter bara ett fåtal anrop (typ 40 stycken kanske) med rätt så långt mellanrum. Därför kör jag selenium, då det inte är så otippat där om en IP söker hundratals nummer om dagen.
__________________
Senast redigerad av Bonnatorp 2022-04-28 kl. 23:26.
Citera
2022-04-28, 23:25
  #60
Medlem
Enterprises avatar
Citat:
Ursprungligen postat av Bonnatorp
Kan man ha flera seleniuminstanser igång samtidigt förresten?
Tänkte ifall jag kan låta mitt eniroscript tugga på samtidigt som alla bolag.
Det länkades en API tidigare till eniro, men där vart jag blockad efter bara ett fåtal anrop (typ 40 stycken kanske) med rätt så långt mellanrum.
Ja, borde gå utmärkt.
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback