2012-06-08, 08:34
  #1
Medlem
switchls avatar
Mod får flytta om tråden passar bättre annorstädes.

Har en kopia av ett forum som jag vill läsa in i en databas. Varje sida av forumet är sparat som en enskild .html fil.

Ett typiskt meddelande på en sida ser ut så här:

HTML-kod:
<div class="post">
    <div class="posttop">
        <div class="username">
            Användarnamn
        </div>
        <div class="date">
            02-26-2001, 12:26 PM
        </div>
    </div>
    <div class="posttext">
        Användarnamns meddelande här
    </div>
</div>

Hur extraherar jag enklast information som tid,användare och meddelande från html filerna och placerar dom i en databas i Linux?
__________________
Senast redigerad av switchl 2012-06-08 kl. 08:41.
Citera
2012-06-08, 08:52
  #2
Moderator
vhes avatar
Är sidorna valid XHTML? Isf bör det räcka med xmlstarlet för att extrahera de delar du behöver. Du lär dock behöva lära dig lite XSL.
Annars får du ta till en HTML-parser i godtyckligt språk du känner dig bekväm med (min rekommendation: Python, men det spelar inte så stor roll).

Varför vill du ha in dem i "en databas"? Anledningen till att jag frågar är att beroende på syftet så är det nog inte bara "en databas" du vill ha in dem i, utan troligen en väldigt specifik databas med en väldigt specifik tabellstruktur. I så fall måste du känna till den databasen och tabellstrukturen.
Citera
2012-06-08, 09:23
  #3
Medlem
switchls avatar
Citat:
Ursprungligen postat av vhe
Är sidorna valid XHTML?
Ingen aning. Men det här står i början av alla sidor:
HTML-kod:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
Så ja, kanske?

Citat:
Annars får du ta till en HTML-parser i godtyckligt språk du känner dig bekväm med (min rekommendation: Python, men det spelar inte så stor roll).
Ok, ska kolla upp "HTML-parsers".

Citat:
Varför vill du ha in dem i "en databas"? Anledningen till att jag frågar är att beroende på syftet så är det nog inte bara "en databas" du vill ha in dem i, utan troligen en väldigt specifik databas med en väldigt specifik tabellstruktur. I så fall måste du känna till den databasen och tabellstrukturen.
Det handlar om en kopia av ett gammalt forum som inte existerar mera. Totalt ungefär 9000 html sidor. Jag vill ha alla posts i en databas för att det är lättare att söka och hantera på det sättat.
Citera

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in