2013-04-10, 20:32
#1
Jag har för avsikt att lägga in en nedlagd tidning i en databas (MySQL) för att göra den sökbar. Materialet är redan inskannat, så det enda jag behöver göra är att designa databasen och fylla på med alla data.
Jag har tänkt mig en huvudtabell med en rad per artikel och grundläggande data i form av årgång, nummer, sidor, titel, undertitel och artikeltext. Sedan blir det ytterligare två tabeller med författare respektive nyckelord och tillhörande kopplingstabeller.
Frågan är bara hur jag ska göra med själva artiklarna och tillhörande bilder. Jag kommer inte på något bra sätt men antar att det finns någon metod som är mer bruklig och förhoppningsvis bättre än andra.
Jag ser till att börja med ingen vettig anledning att över huvud taget blanda in bilderna i databasen, oavsett det är som blob-kolumner eller bara sökvägar, utan tänkte ha dem i ett filsystem och helt enkelt lägga in statiska länkar i html:en (<img src="bilder/1984/blablabla.jpg" etc.). Finns det något bra skäl att inte göra så?
Och sedan artikeltexterna. De ska givetvis vara fulltextindexerade och någonstans måste åtminstone minimal markup komma in i bilden. Det enklaste tycker jag vore att lägga in hela html-klabbet i en text-kolumn i databasen, men finns det något sätt att filtrera indexeringen (annat än med stopword-filen som jag inte kommer åt på mitt webbhotell) så att man inte får med html-taggar och vanliga attributvärden som klassnamn i indexet? För det är ju lite onödigt.
Att spara html-filerna i ett filsystem och lägga in sökvägar till dem i databasen känns inte heller som någon bra lösning eftersom jag i så fall ändå måste ha de rena artikeltexterna för att skapa indexen.
Hur ser de vanligaste lösningarna ut? Är det något särskilt jag inte har nämnt som jag borde tänka extra på? Att datamänden är given från början och att det enbart kommer att läsas från den när alla data väl är intankade gör kanske att man kan bortse från vissa hänsyn man annars behöver ta?
Jag har tänkt mig en huvudtabell med en rad per artikel och grundläggande data i form av årgång, nummer, sidor, titel, undertitel och artikeltext. Sedan blir det ytterligare två tabeller med författare respektive nyckelord och tillhörande kopplingstabeller.
Frågan är bara hur jag ska göra med själva artiklarna och tillhörande bilder. Jag kommer inte på något bra sätt men antar att det finns någon metod som är mer bruklig och förhoppningsvis bättre än andra.
Jag ser till att börja med ingen vettig anledning att över huvud taget blanda in bilderna i databasen, oavsett det är som blob-kolumner eller bara sökvägar, utan tänkte ha dem i ett filsystem och helt enkelt lägga in statiska länkar i html:en (<img src="bilder/1984/blablabla.jpg" etc.). Finns det något bra skäl att inte göra så?
Och sedan artikeltexterna. De ska givetvis vara fulltextindexerade och någonstans måste åtminstone minimal markup komma in i bilden. Det enklaste tycker jag vore att lägga in hela html-klabbet i en text-kolumn i databasen, men finns det något sätt att filtrera indexeringen (annat än med stopword-filen som jag inte kommer åt på mitt webbhotell) så att man inte får med html-taggar och vanliga attributvärden som klassnamn i indexet? För det är ju lite onödigt.
Att spara html-filerna i ett filsystem och lägga in sökvägar till dem i databasen känns inte heller som någon bra lösning eftersom jag i så fall ändå måste ha de rena artikeltexterna för att skapa indexen.
Hur ser de vanligaste lösningarna ut? Är det något särskilt jag inte har nämnt som jag borde tänka extra på? Att datamänden är given från början och att det enbart kommer att läsas från den när alla data väl är intankade gör kanske att man kan bortse från vissa hänsyn man annars behöver ta?