Citat:
Ursprungligen postat av
Kip.Kinkel
Data genereras av en brute force optimeringsalgoritm (inte gradient descent utan random alltså). Fält/kolumner är enligt följade:
description (string), intercept (double), coefficients_x1, x2, x3... xn (double), epsilon (double)
---> sortera i fallande ordning efter x1.
Antingen sorteras bara ett subset, eller så blir det synbart slumpmässig sortering.
Kan man anta att kommatecken bara förekommer som separator-tecken? I så fall så tycker jag följande ser ut att funka bra (testade på en 10 miljoner rader lång fil jag genererade lite snabbt):
Kod:
sort -k3 -n -r -t, < data.csv > sorted.csv
Exempel:
Kod:
$ head -5 data.csv
endearment's,gofer,8435367
spade,understudy,7956913
perimeter,gunsmiths,4436220
touchstone,sidesaddle,9713335
pitiable,esplanade,1383317
$
$ head -5 sorted.csv
Spitsbergen's,institutionalizes,9999999
packer,truths,9999998
pushy,wittingly,9999997
candelabra's,birthright,9999996
lily,fare,9999995
$
$ tail -5 sorted.csv
extremity's,aquamarines,4
Horthy's,recapturing,3
vistas,Refugio's,2
page's,syllabus,1
vindicates,Vilnius,0
$
[edit]: Går afk, men tippar att ditt problem är att du har kommatecken i textfältet i kolumn 1. Försök ha en separator som är unik, om du envisas med CSV-filer.