This tool do can do part of what you want:<br><a href="http://www.chiark.greenend.org.uk/~sgtatham/agedu/">http://www.chiark.greenend.org.uk/~sgtatham/agedu/</a><br><br>This display files by size and color file by type.<br>
<a href="http://gdmap.sourceforge.net/">http://gdmap.sourceforge.net/</a><br><br>Perhaps agedu can handle large subsets of your files, but gdmap is desktop oriented.<br><br><br><div class="gmail_quote">2009/9/12 Skylar Thompson <span dir="ltr"><<a href="mailto:skylar@cs.earlham.edu">skylar@cs.earlham.edu</a>></span><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div><div></div><div class="h5">Rahul Nabar wrote:<br>
> As the number of total files on our server was exploding (~2.5 million<br>
> / 1 Terabyte) I<br>
> wrote a simple shell script that used find to tell me which users have how<br>
> many. So far so good.<br>
><br>
> But I want to drill down more:<br>
><br>
> *Are there lots of duplicate files? I suspect so. Stuff like job submission<br>
> scripts which users copy rather than link etc. (fdupes seems puny for<br>
> a job of this scale)<br>
><br>
> *What is the most common file (or filename)<br>
><br>
> *A distribution of filetypes (executibles; netcdf; movies; text) and<br>
> prevalence.<br>
><br>
> *A distribution of file age and prevelance (to know how much of this<br>
> material is archivable). Same for frequency of access; i.e. maybe the last<br>
> access stamp.<br>
><br>
> * A file size versus number plot. i.e. Is 20% of space occupied by 80% of<br>
> files? etc.<br>
><br>
> I've used cushion plots in the past (sequiaview; pydirstat) but those<br>
> seem more desktop oriented than suitable for a job like this.<br>
><br>
> Essentially I want to data mine my file usage to strategize. Are there any<br>
> tools for this? Writing a new find each time seems laborious.<br>
><br>
> I suspect forensics might also help identify anomalies in usage across<br>
> users which might be indicative of other maladies. e.g. a user who had a<br>
> runaway job write a 500GB file etc.<br>
><br>
> Essentially are there any "filesystem metadata mining tools"?<br>
><br>
><br>
</div></div>What OS is this on? If you have dtrace available you can use that to at<br>
least gather data on new files coming in, which could reduce your search<br>
scope considerably. It obviously doesn't directly answer your question,<br>
but it might make it easier to use the existing tools.<br>
<br>
Depending on what filesystem you have you might be able to query the<br>
filesystem itself for this data. On GPFS, for instance, you can write a<br>
policy that would move all files older than, say, three months to a<br>
different storage pool. You can then run that policy in a preview mode<br>
to see what files would have been moved. The policy scan on GPFS is<br>
quite a bit faster than running a find against the entire filesystem, so<br>
it's a definite win.<br>
<font color="#888888"><br>
--<br>
-- Skylar Thompson (<a href="mailto:skylar@cs.earlham.edu">skylar@cs.earlham.edu</a>)<br>
-- <a href="http://www.cs.earlham.edu/%7Eskylar/" target="_blank">http://www.cs.earlham.edu/~skylar/</a><br>
<br>
<br>
</font><br>_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" target="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</a><br>
<br></blockquote></div><br>