<html><head><meta http-equiv="Content-Type" content="text/html charset=windows-1252"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">An aspect of big data that I think is a better description is not what the data is, or how large it is, or how itís structured, but how you ask questions of it and the rationale for which it was gathered.<div><br></div><div>In the traditional scientific model, you formulate a hypothesis, you design an experiment to test that hypothesis.  Your experiment generates some data, which could be tiny or could be ridiculously huge.  But nevertheless, the data was gathered specifically to answer that question, and is probably not terribly useful for anything else.</div><div><br></div><div>Big data analysis by contrast does something different; you gather a large amount of data without any particular hypothesis in mind, or you pick some dataset that was gathered for some other purpose, and you simply look for ways the data can be clustered or organised, and then try to determine whether that tells you something interesting.</div><div><br></div><div>Using my own field as an example, genomics is definitely moving in that direction.  When I started looking for genetic variation associated with disease 20 years ago, sequencing was very expensive, so the typical hypothesis model was used; we have a bunch of candidate genes which are plausibly involved in cancer, diabetes, or whatever our condition of interest is.  We looked for variations specifically in those genes, and determined whether they associate with the condition.</div><div><br></div><div>Now, we use a much more ďbig dataĒ approach.  We perform whole genome sequencing of thousands of individuals, without any hypothesis as to what might or might not be involved, and we let statistical analysis show us where the associations are.  Whatís more, once a genomeís been sequenced for one project, itís equally useful for any other association study that might be of interested (ethical and consent issues notwithstanding).</div><div><br></div><div>So perhaps whether your questioning of the data is hypothesis driven in the traditional sense is the criterion.</div><div><br></div><div>Tim</div><div><br><div apple-content-edited="true">
<div style="color: rgb(0, 0, 0); font-family: Helvetica;  font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div style="color: rgb(0, 0, 0); font-family: Arial;  font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div style="color: rgb(0, 0, 0); font-family: Arial;  font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div style="color: rgb(0, 0, 0); font-family: Arial;  font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">-- <br>Dr Tim Cutts<br>Acting Head of Scientific Computing</div><div style="color: rgb(0, 0, 0); font-family: Arial;  font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Wellcome Trust Sanger Institute<br><br></div></div></div></div></div></div>
<br>

-- 
 The Wellcome Trust Sanger Institute is operated by Genome Research 
 Limited, a charity registered in England with number 1021457 and a 
 company registered in England with number 2742969, whose registered 
 office is 215 Euston Road, London, NW1 2BE. 

<br></body></html>