Fileshares waren ooit een nuttige innovatie, nu zijn ze storage-verspillers. Dit is de discussiestelling die Computable-lezers vandaag krijgen voorgelegd.
De waarschuwende berichten over de explosieve groei van data zijn al jaren oud en blijken telkens weer bewaarheid te worden. We maken alsmaar meer data aan en slaan die ook op. Nuttig in het geval van business intelligence, data analytics, bnig data en andere ict-zakelijke trends. Alleen is er ook sprake van veel verspilling; door rot-bestanden (redundant, overbodig en triviaal).
Veel bestanden bestaan namelijk dubbel, driedubbel of nog méér meervoudig binnen organisaties. Zij hebben meerdere exemplaren opgeslagen op hun storage-systemen. Bij Nederlandse organisaties komt bijna 40 procent van de bestanden dubbel voor, blijkt uit een recent klantenonderzoek van Xillio. Gemiddeld bestaan er 2,3 kopieën van deze dubbel opgeslagen documenten, aldus de leverancier van ecm-oplossingen (enterprise content management) in een persbericht. Fileshares vormen dus forse verspillers van opslagcapaciteit. Wat vind jij?
In mijn vakgebied systeembeheer, het bijhouden van de infrastructuur documentatie in losse documenten is een ware hel wat sommige bedrijven doen. Niemand durft andermans document aan te passen dus wordt een copy gemaakt met een andere versie.
Hiervoor is wiki uitgevonden.
Ruimtebesparing is niet het meest kostbare probleem. Er is waarschijnlijk meer te besparen aan energiekosten omdat een veelvoud van de data veelvoudig “geshared” wordt. Factor 3 of meer…
De grootste besparing op dit moment zit echter in een sluitend beheersysteem waardoor de tijd nodig voor zoeken en herstel van de verkeerde update van de “shares” wordt voorkomen. 10% van de kantoorwerktijd? Of meer?
De allergrootste besparing is echter de integrale toepassing van automatisering op de primaire productie processen (Lean Production Control) waardoor minimaal de helft van de adminstratieve “productie” overbodig wordt… (Proces besturing ipv product besturing)
Volgens mij is het tijdperk van lokale fileshares voorbij. De toekomst is de fileshare in de Cloud bijvoorbeeld met Office 365: overzichtelijk, geen investeringen in lokale hardware, altijd en overal te raadplegen en bovendien enorm schaalbaar.
Nee, dan moet je omgevingen als Sharepoint gebruiken. Daar zit versiebeheer in en een goed zoeksysteem…
Not, het maakt niet uit hoe goed (of slecht) je de vervanger maakt, zolang elke gebruiker niet de documenten van een ander durft aan te raken blijf je oneindig veel kopieen van documenten houden.
Zolang je geen goede versiebeheer ondersteuning (opleiding is een van de nodige ondersteuningen) hebt krijg je gedrochten waarbij je een document naar de repository kopieert (want de oude versie moet bereikbaar blijven) en daarna datzelfde document moet committen (want anders kan niemand anders het zien). En dat allemaal omdat er ooit maar één versie van dat document zal zijn, maar voor de hele repository het versiebeheer aan is gezet.
Zolang versies handmatig in de documenten moet worden bijgehouden, met de change historie en je geen enkele directe relatie kan leggen met het versiebeheer van de repository waar het in kan eindigen, blijven dit soort procedurele “versiebeheer” houden. En dan maakt het niet uit of je op een sharepoint-achtige omgeving zit of op een fileshare.
Het meta-datamodel waar Sharepoint-achtige omgevingen op gestoeld is, is een goed idee. Maar zolang het personeel dat de documenten in die omgevingen moet neerzetten geen goede ondersteuning krijgt (want dat kost tijd en geld, en dat willen de heren en dames managers vrijwel nooit uitgeven) zullen de documenten met de verkeerde meta-data worden weggezet en is de inhoud van de repository nog steeds niet doorzoekbaar (en dus feitelijk onvindbaar)…. in dat geval verspilt het Sharepoint-achtige systeem ook ruimte (eigenlijk meer, omdat het Sharepoint-systeem ook ruimte in beslag neemt).
Fileshares en sharepoint-achtige systemen werken prima, als het maar goed wordt ingezet, en dat vergt opleiding van ALLE gebruikers en met de juiste tooling komt het allemaal wel goed.
Je kan op meerdere manieren naar een file storage oplossing kijken. Als bestander meerdere malen voorkomen op een storage systeem / file share, dan is dat vanuit een gebruikers perspectief. Dat heft geen relatie tot de hoeveelheid ruimte die deze bestanden innemen op een storage systeem. Moderne storage systemen beschikken over allerhande mechanismen om het beslag dat data legt op de ruimte te beperken.
Denk hierbij een Deduplicatie op block level, Compressie op block level en Compaction.
De file als vertrekpunt nemen is dan ook een verkeerd uitganspunt voor deze discussie.
Een mooi voorbeeld in deze is een mail platform.
Veel gebruikers hebben een handtekening onder de mail staan. Deze bevat vaak de zelfde tekst voor een groot aantal gebruikers en vaak is er een plaatje onderdeel van de handtekening.
Een slim en modern storage systeem zal alleen referenties naar het plaatje en de tekst opslaan en niet het plaatje en de tekst vele malen.
Een zekere mate van redundantie is noodzakelijk begint met Redundant Array of Independent Disks.
Het grote probleem zit in het gebrek aan een collaboration-suite, dan krijg je dubbele datasets en een ongewenste redundantie. Uiteindelijk is het een zaak van opvoeden, wat triviaal en overbodig is moet weg maar de menselijke natuur is er nu eenmaal een van “bewaren, misschien is het nog bruikbaar” en “dat is MIJN dataset”.
De gewetensvraag die iedereen zichzelf mag stellen is: wat heb ik het laatste jaar weggooid dat ik eigenlijk moest bewaren? Wanneer het antwoord “niets” is, heb je te veel bewaard.
Invoeren van hardware (Fileshare) software (Sharepoint) en/of diensten (Cloud), zonder voldoende betrokkenheid, opleiding en engagement van alle stakeholders is de oorzaak dat IT gedreven projecten falen.
Zeker indien men bedrijfsbreed een oplossing wil invoeren om niet gestructureerde informatie (documenten, afbeeldingen, presentaties, rekenbladen, brochures, affiches, verslagen,….) op te slaan in bijvoorbeeld een Fileshare is van bij de aanvang een hoge mate van betrokkenheid van de medewerkers vereist. Ik denk hierbij aan o.a. de aanpak bij het opstellen van de metadata, het structureren/groeperen van de informatie op basis van inhoud in plaats van op basis van de bestaande organisatiestructuren / hiërarchieën / individuen; wie is verantwoordelijk voor de kwaliteit/relevantie van welk document; afspraken m.b.t. de levenscyclus van een document. Zo wordt een groter draagvlak voor het gewenste beleid gevonden alsook de bereidheid om er mee uitvoering aan te geven.
Werken boven de hoofden van de medewerkers die er in een latere fase mee aan de slag moeten is plannen voor chaos.
In het onderzoek worden twee foute aannames gedaan. De eerste is dat data dubbel opgeslagen wordt. Zoals Erwin van Bilsen al aangeeft is dat niet per definitie waar. Elke moderne storage oplossing doet aan data deduplicatie.
De tweede aanname is dat het overbodig is. Overbodig voor wie? Moeten wij, als ICT-organisatie gaan bepalen hoe een gebruiker moet werken? Er zijn genoeg redenen te bedenken, waarom een gebruiker een document voor een 2x opslaat. Bijvoorbeeld: een document van Project A is herbruikbaar in Project B, maar dan we in de originele versie. Binnen Project A wil je niet het risico lopen dat het document in Project B wordt aangepast en zo Project A in gevaar brengt. Oplossing: 2x opslaan in beide projecten.
Dat file servers een log monster kunnen worden is een feit. Dat een content managementsysteem de oplossing is, is een mythe.