Daten beziehen sich auf bestimmte Informationen, die normalerweise so formatiert und gespeichert werden, dass sie einem bestimmten Zweck entsprechen. Daten können in verschiedenen Formen vorliegen: als auf Papier aufgezeichnete Zahlen oder Texte, als im elektronischen Speicher gespeicherte Bits oder Bytes oder als Tatsachen, die im Kopf einer Person leben. Seit dem Aufkommen der Informatik Mitte des 1900. Jahrhunderts beziehen sich Daten jedoch am häufigsten auf Informationen, die elektronisch übertragen oder gespeichert werden.
Grammatisch gesehen sind Daten die Pluralform des singulären Datums, aber in der Praxis werden Daten häufig als Massennomen wie Sand oder Wasser verwendet. Zum Beispiel könnte man sagen, dass die Daten in diesem Fall etwas als wahr erweisen. „Daten“ beziehen sich auf viele Informationen, die gemeinsam zur Validierung eines Anspruchs verwendet werden. Nicht alle Autoren akzeptieren jedoch die beliebte Verwendung von Massennomen. Einige akademische und technische Redakteure halten an der Unterscheidung zwischen lateinischem Plural und Singular fest („der Datensatz beweist“ und „ein Datum beweist“).
Maschinenlesbare und vom Menschen lesbare Daten
Alle Daten können als maschinenlesbar, für Menschen lesbar oder beides kategorisiert werden. Für vom Menschen lesbare Daten werden Formate in natürlicher Sprache verwendet (z. B. eine Textdatei mit ASCII-Codes oder PDF-Dokumenten), während für maschinenlesbare Daten formal strukturierte Computersprachen (Parkett, Avro usw.) verwendet werden, die von Computersystemen oder Software gelesen werden. Einige Daten können sowohl von Maschinen als auch von Menschen gelesen werden, wie im Fall von CSV, HTML oder JSON.
Die Grenze zwischen maschinen- und menschenlesbaren Daten verschwimmt zunehmend, da so viele heute vorherrschende Formate zugänglich genug sind, um von einem Menschen navigiert zu werden, aber strukturiert genug, um von einer Maschine verarbeitet zu werden. Dies ist größtenteils das Ergebnis künstlicher Intelligenz, maschinellen Lernens und Automatisierung, die Aufgaben und Arbeitsabläufe rationalisiert, sodass die manuelle Dateneingabe und -analyse eher von einer Maschine als von einem Menschen durchgeführt wird. Diese Prozesse müssen jedoch ihre menschliche Lesbarkeit beibehalten, falls die Programmierung angepasst werden muss. Die meisten Daten existieren in diesen Fällen auch im luftleeren Raum und haben ohne Kontext aus menschlicher Sicht keine große Bedeutung.
Datenphrasen in der Technologie
Daten sind zum Hauptbestandteil vieler Mainstream-Gespräche über Technologie geworden. Neue Innovationen kommentieren ständig Daten, wie wir sie verwenden und analysieren, und haben umfassendere Auswirkungen auf diese Effekte. Infolgedessen enthält die beliebte IT-Umgangssprache eine Reihe neuer und alter Ausdrücke:
-
Big Data: Ein riesiges Volumen an strukturierten und unstrukturierten Daten, das zu groß ist, um mit herkömmlichen Datenbank- und Softwaretechnologien verarbeitet zu werden.
-
Big Data-Analyse: Der Prozess des Sammelns, Organisierens und Synthetisierens großer Datenmengen, um Muster oder andere nützliche Informationen zu entdecken.
-
Rechenzentrum: Physische oder virtuelle Infrastruktur, die von Unternehmen zur Unterbringung von Computer-, Speicher- und Netzwerksystemen und -komponenten für die IT-Anforderungen des Unternehmens verwendet wird.
-
Datenintegrität: Die Gültigkeit von Daten, die auf verschiedene Weise beeinträchtigt werden können, einschließlich menschlicher Fehler oder Übertragungsfehler.
-
Data Miner: Eine Softwareanwendung, die die Aktivitäten eines Computers und anschließend seines Benutzers überwacht und / oder analysiert, um Informationen zu sammeln.
-
Data Mining: Eine Klasse von Datenbankanwendungen, die nach versteckten Mustern in einer Gruppe von Daten suchen, die zur Vorhersage / Antizipation des zukünftigen Verhaltens verwendet werden können.
-
Data Warehouse: Ein Datenverwaltungssystem, das Daten aus mehreren Quellen verwendet, um Business Intelligence zu fördern.
-
Datenbank: Eine Sammlung von Datenpunkten, die so organisiert sind, dass sie von einem Computersystem leicht manövriert werden können.
-
Metadaten: Zusammenfassende Informationen zu einem Datensatz.
-
Rohdaten: Informationen, die gesammelt, aber nicht formatiert oder analysiert wurden.
-
Strukturierte Daten: Alle Daten, die sich in einem festen Feld innerhalb eines Datensatzes oder einer Datei befinden, einschließlich Daten, die in relationalen Datenbanken und Tabellen enthalten sind.
-
Unstrukturierte Daten: Informationen, die sich nicht in einer herkömmlichen Spaltenzeilendatenbank befinden, wie strukturierte Daten.