Computer Vision ist ein multidisziplinäres Forschungsgebiet, das versucht, Computern zu helfen, digitale Bilder ähnlich wie das menschliche optische System zu lesen und zu verstehen. Im Großen und Ganzen umfasst es Computerintelligenz und maschinelles Lernen. Es basiert auf dem Verständnis des visuellen Kontexts und nicht nur auf geschriebenen oder katalogisierten Inhalten zu einem Bild oder Video (z. B. einer von Menschen erstellten Textbeschreibung, die in das Bild oder Video eingebettet ist, um das Auffinden in einem Computersystem zu erleichtern). Computer Vision wurde in wissenschaftlichen Gemeinschaften seit den 1960er Jahren diskutiert, hatte jedoch Schwierigkeiten, signifikante Fortschritte zu erzielen, hauptsächlich weil die Bildanalyse und der Kontext sehr komplex sind und das menschliche optische System jede Rechenfähigkeit bei weitem übertrifft.
In jüngster Zeit hat Deep Learning es Computersystemen ermöglicht, Bilder besser zu analysieren, indem sie ihnen Bilder zeigen. Mit der Zeit lernt der Computer, Details aus Bildern zu identifizieren, die ihm helfen, diese Details in anderen Bildern zu erkennen (Bilderkennung). Das übergeordnete Ziel für Computer Vision ist, dass ein Computer die Details eines Bildes verstehen und es dem Menschen interpretieren oder erklären kann. Deep Learning hilft dabei, dieses Ziel realistischer zu gestalten, aber Computer Vision ist noch weit davon entfernt, wo Forscher es gerne hätten.
Zwei Hauptprobleme bei der Bildverarbeitung machen die Implementierung schwierig. Die visuelle Welt hat von Natur aus viel Veränderung und Vielfalt. Es ist auch sehr komplex. Obwohl das menschliche Gehirn darauf ausgelegt ist, die kleinsten Details eines Bildes oder eines anderen visuellen Mediums schnell und unfreiwillig zu analysieren, sind Computer dies nicht. Zweitens basiert Computer Vision im Allgemeinen auf dem menschlichen optischen System, und selbst Wissenschaftler verstehen es nicht gut genug, um zu versuchen, es angemessen wiederherzustellen.