Data Science — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Это работа с большими данными (англ. Big Data). Большие данные — это огромные объёмы неструктурированной информации: например, метеоданные за какой-то период, статистика запросов в поисковых системах, результаты спортивных состязаний, базы данных геномов микроорганизмов и многое другое.
Ключевые слова здесь — «огромный объём» и «неструктурированность». Чтобы работать с такими данными, используют математическую статистику и методы машинного обучения.
Специалист, который делает такую работу, называется дата-сайентист (или Data Scientist). Он анализирует большие данные (Big Data), чтобы делать прогнозы. Какие именно прогнозы — зависит от того, какую задачу нужно решить. Итог работы дата-сайентиста — прогнозная модель. Если упростить, то это программный алгоритм, который находит оптимальное решение поставленной задачи.
Для эффективной работы с большими данными нужен другой, им стало машинное обучение. В этом случае человек только дает компьютеру какие-то вводные, но результаты работы такого алгоритма не детерменированы человеком. Человек определяет способ обучения машины, но машина учится сама; сама приходит к тем или иным ответам и анализирует информацию. Это похоже на то, как учимся мы с вами. Машинное обучение — это не только искусственный интеллект. К этой сфере относятся генетические и эволюционные алгоритмы, и более простые задачи, связанные с кластерным анализом, например.
Наконец, Cognitive Science. Это междисциплинарная наука, изучающая, механизмы познания и мышления. Результаты таких исследований в первую очередь ложатся в основу разработки различных подходов к созданию искусственного интеллекта.
А также про нейросеть.
Нейронная сеть — математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма.
То есть – это продукт Data Science. Самый перспективный для человечества сейчас.
Нейросети пытаются воспроизвести отдельные аспекты устройства нейросетей в мозге человека. Поэтому так и называются. Но полностью его повторить пока не могут — мощности еще не те. По оценкам Максима Орловского, до момента, когда силы сравняются, уйдет 30-50 лет.
Искусственный интеллект разделяют на специализированные формы и общий интеллект, сравнимый с интеллектом человека или превосходящий его. Нейросети могут быть общего типа и специализированного.
Специализированные формы способны не только решать определенную задачу, но и делать это зачастую гораздо лучше человека. Вот они-то сейчас и набирают популярность и только в них есть толк при существующем уровне развития технологий.
Нейросети – это не что-то принципиально новое. Сама технология, подходы к проектированию и ключевые алгоритмы их обучения были разработаны еще в 50-60 годах прошлого века. Тем не менее, лишь в последние годы произошло сочетание ключевых факторов, позволивших ИИ сделать качественный скачек вперед: вычислительных мощностей, доступных наборов больших данных и хорошо проработанных фреймворков.
Нейросети уже можно применять практически везде. В области права – для поиска прецедентов (что особенно популярно в американской судебной системе). В финтехе — для анализа сделок, программы лояльности, надежности клиента и так далее. В логистике — для прогнозирования потребности в тех или иных продуктах. В медицине нейросети, обрабатывая огромные массивы данных, могут находить неожиданные факторы, влияющие на здоровье пациента, и точно диагностировать даже самые сложные заболевания.
Нейросети могут проявлять себя и в творческих задачах. Но знаменитые фильтры на изображениях – это побочный продукт, который появился в результате того, что разработчики пытались разобраться, как же работает алгоритм обучения нейросети. Он стал широкоизвестным среди массовой аудитории. Незаслуженно меньше говорится о том, что нейросети успели хорошо себя зарекомендовать в вопросах перевода, распознавания или анализа данных. Между тем, эти технологии уже можно использовать в проектах, подключая соответствующие функции через API – эту возможность предоставляют гиганты технологической индустрии.
Важные критерии Data Science
- Data Science и технологии искусственного интеллекта позволяет больше узнать о том, что предпочитает человек (собирая и анализируя данные), стать ближе к нему, создавая более персонализированные интерфейсы (например, отбирая предложения в соответствии с тем, что ранее было интересно пользователю, отправляя персонализированные рассылки) и т.д.
- Для IT-отрасли возможность работы с данными представляет собой такой большой качественный скачок, что новые стартапы нельзя представить себе без применения этой технологии – это все равно что продолжать использовать лошадей для перевозки в эпоху расцвета автомобилей. А ведь сам термин IT-стартап подразумевает инновационность.
- Автоматизация, внедрение новых возможностей персонализации позволяет повысить маржинальность бизнеса. И если не сделать это самостоятельно, более технологичные конкуренты просто выдавят вас с рынка.