Качество данных: невидимый злодей машинного обучения

Каковы основные задачи современного инженера по машинному обучению? Это кажется простым вопросом с простым ответом:
Создание моделей машинного обучения и анализ данных.
На самом деле этот ответ часто неверен.
Эффективное использование данных имеет важное значение для успешного современного бизнеса. Однако преобразование данных в ощутимые бизнес-результаты требует, чтобы они прошли путь. Они должны быть получены, безопасно переданы и проанализированы в своем собственном цикле разработки.
Взрыв облачных вычислений в середине-конце 2000-х годов и принятие машинного обучения предприятиями десятилетие спустя эффективно решили начало и конец этого пути. К сожалению, компании часто сталкиваются с препятствиями на средних этапах, связанными с качеством данных, которое, как правило, не попадает в поле зрения большинства руководителей. Оливье Гордон
Навигация по социальным ссылкам
Консультант по решениям в Ataccama.
Как плохое качество данных влияет на бизнес
Низкокачественные, непригодные для использования данные являются обузой для тех, кто находится в конце пути данных. Это потребители данных, которые используют их для построения моделей и вносят вклад в другие прибыльные виды деятельности. Подпишитесь на рассылку новостей Ny Breaking и получайте ключевые новости, мнения, функции и советы, необходимые вашему бизнесу для успеха!
Слишком часто специалисты по данным — это люди, которых нанимают для «создания моделей машинного обучения и анализа данных», но плохие данные мешают им это делать. Организации вкладывают так много усилий и внимания в получение доступа к этим данным, но никто не думает проверять, что данные, поступающие «в» модель, пригодны для использования. Если входные данные плохие, выходные модели и анализ будут такими же.
По оценкам, специалисты по данным тратят от 60 до 80 процентов своего времени на очистку данных, чтобы результаты их проекта были надежными. Этот процесс очистки может включать в себя угадывание смысла данных, выявление пробелов и может непреднамеренно удалять потенциально ценные данные из своих моделей. Результат разочаровывает и неэффективен, потому что эти грязные данные мешают специалистам по данным выполнять ценную часть своей работы: решать бизнес-проблемы. Эти огромные, часто невидимые затраты замедляют проекты и снижают их результаты.
Проблема усугубляется, когда задачи по очистке данных выполняются в повторяющихся изолированных хранилищах. Тот факт, что один человек заметил и устранил проблему в одном проекте, не означает, что он решил проблему для всех своих коллег и их соответствующих проектов.
Даже если команда по инжинирингу данных может выполнить масштабную очистку, это не может быть сделано сразу. Кроме того, они могут не полностью понимать контекст задачи и почему они ее выполняют. Влияние качества данных на машинное обучение
Чистые данные особенно важны для проектов машинного обучения. Будь то классификация или регрессия, контролируемое или неконтролируемое обучение, глубокие нейронные сети или когда модель машинного обучения переходит в новое производство, разработчикам необходимо постоянно проводить оценку на основе новых данных.
Важнейшей частью жизненного цикла машинного обучения является управление дрейфом данных, чтобы гарантировать, что модель остается эффективной и продолжает приносить бизнес-ценность. В конце концов, данные — это постоянно меняющийся ландшафт. Исходные системы могут объединяться после приобретения, может вступить в игру новое управление или может измениться коммерческий ландшафт.
Это означает, что предыдущие предположения о данных могут больше не соответствовать действительности. Хотя такие инструменты, как Databricks/MLFlow, AWS Sagemaker или Azure ML Studio, эффективно охватывают продвижение, тестирование и переобучение моделей, они менее хорошо оснащены для исследования того, какая часть данных изменилась, почему она изменилась, а затем устранения проблем, что может быть утомительным и отнимающим много времени.
Управляемость данными предотвращает возникновение этих проблем в проектах машинного обучения, но речь идет не только о технических группах, создающих конвейеры и модели; это требует согласованности всего бизнеса. Примеры того, как это может возникнуть на практике, включают, когда данные требуют бизнес-процесса с кем-то, кто должен его утвердить, или когда нетехнический заинтересованный субъект из фронт-офиса вносит знания на раннем этапе передачи данных. Препятствие в построении моделей машинного обучения
Включение бизнес-пользователей в качестве потребителей данных своей организации становится все более возможным с помощью ИИ. Обработка естественного языка позволяет нетехническим пользователям запрашивать данные и извлекать контекстную информацию.
Ожидаемый темп роста ИИ в период с 2023 по 2030 год составляет 37 процентов. 72 процента руководителей считают ИИ наиболее важным преимуществом для бизнеса, и 20 процентов EBIT компаний, зрелых в отношении ИИ, будут генерироваться ИИ в будущем.
Качество данных — основа ИИ. Оно повышает производительность алгоритмов и позволяет им выдавать надежные прогнозы, рекомендации и классификации. Для 33 процентов компаний, которые сообщают о провале проектов ИИ, причиной является низкое качество данных. Фактически, организации, которые фокусируются на качестве данных, могут добиться большей эффективности ИИ везде.
Но качество данных — это не просто флажок для галочки. Организации, которые делают это неотъемлемой частью своей деятельности, могут достичь ощутимых бизнес-результатов, генерируя больше моделей машинного обучения в год и предоставляя более надежные, предсказуемые бизнес-результаты, обеспечивая уверенность в моделях. Как преодолеть барьеры качества данных
Качество данных не должно быть вопросом ожидания возникновения проблемы в производстве, а затем спешки с ее устранением. Данные должны постоянно проверяться, где бы они ни находились, на основе постоянно расширяющегося пула известных проблем. Все заинтересованные стороны должны вносить свой вклад, и все данные должны иметь четких, четко определенных владельцев данных. Поэтому, когда специалиста по данным спрашивают, чем он занимается, он может наконец сказать: создавать модели машинного обучения и анализировать данные. Мы перечисляем для вас лучшее облачное хранилище для бизнеса.
Эта статья была подготовлена в рамках канала Expert Insights Ny BreakingPro, где мы демонстрируем лучшие и самые яркие умы в технологическом секторе сегодня. Мнения, высказанные здесь, принадлежат автору и не обязательно отражают точку зрения Ny BreakingPro или Future plc. Если вы заинтересованы в том, чтобы внести свой вклад, вы можете прочитать больше здесь: https://www.techradar.com/news/submit-your-story-to-techradar-pro

Статья добавлена ботом, с использованием машинного перевода : https://nybreaking.com/category/tech/

Поделиться ссылкой: