Качество данных: невидимый злодей машинного обучения

Каковы основные задачи современного инженера по машинному обучению? Кажется, это простой вопрос с простым ответом:
Создавайте модели машинного обучения и анализируйте данные.
На самом деле этот ответ часто не соответствует действительности.
Эффективное использование данных имеет важное значение для успешного современного бизнеса. Однако преобразование данных в ощутимые бизнес-результаты требует определенного пути. Его необходимо получить, безопасно распространить и проанализировать в рамках собственного цикла разработки.
Взрыв облачных вычислений в середине-конце 2000-х годов и внедрение машинного обучения предприятиями десять лет спустя эффективно определили начало и конец этого пути. К сожалению, компании часто сталкиваются с препятствиями на промежуточных этапах, связанными с качеством данных, которое обычно не находится в поле зрения большинства руководителей. Оливье Гордон
Навигация по социальным ссылкам
Консультант по решениям в Атакаме.
Как плохое качество данных влияет на бизнес
Низкое качество, непригодные для использования данные являются бременем для тех, кто находится в конце пути к данным. Это потребители данных, которые используют их для построения моделей и участия в других прибыльных видах деятельности.
Подпишитесь на информационный бюллетень Ny Breaking и получайте ключевые новости, мнения, характеристики и советы, необходимые вашему бизнесу для успеха!
Слишком часто специалистов по обработке данных нанимают для «создания моделей машинного обучения и анализа данных», но плохие данные мешают им это сделать. Организации тратят столько усилий и внимания на получение доступа к этим данным, но никто не думает проверять, можно ли использовать данные, входящие «в» модель. Если входные данные плохие, выходные модели и анализ тоже будут плохими.
Подсчитано, что ученые, работающие с данными, тратят от 60 до 80 процентов своего времени на очистку данных, чтобы результаты их проектов были надежными. Этот процесс очистки может включать в себя догадки о значении данных, выявление пробелов и может непреднамеренно удалить потенциально ценные данные из моделей. Результат разочаровывает и неэффективен, поскольку эти грязные данные мешают специалистам по данным выполнять ценную часть своей работы: решать бизнес-задачи.
Эти огромные, часто невидимые затраты замедляют реализацию проектов и снижают их результаты.
Проблема усугубляется, когда задачи очистки данных выполняются в повторяющихся хранилищах. Тот факт, что один человек заметил и устранил проблему в одном проекте, не означает, что он решил проблему для всех своих коллег и соответствующих проектов.
Даже если команда инженеров данных может выполнить крупномасштабную очистку, ее невозможно сделать сразу. Более того, они могут не до конца понимать контекст задачи и то, почему они ее выполняют. Влияние качества данных на машинное обучение
Чистые данные особенно важны для проектов машинного обучения. Будь то классификация или регрессия, контролируемое или неконтролируемое обучение, глубокие нейронные сети или когда модель ML поступает в новое производство, разработчикам необходимо постоянно проводить оценку на основе новых данных.
Важнейшей частью жизненного цикла машинного обучения является управление дрейфом данных, чтобы гарантировать, что модель остается эффективной и продолжает приносить бизнес-ценность. В конце концов, данные — это постоянно меняющийся ландшафт. Исходные системы могут объединиться после приобретения, может вступить в силу новое управление или может измениться коммерческий ландшафт.
Это означает, что предыдущие предположения о данных могут больше не выполняться. Хотя такие инструменты, как Databricks/MLFlow, AWS Sagemaker или Azure ML Studio, эффективно охватывают продвижение, тестирование и переобучение модели, они менее приспособлены для исследования того, какая часть данных изменилась, почему она изменилась, а затем устранения проблем, которые могут быть устранены. утомительно и отнимает много времени.
Управление данными предотвращает возникновение этих проблем в проектах машинного обучения, но речь идет не только о технических командах, создающих конвейеры и модели; это требует согласованности всего бизнеса. Примеры того, как это может возникнуть на практике, включают в себя ситуации, когда данные требуют бизнес-процесса, который кто-то должен утвердить, или когда нетехническое заинтересованное лицо из фронт-офиса делится своими знаниями на ранних этапах пути к данным. Препятствие в построении моделей ML
Включение бизнес-пользователей в качестве потребителей данных своей организации становится все более возможным с помощью ИИ. Обработка естественного языка позволяет нетехническим пользователям запрашивать данные и извлекать контекстную информацию.
Ожидаемый темп роста ИИ в период с 2023 по 2030 год составит 37 процентов. 72 процента руководителей считают ИИ самым важным преимуществом для бизнеса, а 20 процентов EBIT зрелых компаний, использующих ИИ, в будущем будут генерироваться с помощью ИИ.
Качество данных является основой ИИ. Это повышает производительность алгоритмов и позволяет им давать надежные прогнозы, рекомендации и классификации. Для 33 процентов компаний, сообщающих о провале проектов в области ИИ, причиной является низкое качество данных. Фактически, организации, которые уделяют особое внимание качеству данных, могут добиться большей эффективности ИИ повсюду.
Но качество данных — это не просто флажок, который нужно поставить галочкой. Организации, которые делают это неотъемлемой частью своей деятельности, могут достичь ощутимых бизнес-результатов, генерируя больше моделей машинного обучения в год и предоставляя более надежные, предсказуемые бизнес-результаты, обеспечивая уверенность в моделях. Как преодолеть барьеры качества данных
Качество данных не должно быть вопросом ожидания возникновения проблемы в производстве, а затем спешки с ее устранением. Данные должны постоянно проверяться, где бы они ни находились, на основе постоянно расширяющегося пула известных проблем. Все заинтересованные стороны должны вносить свой вклад, и все данные должны иметь четких, четко определенных владельцев данных. Поэтому, когда специалиста по данным спрашивают, чем он занимается, он может наконец сказать: создавать модели машинного обучения и анализировать данные. Мы перечисляем для вас лучшее облачное хранилище для бизнеса.
Эта статья была подготовлена в рамках канала Expert Insights Ny BreakingPro, где мы демонстрируем лучшие и самые яркие умы в технологическом секторе сегодня. Мнения, высказанные здесь, принадлежат автору и не обязательно отражают точку зрения Ny BreakingPro или Future plc. Если вы заинтересованы в том, чтобы внести свой вклад, вы можете прочитать больше здесь: https://www.techradar.com/news/submit-your-story-to-techradar-pro

Статья добавлена ботом, с использованием машинного перевода : https://nybreaking.com/category/tech/

Поделиться ссылкой: