Предвзятые и галлюцинаторные модели ИИ могут давать несправедливые результаты

«Напишите мне код для игры в охоту за сокровищами». «Перепейте «Gangnam Style» группы Psy в стиле Адель». «Создайте фотореалистичное видео крупным планом двух пиратских кораблей, сражающихся друг с другом, плывущих в чашку кофе». Даже последнее предложение не является преувеличением — лучшие современные инструменты ИИ могут создать все это и даже больше за считанные минуты, делая ИИ похожей на настоящую форму современной магии.
Конечно, мы знаем, что это не магия. Огромный объем работы, инструкций и информации вкладывается в модели, которые питают GenAI и производят его результаты. Системы ИИ необходимо обучать для изучения закономерностей из данных: GPT-3, базовая модель ChatGPT, была обучена на 45 ТБ данных Common Crawl, что эквивалентно примерно 45 миллионам 100-страничных PDF-документов. Так же, как мы, люди, учимся на собственном опыте, обучение помогает моделям ИИ лучше понимать и обрабатывать информацию. Только тогда они могут делать точные прогнозы, выполнять важные задачи и совершенствоваться со временем. Это означает, что качество информации, которую мы вводим в наши инструменты, имеет решающее значение. Так как же мы можем гарантировать, что мы поощряем качественные данные для создания практичных, успешных моделей ИИ? Давайте посмотрим. Розанна Кинкейд-Смит
Навигация по социальным ссылкам
Главный операционный директор Northern Data Group.
Риски плохих данных
Данные хорошего качества точны, актуальны, полны, разнообразны и беспристрастны. Это основа эффективного принятия решений, надежных операционных процессов и, в данном случае, ценных результатов ИИ. Тем не менее, поддержание хорошего качества данных является сложной задачей. Опрос, проведенный платформой данных, показал, что 91% специалистов говорят, что качество данных влияет на их организацию, но только 23% называют хорошее качество данных частью своей организационной этики.
Плохие данные также часто содержат ограниченную и неполную информацию, которая неточно отражает более широкий мир. Возникающие в результате предубеждения могут повлиять на то, как данные собираются, анализируются и интерпретируются, что приводит к несправедливым или даже дискриминационным результатам. Когда в 2014 году Amazon создала автоматизированный инструмент найма, чтобы ускорить процесс найма, команда разработчиков программного обеспечения предоставила ему данные о существующем пуле компании, состоящем в основном из мужчин-инженеров-программистов. Проект был закрыт всего через год, когда стало очевидно, что инструмент систематически дискриминирует женщин-кандидатов. Другой пример — ныне отмененный чат-бот Tay от Microsoft, который стал печально известен тем, что делал оскорбительные комментарии в социальных сетях из-за плохих данных, на которых он был обучен. Возвращаясь к ИИ, беспорядочные или предвзятые данные могут иметь такое же катастрофическое влияние на производительность модели. Вводить беспорядочные или некачественные синтетические данные в модель ИИ и ожидать, что она предоставит четкие, применимые на практике идеи, бесполезно; это как разогревать в микроволновке тарелку спагетти с алфавитом и ожидать, что на выходе получится «Быстрая коричневая лиса прыгает через ленивую собаку». Поэтому готовность данных, состояние готовности и качество данных в организации, являются серьезным препятствием для преодоления. Правильное кормление модели ИИ
Исследования показывают, что когда дело доходит до стратегий ИИ глобальных компаний, только 13% считаются лидерами с точки зрения готовности данных. Между тем, 30% классифицируются как преследователи, 40% как последователи и тревожно большие 17% как отстающие. Эти цифры должны измениться, если данные должны способствовать успешным результатам ИИ во всем мире. Обеспечение хорошей готовности данных требует сбора всеобъемлющих и релевантных данных из надежных источников, их очистки для удаления ошибок и несоответствий, точной маркировки и стандартизации их форматов и масштабов. Самое главное, мы должны постоянно отслеживать и обновлять данные, чтобы поддерживать их качество.
Подпишитесь на рассылку новостей Ny Breaking и получайте ключевые новости, мнения, функции и советы, необходимые вашему бизнесу для успеха!
Для начала компаниям необходимо создать централизованный каталог данных, который объединяет данные из разрозненных репозиториев и бункеров в одном организованном месте. Затем им необходимо классифицировать и курировать эти данные, чтобы упростить поиск, использование и разметку контекстной деловой информации. Далее инженерам необходимо внедрить надежную структуру управления данными, которая включает регулярные оценки качества данных. Специалистам по данным необходимо постоянно обнаруживать и исправлять несоответствия, ошибки и пропущенные значения в наборах данных.
Наконец, отслеживание происхождения данных подразумевает разработку четкого понимания происхождения данных, этапов обработки и точек доступа. Это отслеживание обеспечивает прозрачность и подотчетность в случае плохого результата. И это становится особенно важным в свете растущих опасений по поводу конфиденциальности ИИ. Обеспечение честности и безопасности данных
Сегодня персональные поиски ИИ быстро становятся новым конфиденциальным поиском Google. Но пользователи никогда не доверят им личную информацию, если будут знать, что она будет передана или продана. Согласно исследованию Cisco, 60% потребителей обеспокоены тем, как организации используют их персональные данные для ИИ, в то время как почти две трети (65%) уже потеряли часть доверия к организациям в результате использования ими ИИ. Так что, оставив в стороне правовые проблемы, мы все несем этическую и репутационную ответственность за обеспечение полной конфиденциальности данных при создании и использовании технологии ИИ.
Конфиденциальность означает, что обычные люди, взаимодействующие с инструментами и системами на базе ИИ — от пациентов медицинских учреждений до онлайн-покупателей — имеют контроль над своими персональными данными и могут расслабиться, зная, что они используются ответственно. Для этого компании должны работать в соответствии с концепцией «конфиденциальности по замыслу», когда их технология собирает только строго необходимые данные, надежно хранит их и прозрачно использует их.
Хорошим вариантом является анонимизация всех собранных данных. Таким образом, вы можете повторно использовать их в дальнейшем обучении модели ИИ, не ставя под угрозу конфиденциальность клиентов. А когда эти данные вам больше не понадобятся, вы можете удалить их, чтобы исключить риск будущих нарушений. Это звучит просто, но это часто упускаемый из виду шаг, который может избавить вас от значительного стресса, репутационного ущерба и даже нормативных штрафов. Суверенность данных прежде всего
Соблюдение нормативных требований, конечно же, имеет первостепенное значение для любой организации. И резидентство данных становится все более важным во всем мире. Например, в Европе GDPR гласит, что данные граждан ЕС должны находиться в Европейской экономической зоне. Это означает, что вам или вашему партнеру по облачным технологиям понадобятся центры обработки данных в пределах региона. Если вы перенесете данные куда-либо еще, вы рискуете нарушить закон. Резидентство данных уже является приоритетом как для регулирующих органов, так и для пользователей, и оно будет только подвергаться более пристальному вниманию по мере того, как все больше правил будут внедряться по всему миру.
Для предприятий соответствие означает либо покупку хранилищ данных в определенных местах напрямую, либо работу со специализированным поставщиком, который предлагает центры обработки данных в стратегических местах. Просто спросите Всемирный экономический форум, который утверждает, что «основа суверенного ИИ — это надежная цифровая инфраструктура». Проще говоря, центры обработки данных с высокопроизводительными вычислительными возможностями, работающие в соответствии с политиками, которые гарантируют, что сгенерированные данные хранятся и обрабатываются локально, являются основой для эффективной, соответствующей требованиям разработки и развертывания технологий ИИ по всему миру. Это не совсем магия, но результаты могут быть столь же впечатляющими. Мы предоставляем обзор лучших чат-ботов ИИ для предприятий.
Эта статья была подготовлена в рамках канала Expert Insights Ny BreakingPro, где мы представляем лучшие и самые яркие умы в технологическом секторе сегодня. Мнения, высказанные здесь, принадлежат автору и не обязательно отражают точку зрения Ny BreakingPro или Future plc. Если вы заинтересованы в содействии, вы можете прочитать больше здесь: https://www.techradar.com/news/submit-your-story-to-techradar-pro

Статья добавлена ботом, с использованием машинного перевода : https://nybreaking.com/category/tech/

Поделиться ссылкой: