Относительно кратко о суверенных и не только проблемах больших языковых моделей (псевдо "ИИ") и их владельцевАвтор: Zanuda. Написано специально для aftershock.news
Введение.
Я не работаю конкретно в этой сфере, но имею большой опыт в смежных, граничных.
От генерации (с банальных цепей Маркова) и распознования контента, до программирования, прямого анализа информации и вот это вот всё.
Решил поделиться своими мыслями с читателями АШ.
Кто-то возлагает на "ИИ" большие надежды, у кого-то большие страхи. Истина, на мой взгляд, как всегда посередине. Ибо еще древними сказано - ты то, что ты ешь. Также, и "ИИ" тоже - то, что он съел и то, как он это переварил.
Дочитают немногие. Хайпа нет. Чепчиков тоже. Но вдруг прочтёт кто-то из ЛПР и немного задумается... Хотя бы вынесу тему в публичное поле. Ведь как известно, АШ читает сам ВВП, а пишет на него сам ДАМ ) Шутка. Но в каждой шутке... Да и куча мыслей, высказанных ранее на АШе потом озвучивалась пусть даже тем же Володиным и прочими властьимущими.
Систематизация.
Для упрощения понимания непричастным читателем предлагаю внутренне разделить всю совокупность "ИИ" на генеративные и аналитические/прогностические. Хотя генеративные тоже по сути выдают свой "прогноз вероятного" (как на взгляд ИИ выглядит котик, которого хочет увидеть Вася).
А также по направленности результата работы "думателя" на внешний и внутренний (просто как подмножество генеративных/прогностических). Подразумевается свободный или же ограниченный доступ к результатам "думанья".
Результаты на выходе "ИИ" зависят от ряда факторов, но в первую очередь от
- алгоритма получения матрицы "внутренних данных" из датасета (ключевое звено - программист/архитектор/математик)
- входящего датасета (ключевое звено - источник информации)
- непосредственно запроса (правильно описать желаемый результат)
1) Генеративные (обычно сейчас ВНЕ-направленные).
То, что дается на откуп обывателю. Всякие чатЖПТ, генераторы котиков, курсовых, некоторые онлайн-переводчики и т.п.
В данном случае точность получаемого результата НЕ критична. Цена ошибки в принятом решении (что сгенерить) - не критична.
Если у котика будет 5 полосок, а не 7 - владельцам ИИ пофиг, как и обывателю. Даже 3 руки и 8 пальцев не критичны. Если дипфейк не совсем верно отразил веснушки на жопе скарлы йухенсон в фильме ХХХ - тоже не беда.
Дают возможность в некоторой мере заработать самим "внешним" пользователям.
Заработать время или деньги.
Деньги зарабатывают уверенные прошаренные программисты, художники, писатели всяких курсовых и проч., способные внятно сформулировать свой запрос к системе.
Время экономят менее прошаренные люди, получая на выходе прикольные картинки и псевдонаучную дребедень (которая прокатывает, а большего и не надо).
Это как молоток, которым можно гвоздь для картины забить, а можно себе палец попортить. У кого руки прямые - тому эти "ИИ" в помощь. У кого кривые - ну такова селяви.
Но есть нюанс. Молоток тут сам по себе зависит от пользователя (его умения формулировать). Он трансформируется под каждую задачу. Иногда в микроскоп, иногда в блюдечко.
Такие системы учатся на внешних источниках информации.
2) Прогностические (внутрь-направленные)
Это всевозможные обученные анализаторы данных, работающие не на "Васянов", а на капитал и спецуру всех мастей. Результат их деятельности (от срезов накопленных данных по выборке до прямого прогноза) видят редкие люди.
Всякие анализаторы биржевых индексов, роботы-торговцы, системы анализа с предлагаемыми ВЫВОДАМИ. Уверен, что у каких-нибудь синк-танков есть не только анализаторы информации, но и прогностические модули. Такие системы учатся (должны) на внутренних источниках. На внешних их обучать нельзя и просто опасно. Тут нужны только 100% достоверные и проверенные данные в датасете обучения.
Потому, что криво расчитанный мост - это не котик с 5 лапами... Равно как и неправильно сделанные ставки на торгах...
У группы 1 количество пользователей - хоть всё население планеты. У группы 2 - только ребят с деньгами, для заработка еще большего количества денег/власти. Шум в основном идёт про п1, а зарабатывают владельцы имхо на п2. Владельцы 1 и 2 вполне могут быть одними людьми. Невозбраняется...
Принципиально и те и другие системы делают одно и тоже (на основе скормленного датасета выдают "что-то"). Просто первые выдают результат в простом и применимом массовым обывателем виде.
А вторые - чаще в применимом узким кругом людей, понимающих, что же им эта ИИ выплюнула.
На самом деле таких систем дофига. Начиная со всяких расчётов в КАДах. Просто обычно народ не воспринимает это за "ИИ".
Ну и даже одна формула (для расчёта чего-то), это по сути тоже датасет....
Можно еще разделить на неявно алгоритмические "нейронки" и явно алгоритмические (те же КАДы, для простоты понимания). Глобально сути это не изменит, имхо.
У обоих вариантов по сути на выходе результат некоего осмысления того, что УЖЕ содержится в чёрном ящике. Т.е. от обучающего датасета критически зависит результат.
Если датасет собирается по "публичным" общим данным - тут проблемы. Если по однозначно проверенным ранее (физ формулы например) - проблем намного меньше.
Простой и понятный пример первого варианта, набивший оскомину - чатжпт.
Пример второго - торговый бот для игры на бирже.
Принципиальная разница - в датасете, направленности результата (всем/единицам), цене ошибки.
Для варианта 1 датасет может собрать любой Васян, пустив краулер-бота по интернетам.
Для варианта 2 датасет хрен получишь. Это в например ДСП какой-то брокерской конторы, или кафедры, либо однозначно как-то иначе подтвержденные данные (учебник по механике хотя бы, или по сопромату, ну в обшем вы поняли, надеюсь) Датасет №2 - это данные предыдущих поколений серьезных ребят. Математиков, статистиков, физиков, химиков и т.д.
Это данные, подтвержденные экспериментально. Это очень важно.
Для датасета №1 таких требований НЕТ.
Ну а теперь переходим, собственно, к описанию проблем тех самых "ИИ"
Суверенные проблемы
1) Ограниченность датасета сегментом своих вассалов (в т.ч. именно поэтому, буржуи внедряют туземцам нужду писать туземные научные работы на английском языке!)
2) Ограниченность понятийного языкового аппарата (русского, английского, китайского...)
3) Ограниченность моделей/подходов в обучении кожанных мешков (то, как учат тех, кто создает эти ИИшечки и датасеты для них)
Суверенными я их назвал потому, что они для каждой глобальной группы свои и первично непреодолимые.
Вторично их пытаются преодолеть наши враги, переманивая ученых и толковых людей к себе, а также - принуждая (руками государственных по сути институтов) переводить свои мысли на буржуйский (тот самый пресловутый индекс цитирования в зарубежных сми - это как раз интерфейс для ИХ доступа к НАШИМ мозгам и образу мышления)
Общие проблемы
1) Качество публичных датасетов (будет усугубляться тем сильнее, чем больше данных будет произведено не людьми, а машинами)
2) Возможность опосредованного влияния на них
По пункту 1 всё понятно наверное итак. Чем больше уже нагерено ЧатЖПТ, тем неадекватнее будут результаты при последующем его дообучении на публичных данных.
По пункту 2 - можно принудительно генерить горы мусора, чтобы "свихнуть" этот псевдоИИ.
Можно даже ломануть вражеские сайты, и клоакингом (подменой) выдавать живым людям адекватный контент, а боту чатажпт - сгенерированный бред.
Я видел (изнутри), к чему привела предыдущая итерация использования более простых инструментов.
Чтобы было понятно, о чем речь, опишу кратко. В какой-то момент весь интернет был засран "дорвеями". Большинство из вас помнит, как это выглядело. Вы что-то ищете, вас отправляет на страницу с текстом, который похож на человеческий, но суть ускальзает. Это была первая итерация.
Вторая пошла, когда генераторы дорвеев начали в качестве своего "датасета" использовать страницы, сгенерированные самими же собой ранее. Тексты стали совсем бредовыми.
Так вот - это "сеошники" обдуряли мозги поисковых систем. С генеративными ИИ на публичных датасетах можно сделать тоже самое. Им можно скормить дерьма. Более того, это однозначно рано или поздно случится. Поэтому вражеские (как и наши) прогностические системы будут оставаться закрытыми и работать на ограниченных, "отборных" датасетах (ну или у них перегорят предохранители).
Я уже очень давно на АШе писал, что у нас проблемы по части выводов со стороны иностранного "ИИ", т.к. учить некоторые из ИИ будут по западным источникам информации, в т.ч. по их вместоСМИ (где РФ - исчадие ада). Предсказуемо, их ИИшечки обучатся тому, что нас надо уничтожить. Даже если у архитектора такой задумки и не будет.
Покуда там рулят последователи бжезинских с затуманенным ненавистью разумом - угрозы нам чисто формальные (пусть даже и явные). Выводы у них будут некорректные. Они попадают в ловушку своих же нарративов (самовнушений).
Ну т.е. они направлены то будут однозначно в одну сторону (уничтожить русских), но с учетом одиозности задающих тон политиков - на выходе получится не конкретная рекомендация как нас мочить, а чушь. Что радует. Поэтому приход самых дебильных дебилов (пусть даже и агрессивных, главное - чтобы не адекватных действительности) - нам на руку в данном вопросе. Они сами будут сбивать ИИ-мозг своему виртуальному помощнику. Если Трумп от популизма перейдет к адекватности - беда... (нам).
Полагаю, санкционный подход нечто такое околоИИшное им и подсказало. Просто обучено оно было через жопу. Результат мы видим.
Также, с учетом разномасштабности рунета и en-интернета тут у нас просто нет механик защиты от обучения на всеобщей информации (от выводов ИИ на паблик-данных) от слова совсем. Только ограничивать источники данных. Особенно исходя из того, что обучение врядли будет совсем уж "свободным" (сбор данных и информации со "всех" доступных ресурсов).
Вероятно, первичное обучение пойдет по всяким одиозным ресурсам типа CNN/RAND и т.п., дальнейшие же итерации будут основываться на первичных построениях из начального набора для обучения. Чисто в силу масштабности.
Но зато наша информация, по которой надо учить наших "ИИдетей" - чище. Нам проще будет сделать не просто выводы, а ПРАВИЛЬНЫЕ выводы.
За врагом - масштабность (но она же и ловушка). За нами - более корректные входные данные. Меньше дерьма на входе - лучше результат на выходе. Не потому ли наше ВПР по ряду вопросов раз за разом кладёт на лопатки их "мыслителей"? :)
Оба фактора могут вести к проблемам на выводе.
Ограниченность базы ведет к уменьшению вариативности выводов
Ограниченность достоверной информации ведет у уменьшению достоверности выводов
Ну и напоследок, про открытые генеративные модели с точки зрения вреда простым Васям.
Проблем НАМ (простым людям) это всё принесет очень много (уже приносит)
Имхо больше, чем прибыли "им". Искать информацию становится всё труднее, я уж не говорю про то, что кучу криворуких выкинут на мороз. Дальше будет хуже.
Но суть давно описана капиталистами - национализация убытков (размазывание проблем по простым людям) и приватизация прибылей (профит от использования - малой (относительно пострадавших)группе интересантов). Т.е. прибыль - их. А головная боль - наша.
Им пофиг, что Вася не может от чат бота получить адекватное решение своей проблемы
Покуда Вася несёт сервису деньги.
Это всем нам давно видно по "техподдержке" опсосов, провайдеров, банков и проч. Навнедряли говна на нашу голову, но им то наплевать, броблемы не у них а у нас.
Как следствие, информация глобально будет далее фрагментироваться. Чтобы небыло возможности засирать адекватные данные, и чтобы не предоставлять их врагам.
Однозначно, нужно закрывать и секретить результаты исследований русского мира. Отрубать к хренам требования к публикациям в зарубежных изданиях (и головы тем, кто принуждает наших ученых это делать, ставя в зависимость карьеру от зарубежных ИЦ). Вообще отрубать. За публикацию в "сайнс" надо не премию давать, а срок.
Потому что сейчас по сути любой Ганс или Джон могут использовать НАШИ наработки. Да еще и переведенные в удобный ему вид. Нам оно надо? Мы сами отдаем в руки врагам/соперникам наши стратегические козыри (образ мышления, школу).
Глобализация мира закончилась, началась фрагментация. Свой фрагмент нужно держать
1) В чистоте (от мусорной информации, портящей выводы "ИИшечки"
2) В недоступности вражеским ИИшечкам. Т.к. это примерно как доступная энергия. Поставлять врагам даже не нефть, а уже готовый бензин (обработанные мысли, выводы наших ученых). Бесплатно.
https://aftershock.news/?q=node/1443247 |