PaLM — Википедия

PaLM (англ. Pathways Language Model) — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI[1]. Исследователи также создали версии модели PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба[2].

PaLM способен выполнять широкий спектр задач, включая логические рассуждения, арифметические рассуждения, объяснение шуток, генерацию кода и перевод текстов[2][3][4][5]. В сочетании с подсказками по цепочке рассуждений PaLM достигла значительно более высокой производительности при работе с наборами данных, требующими логических выводов в несколько этапов, таких как текстовые задачи и логические вопросы[1][2].

Впервые об этой модели было объявлено в апреле 2022 года, и она оставалась закрытой до марта 2023 года, когда Google запустил API для работы с PaLM и другими технологиями[6]. Сообщалось, что сначала API будет доступен для ограниченного числа разработчиков, которые присоединятся к списку ожидания, прежде чем он будет открыт для широкой публики[7].

Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM, которая тонко настроена на медицинские данные и превосходит предыдущие модели в тестах где нужно отвечать на медицинские вопросы[8][9]. Med-PaLM была первой моделью, которая получила проходной балл по вопросам медицинского лицензирования в США, и в дополнение к точным ответам как на вопросы с множественным выбором, так и на открытые вопросы, она также предоставляет аргументы и может оценивать свои собственные ответы[10].

Google также расширил PaLM с помощью ViT[англ.], чтобы создать PaLM-E, современную языковую модель со зрением, которую можно использовать в робототехнике[11][12]. Модель может соревновательно выполнять задачи по робототехнике без необходимости переобучения или тонкой настройки[13].

Обучение[править | править код]

PaLM предварительно обучена на высококачественном корпусе из 780 миллиардов токенов, которые включают в себя различные задачи на естественном языке и варианты использования. Этот набор данных включает отфильтрованные веб-страницы, книги, статьи в Википедии, новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub, и разговоры в социальных сетях[1][2]. Она основана на наборе данных, используемом для обучения модели Google LaMDA[2]. Часть набора данных, посвященная разговорам в социальных сетях, составляет 50 % корпуса, что помогает модели в её диалоговых возможностях[2].

PaLM 540B была обучена на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенными к 768 хостам, подключённым с использованием комбинации модели и параллелизма данных, что является крупнейшей конфигурацией TPU, описанной на сегодняшний день[2][14]. Это позволило провести эффективное обучение в масштабе с использованием 6 144 чипов, что стало рекордом максимальной эффективности обучения, достигнутой для LLM в этом масштабе с использованием аппаратных FLOP на 57,8 %[3].

Примечания[править | править код]

  1. 1 2 3 Narang; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com. Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
  2. 1 2 3 4 5 6 7 Chowdhery, Aakanksha (2022). "PaLM: Scaling Language Modeling with Pathways". doi:10.48550/arXiv.2204.02311. {{cite journal}}: Cite journal требует |journal= (справка)
  3. 1 2 Anadiotis. Google sets the bar for AI language models with PaLM. VentureBeat (12 апреля 2022). Дата обращения: 17 марта 2023. Архивировано 17 марта 2023 года.
  4. Bastian. Google PaLM: Giant language AI can explain jokes. THE DECODER (5 апреля 2022). Дата обращения: 17 марта 2023. Архивировано 17 марта 2023 года.
  5. Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) | Seeking Alpha (англ.). seekingalpha.com (12 декабря 2022). Дата обращения: 17 марта 2023. Архивировано 17 марта 2023 года.
  6. Vincent. Google opens up its AI language model PaLM to challenge OpenAI and GPT-3. The Verge (14 марта 2023). Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
  7. Huffman; Woodward, Josh PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (англ.). Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
  8. Singhal, Karan (2022). "Large Language Models Encode Clinical Knowledge". doi:10.48550/arXiv.2212.13138. {{cite journal}}: Cite journal требует |journal= (справка)
  9. MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor. The Medical Futurist (17 января 2023). Дата обращения: 17 марта 2023. Архивировано 17 марта 2023 года.
  10. Matias; Corrado, Greg Our latest health AI research updates (амер. англ.). Google (14 марта 2023). Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
  11. Driess, Danny (2023). "PaLM-E: An Embodied Multimodal Language Model". doi:10.48550/arXiv.2303.03378. {{cite journal}}: Cite journal требует |journal= (справка)
  12. Driess; Florence, Pete PaLM-E: An embodied multimodal language model (англ.). ai.googleblog.com. Дата обращения: 17 марта 2023. Архивировано 20 марта 2023 года.
  13. Benj Edwards. Google’s PaLM-E is a generalist robot brain that takes commands (амер. англ.). Ars Technica (7 марта 2023). Дата обращения: 11 марта 2023. Архивировано 11 марта 2023 года.
  14. An empirical analysis of compute-optimal large language model training (англ.). www.deepmind.com. Дата обращения: 17 марта 2023. Архивировано 26 марта 2023 года.