The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Открыт код Jina Embedding, модели для векторного представления смысла текста

26.10.2023 11:38

Компания Jina открыла под лицензией Apache 2.0 модель машинного обучения для векторного представления текста - jina-embeddings-v2. Модель позволяет преобразовать произвольный текст, включающий до 8192 знаков, в небольшую последовательность вещественных чисел, образующих вектор, сопоставленный с исходным текстом и воспроизводящий его семантику (смысл). Jina Embedding стала первой открытой моделью машинного обучения, обладающей характеристиками, не уступающими проприетарной модели векторизации текста от проекта OpenAI (text-embedding-ada-002), также способной обрабатывать тексты, насчитывающие до 8192 токенов.

Расстояние между двумя сформированными векторами можно использовать для определения смысловой взаимосвязи исходных текстов. На практике сформированные векторы могут применяться для анализа похожести текстов, организации поиска близких по тематике материалов (ранжирование результатов по семантической близости), группировки текстов по смыслу, формирования рекомендаций (предложение списка похожих текстовых строк), выявления аномалий, определения плагиата и классификации тестов. В качестве примеров областей использования упоминается задействование модели для анализа юридических документов, для бизнес-аналитики, в медицинских исследованиях для обработки научных статей, в литературной критике, для разбора финансовых отчётов и для повышения качества обработки чат-ботами сложных вопросов.

Для загрузки доступны два варианта модели jina-embeddings (базовая - 0.27 ГБ и сокращённая - 0.07 ГБ), обученные на 400 миллионах пар текстовых последовательностей на английском языке, охватывающих различные области знаний. При обучении использовались последовательности, размером 512 токенов, которые были экстраполированы до размера 8192 при помощи метода ALiBi (Attention with Linear Biases).

Базовая модель включает в себя 137 млн параметров и рассчитана на использовании на стационарных системах с GPU. Сокращённая модель включает 33 млн. параметров, обеспечивает меньшую точность и нацелена на применение на мобильных устройствах и на системах с небольшим объёмом памяти. В ближайшее время также планируют опубликовать крупную модель, которая будет охватывать 435 млн параметров. В разработке также находится многоязычный вариант модели, который в настоящее время сосредоточен на поддержке немецкого и испанского языков. Отдельно подготовлен плагин для использования модели jina-embeddings через инструментарий LLM.

  1. Главная ссылка к новости (https://jina.ai/news/jina-ai-l...)
  2. OpenNews: Facebook открыл код библиотеки классификации текста fastText
  3. OpenNews: DeepMind представил систему машинного обучения для генерации кода по текстовому описанию задачи
  4. OpenNews: Открыт код системы машинного обучения для генерации реалистичных движений человека
  5. OpenNews: Facebook опубликовал звуковой кодек EnCodec, использующий машинное обучение
  6. OpenNews: Система машинного обучения Stable Diffusion адаптирована для синтеза музыки
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/59996-embedding
Ключевые слова: embedding, text, ai
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (49) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 12:26, 26/10/2023 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • –7 +/
     
  • 1.4, Аноним (4), 12:48, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Круто, а можно скормить текст этой новости? Что на выходе?
     
     
  • 2.6, Аноним (6), 12:50, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +3 +/
    на выходе будет 4739427419879182482756384539874569234
     
     
  • 3.9, Аноним (9), 12:55, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Не верю. Модель выводит не одно десятичное число, а вектор float32.
     
     
  • 4.14, Аноним (6), 13:02, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +4 +/
    да, это вектор, просто я весь вектор привел в int128.
     
     
  • 5.47, Аноним (47), 19:59, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    128 / 32 = 4. Ты хочешь сказать, что 4мя флоатами любой текст описывается?
     
     
  • 6.49, Аноним (49), 20:05, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    А доку открыть никак? Там 512-ти мерный вектор. Еще можно 1024-мерный. В зависимости от модели и заданных параметров.. Но речь про 512 флоатов по 4 байта.
     

  • 1.5, Аноним (5), 12:50, 26/10/2023 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • –11 +/
     

     ....ответы скрыты (2)

  • 1.7, Аноним (9), 12:51, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >под лицензией Apache 2.0

    В репозиториях нет файла лицензии.

     
     
  • 2.19, Аноним (19), 13:20, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Достаточно упоминания.
     

  • 1.11, 12yoexpert (ok), 12:56, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    > (базовая - 0.27 ГБ и сокращённая - 0.07 ГБ)

    а в петабайтах будет казаться ещё меньше! вам бы маркетологов на завод отправить

     
     
  • 2.17, Аноньимъ (ok), 13:11, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Базовая 270000 KB и сокращённая 70000 КБ.
    Можно на микроконтроллерах крутить.
     
     
  • 3.18, 12yoexpert (ok), 13:20, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    я для базовой 2319282339.84 бит насчитал, можно даже в столбик обработать, микроконтроллеры избыточны
     
     
  • 4.25, _hide_ (ok), 14:00, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Этот человек еще со школы не понимал шутку про 1,5 землекопа )))
     
     
  • 5.27, 12yoexpert (ok), 14:16, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • –3 +/
    так ты бы объяснил, а то мы все тупые
     
  • 5.53, Аноним (53), 05:27, 27/10/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Шутку про землекопа может понять тот, кто вырос на советских мультиках.
     

  • 1.20, Аноним (20), 13:24, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А смысл?
     
     
  • 2.23, Аноним (19), 13:35, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Смысл станет ясным к завершению проекта. Сейчас можно лишь предполагать, что результатом будет иск на $75 млн. https://www.cnews.ru/news/top/2023-10-23_muzykalnaya_otrasl_hochet
     
     
  • 3.24, Аноним (24), 13:49, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Почему на Гугл иск не подали, ведь у него в индексе весь интернет?
     
     
  • 4.36, Аноним (-), 16:01, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ты не понял смысл написанного. Иди и прочти новость 10 раз.
     
  • 3.35, Аноним (-), 16:00, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Иска не будет. они будут Свободный текст превращать в ветор.
     
  • 3.40, Аноним (40), 16:35, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Это ещё ничего. Вот когда кто-то догадается натренировать нейросетку на юридических и судебных материалах стран с прецедентным правом, и стоящую в США миллионы долларов работу целой оравы адвокатов и юристов будет делать с таким же качеством какой-нибудь LawyerGPT за два доллара, вот тогда будет эпичное веселье.
     
     
  • 4.42, Аноним (42), 17:26, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    лоеры научаться эксплуатировать несовершенства модели и будут обдирать всех пользователей оных как липки.
     
  • 4.55, Аноним (19), 11:43, 27/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Не думаю. Поиск в сети уже отравлен. ИИ уже в коллапсе.
     
  • 2.39, YetAnotherOnanym (ok), 16:15, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Например, к спамобойке прикрутить. Тогда админ задаёт некий общий смысл (например, "несите ваши денежки инвестировать вместе с Тинькофф"), а сабж накидывет парочку баллов в оценку, если смысл текста близок к заданному.
     
     
  • 3.62, Аноним (62), 04:29, 01/11/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Угадай сколько в этом тексте латинских символов?
    >неcитe вaши дeнeжки Nнвeстирoвaть вмeстe с 7иньк0фф
     
     
  • 4.63, YetAnotherOnanym (ok), 11:07, 01/11/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Делов-то, для каждой буквы кириллицы составить список омоглифов и перед обработкой проводить нормализацию текста.
     

  • 1.28, sena (ok), 14:21, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    И наоборот можно будет? Типа задал вектор 42, и оно тебе сгенерировало текст о смысле жизни. Добавил к вектору ещё 0.13 и оно модифицировало смысл в сторону бессмыслености жизни и т.п.
     
     
  • 2.34, Аноним (-), 15:57, 26/10/2023 Скрыто ботом-модератором     [к модератору]
  • –2 +/
     
  • 2.51, Cradle (?), 21:10, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    "Правитель наблюдает мир и знает,
    Что путь управления един.
    Но единое всегда превращается в двойственность явлений,
    А все явления имеют троичную структуру,
    В которой соединяется идеальное, материальное и реальное.
    А вот из троичности образуется множественность всех событий и предметов..."
    дао-де цзин, глава 42 (из 81)
     
  • 2.58, Твой сосед с вайфаем (?), 23:22, 27/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Ты только что изобрел ChatGPT, только циферки вводятся неявно.
     
  • 2.65, bjaka.max (?), 10:37, 24/11/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Тут интереснее скорее можно ли, взял другую сетку натренированную на русском языке, подсунул ей векторы полученные в английской и у тебя перевод? Не нужно тренировать отдельно сетку переводящую с монгольского на японский, а взял сетку японскую и сетку монгольскую и ага.
     

  • 1.29, Аноним (29), 14:23, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Не раскрыта тема размерности векторного пространства.
     
     
  • 2.32, Аноним (32), 15:48, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    768
     
     
  • 3.41, 48 (?), 17:22, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    1024
     
  • 2.46, Аноним (46), 19:40, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Речь не о тех векторах.
     

  • 1.38, Аноним (38), 16:13, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Не смысла, а поля интерпретаций из текста в текст. Хотя, в современной семантике смысл трактуется именно, как отображение одного текста в другой.
     
     
  • 2.43, Аноним (43), 18:18, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    А как работает смысл не относительно чего-то? И разве относительно чего-то мои чувства и ощущения?
     
     
  • 3.44, коньюктив ит (?), 18:49, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Ваши чувства и ощущения - это иллюзия порождаемая всего лишь несколькими тысячами (десятками тысяч в редких случаях) паттернов выстраиваемых в цепочки генератором псевдослучайных чисел.
     

  • 1.45, Аноним (45), 19:37, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Тексты для тренировки подбираются запатентованным образом или достаточно взять все существующие работы по схоластике, астрологии и марксизму-ленинизму?
     
     
  • 2.48, Аноним (47), 20:02, 26/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Предполагаю, что для отбора текстов использовалась другая LLM с текстовым запросом.
     
  • 2.60, Neon (??), 14:46, 30/10/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Да весь рекламный бред от маркетологов скормить бедному AI и посмотреть, что с ним будет.)))
     

  • 1.52, Аноним (52), 22:25, 26/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Векторный гипертекстовый фидонет всё ближе
     
     
  • 2.57, michael516 (?), 15:13, 27/10/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Шутка, понятная не только лишь всем
     

  • 1.54, test (??), 08:00, 27/10/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А есть ссылка на пример ? Текст + Картинка.
     
  • 1.56, Аноним (-), 12:22, 27/10/2023 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     
  • 1.64, Аноним (64), 16:26, 01/11/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    ЛСДУЗ и ЙФЯУ9 в ней сгенерили?
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру