Какие существуют крупнейшие архивы данных в интернете?

Наткнулся, что весь контент Reddit за всю историю бесплатно доступен.

20 лет общения сотен миллионов людей в «сердце интернета» - это всего 3.8 терабайт (только тексты).

Стало интересно, какие ещё есть мега-архивы:

1/ Common Crawl - слепок почти всего интернета. Больше 9.5 петабайт суммарно. петабайт = 1000 терабайт
https://commoncrawl.org

2/ Wikipedia - вся энциклопедия со всей историей правок, ~31 ТБ. Только текущие статьи - 25 ГБ.
https://dumps.wikimedia.org

3/ The Stack v2 - открытый код с GitHub, 67 ТБ, 600+ языков.
https://huggingface.co/datasets/bigcode/the-stack-v2

4/ LAION-5B - 5.8 млрд пар «картинка + описание», на этом росли генераторы изображений. https://laion.ai/blog/laion-5b/

5/ arXiv - архив научных статей целиком, ~1 ТБ текста.
https://info.arxiv.org/help/bulk_data.html

Знал только про arXiv, остальное для меня открытие.

Думаю, любая большая языковая модель, созданная с полного нуля, начиналась с этих массивов.

Оставлю ссылки для удобства, в том числе своего (и конечно же никогда не воспользуюсь 😁).

@midov_channel

GPT/ChatGPT/AI Central Александра Горного

708 публикаций на visbl.me

Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет

💬Discussion (2)

Ivan Rogovoy@Ivan_Rogoboy•Jun 29

Мне нравится архив русского независимого медиа: https://rima.media/
недавно Афишу там читал за 2000-е очень, конечно, неверонятно сейчас много там

Ваня@ikiwi•Jun 29

Все точно обучалось на Annas archive

Join discussion on TelegramComments are synced from Telegram

Какие существуют крупнейшие архивы данных в интернете?

💬Discussion (2)

Связанные темы

Читать далее

Клиенты Anthropic и OpenAI нашли миллионы долларов лишних списаний за токены

Экс-глава AI в Databricks придумал, как снизить энергозатраты в 1000 раз

Как скачать видео с YouTube с помощью Python?

Как защитить конфиденциальные данные при использовании нейросетей?

Alibaba показала модель для видеозвонков AI-агентам

Криптобиржа Coinbase перешла на китайские модели, потому что так дешевле

Какие существуют крупнейшие архивы данных в интернете?

💬Discussion (2)

Связанные темы

Читать далее

Клиенты Anthropic и OpenAI нашли миллионы долларов лишних списаний** **за токены

Экс-глава AI в Databricks придумал, как снизить энергозатраты в 1000 раз

Как скачать видео с YouTube с помощью Python?

Как защитить конфиденциальные данные при использовании нейросетей?

Alibaba показала модель для видеозвонков AI-агентам

Криптобиржа Coinbase перешла на китайские модели, потому что так дешевле

Клиенты Anthropic и OpenAI нашли миллионы долларов лишних списаний за токены