Вчера вечером листал Telegram и наткнулся на пост в канале midov_channel (пост 775). У Ислама обсуждается пост в reddit в котором активно дискутируют, что 211 тысяч звёзд у репозитория — это «Fake stars, боты накручивают» .
Активно использую последнию неделю OpenClaw , имею своё мнение, и понимаю почему такой вопрос возникает: 211 тысяч звёзд — это много. Конечно, когда видишь такие цифры, первая мысль — «а точно ли это настоящие люди?»
У меня профессиональная деформация - доверяй, но проверяй. Всё таки 15 лет развивал департаменты Data и аналитики в L'Oreal. Это также трансформировалось в текущий мой бизнес AYGA Data & AI, где мы, с агентамиработаю в формате AI-first компании, привыкли к другому подходу — не спорить, а проверять. Есть гипотеза — есть данные. Данные либо подтверждают, либо опровергают.
Собственно, поэтому вчера дал своему агенту Gubin задачу: собрать все 211 тысяч профилей stargazers репозитория и провести forensic-анализ. Не выборку, не 1% — все до единого.
Через полтора часа Агент Губин прислал мне в телеграмм презентация из 14 слайдов. Дальше — разбор каждого из листа презентации.

Прежде чем делать выводы, нужна методология. Без неё любой анализ — это мнение. Наша с Агентом методология выглядит так:
Сбор данных. 10 OAuth tokens аккаунтов github (они уже использовались ранее для разных аналитических задач) для параллельного обращения к GitHub API. GraphQL batch enrichment — по 100 профилей за один запрос, суммарная пропускная способность 50 тысяч запросов в час. Это позволило пройти все 211 тысяч профилей за 45 минут.
Обогащение. Каждый профиль обогащён по 25 параметрам: bio, количество публичных репозиториев, число followers и following, company, location, email, hireable-статус, дата создания аккаунта, дата последнего обновления, и так далее. Не просто «есть аккаунт / нет аккаунта», а полная карточка.
Хранение и анализ. Всё загружено в Supabase Postgres. SQL-анализ — агрегации, группировки, фильтрации, cross-табуляции. Никаких ML-моделей, никаких нейросетей для классификации — чистый SQL. Оверенжинеринг, для данной простой задачи, точно не нужен.
Покрытие. 207 411 из 211 055 профилей обогащены полными данными. Это 98.3%. Оставшиеся 1.7% — удалённые или заблокированные аккаунты, которые GitHub API не отдаёт.
Тайминги. Сбор и обогащение ~45 минут. SQL-анализ ~15 минут. Генерация презентации в Slidev— ~30 минут (здесь пришлось вмешаться Агенту Gubin: агент создающий презентацию пару раз ошибся в оформлении слайдов, и Gubin давал комментарии для правки) Итого — полтора часа от моего сообщения до готового PDF.
Gubin сделал это автономно. Я поставил задачу, описал что нужно — получил результат. Аналитическая часть — целиком его работа. Я финально, только проверил выводы.
На слайде методологии это выглядит как pipeline: GitHub REST API → GraphQL Enrichment → Supabase Postgres → Analysis. Три метрики наверху: 10 OAuth tokens, 50K req/hour, 87 дней данных.
Прежде чем погружаться в детали, общая картина по собранным профилям:
211K stargazers всего
207K обогащённых профилей (98%)
180K имеют хотя бы один публичный репозиторий
148K имеют хотя бы одного follower
65K с заполненным bio
44K с указанной компанией
24K отмечены как hireable (активно ищут работу)
23K с указанным email
На слайде эти цифры разложены по цветным карточкам — каждая метрика на своём месте, как dashboard. (все форматирование, как будут выглядеть слайды - все делал Агент Презентер, несколько дней назад он учился около 2 часов делать презентации в цикле, с комментариями от Агнента Gubin).
Что здесь важно: 180 тысяч из 207 тысяч имеют собственные репозитории. Это 87%. Бот-фермы не создают репозитории — это лишняя работа, которая ничего не даёт для накрутки. 148 тысяч имеют followers — тоже не характерно для ботов.
Уже на этом уровне данные не выглядят как бот-атака. Но это только начало.
Это, пожалуй, тот слайд, на котором вопрос «накрутка или нет» закрывается для меня на 80%.
77% аккаунтов, поставивших звезду, были созданы 3 и более лет назад.
На слайде — гистограмма по годам создания аккаунтов. Распределение равномерное, от 2008 до 2026. Нет резкого пика в последних годах. Плавный рост от 917 аккаунтов в 2008 году, через максимум в районе 2015-2017 (13-15 тысяч в год), и спад к 2026 (4 745 - год только начался). Цветовая разбивка: тёмно-синий для 2008-2011, средний синий для 2012-2023, голубой для 2024-2026.
Для контекста: бот-фермы работают на свежих аккаунтах. Стандартный паттерн — массовая регистрация за несколько дней до накрутки. Если бы 211K звёзд были накручены, мы бы увидели концентрацию в 2025-2026 годах. Вместо этого — равномерное распределение за 18 лет.
Подделать такое — значит создать 160 тысяч аккаунтов в 2020 году и ждать до 2026-го. Или купить 160 тысяч «выдержанных» аккаунтов на "чёрном рынке". Это не то что дорого — это за гранью разумного для проекта любого масштаба (если конечно Питер - автор OpenClaw все года не занимался накрутками и не скопил огромный пул аккаунтов).
Первая звезда — 24 ноября 2025 года. Последняя в нашей выборке — 19 февраля 2026. Всего 87 дней.
На слайде — столбчатая диаграмма по дням. Пик — 26 января: 25 234 звезды за один день. Следующий день — 24 792. Потом — постепенный спад: 17 625, по 15K, 13K, 10K, и так до стабильных нескольких сотен в день. Кривая затухания — плавная, без рывков.
Это классический вирусный паттерн — spike плюс long tail. Именно так выглядит попадание на главную страницу Hacker News, массовый ретвит, обсуждение на Reddit. Резкий пик внимания, затем постепенное угасание по мере того, как новость спускается в ленте.
Пик совпадает с запуском DeepSeek — событием, которое привлекло к open-source AI колоссальное внимание по всему миру. OpenClaw как инфраструктурный проект для AI-агентов, похоже тоже попал в волну этого интереса.
Если бы это была накрутка, картина выглядела бы иначе. Бот-фермы дают либо плоскую линию на X тысяч звёзд в день без затухания, либо резкое включение-выключение — «ступенька» на графике. Здесь — органический spike с естественным затуханием.
Здесь мы определяем «подозрительный» профиль. Три условия одновременно: нет bio, нет репозиториев, нет followers. Только если все три — пусто, профиль считается подозрительным.
На слайде слева — горизонтальные прогресс-бары:
Нет bio: 68% — оранжевая полоса
Нет followers: 28% — оранжевая полоса
Нет repos: 12% — жёлтая полоса
Все три пусто: 8% — красная полоса
Справа — два блока с выводами:
Зелёный блок: «92% — реальные профили. Имеют repos, followers или bio.»
Красный блок: «8% — подозрительные. 17 666 полностью пустых профилей.»
68% без bio — это нормально для GitHub. Я сам знаю разработчиков, которые пишут код каждый день, но bio не заполняли и не собираются. Считаю, что это не маркер бота — это маркер человека, которому до профиля "руки не дошли".
12% без репозиториев — низкий показатель. 28% без followers — тоже в пределах нормы. Многие аккаунты на GitHub существуют для "потребления", а не для "производства" — люди ставят звёзды, форкают интересные проекты, но не публикуют свой код.
Итого: 8% полностью пустых. 17 666 аккаунтов. Это может быть как ботами, так и людьми, которые создали аккаунт, поставили звезду, и больше ничего не делали. Для проекта с 211K звёзд 8% — мне кажется, в пределах статистической нормы.
Этот слайд показывает, сколько «влияния» имеют stargazers. Визуально — пирамида из восьми горизонтальных сегментов, от фиолетового наверху до серого внизу.
Распределение:
59 454 — 0 followers (28.7%, основание пирамиды)
85 330 — 1-9 followers (41.1%)
45 613 — 10-49 followers (22.0%)
8 984 — 50-99 followers (4.3%)
6 798 — 100-499 followers (3.3%)
698 — 500-999 followers (0.3%)
510 — 1 000-9 999 followers (0.25%)
18 — 10 000+ followers (0.01%)
Это классический long-tail. Много людей с малым количеством подписчиков, мало людей с большим — так выглядит любое естественное сообщество.
7 908 аккаунтов с 100+ followers. Это не боты — это разработчики, у которых есть реальная аудитория. Люди, которые публикуют код, пишут статьи, участвуют в сообществе. 18 аккаунтов с 10K+ followers — это заметные фигуры, публичные люди в tech.
При накрутке ботами мы бы видели 90-95% аккаунтов с нулём followers. Здесь — 28.7%. Остальные 71.3% имеют хотя бы одного подписчика. Это распределение живого сообщества.
Два столбца на слайде. Слева — компании, справа — география.
Компании, которые stargazers указали в своих профилях:
Microsoft — 319
Tencent — 245
ByteDance — 201
Alibaba — 173
Tsinghua University — 169
Google — 120
Amazon — 97
Baidu — 82
Отдельно — университеты: Tsinghua (169), Zhejiang (164), Peking University (141). Это не просто один из «китайских вузов» — это три ведущих технических университета Китая, аналоги MIT и Stanford.
География (горизонтальные бары, от красного к синему):
Китай — 2 216
Пекин — 2 027
Шанхай — 1 574
Индия — 1 165
Германия — 1 029
Сингапур — 711
Лондон — 639
Плюс Бразилия (552), Тайвань (551), Франция (513). Более 30 стран суммарно.
Концентрация Китая (~30%) — это то, что может вызвать вопросы. Но если посмотреть на контекст: AI/ML-сообщество в Китае — одно из крупнейших в мире. Tencent, ByteDance, Alibaba, Baidu — все эти компании активно работают с open-source AI-инструментами. Их инженеры — реальные люди, которые используют GitHub ежедневно.
Подделать привязку к Microsoft или Google в профиле — можно. Написать «Microsoft» в поле company может любой. Но подделать 319 профилей с согласованной историей — репозиториями, followers, контрибуциями — это задача совсем другого масштаба. И непонятно, зачем.
Этот слайд я считаю ключевым, поэтому остановлюсь на нём подробнее. Он показывает не просто возраст аккаунтов, а возраст аккаунтов на момент "постановки" звезды.
На слайде — гистограмма с пятью столбцами, от красного (молодые) к зелёному (зрелые):
Менее 30 дней: 2.2% (4 556 аккаунтов) — красный
1-6 месяцев: 4.0% (8 221) — оранжевый
6-12 месяцев: 4.1% (8 446) — жёлтый
1-3 года: 12.9% (26 757) — голубой
3+ лет: 76.9% (159 425) — зелёный, доминирует
Внизу — зелёный блок с выводом: «159 425 аккаунтов были старше 3 лет на момент звезды. Боты используют свежие аккаунты. 77% зрелых аккаунтов — ключевой индикатор органики.»
Почему это так важно? Потому что возраст аккаунта — это то, что нельзя подделать задним числом. GitHub не позволяет менять дату регистрации. Единственный способ получить 160 тысяч аккаунтов старше 3 лет — либо создать их в 2022 году и ждать, либо купить на "чёрном рынке".
Стоимость одного «выдержанного» аккаунта на чёрном рынке — от $5 до $50 в зависимости от возраста и активности (на РФ площадках чуть дешевле). 160 тысяч аккаунтов × $10 = $1.6 миллиона. За звёзды на GitHub. Это не просто дорого — это экономически не целесообразно (хотя, в случае с Питером - после его хантинга в OpenAI отобъется с первой зарплаты :) ).
2.2% аккаунтов моложе 30 дней — это 4 556 человек. Часть из них — новые пользователи GitHub, которые потенцильано пришли на волне хайпа. Вирусные события всегда привлекают новичков. 2.2% — это низкий показатель, не указывающий на накрутку.
Слайд — 2×4 grid.Каждая карточка — один индикатор подлинности:
77% аккаунтов старше 3 лет — зрелые аккаунты невозможно подделать в таком масштабе
Естественное long-tail распределение followers — совпадает с реальными паттернами GitHub
7 908 influencers с 100+ followers — реальные разработчики с аудиторией
Сотрудники Microsoft, Google, Tencent, ByteDance — крупнейшие tech-компании мира
65K bio, 23K email — "reach профили" с реальными данными
Классический вирусный spike — паттерн HN/Reddit/Twitter
24K hireable-разработчиков — люди, которые активно ищут работу
30+ стран — географическое разнообразие
Каждый из этих индикаторов по отдельности — аргумент. Все восемь вместе, как мне кажется, убедительная картина.
Честный анализ должен учитывать и контраргументы. На слайде — четыре оранжевых блока, каждый с вложенным тёмно-синим блоком-ответом:
17 666 (8%) полностью пустых профилей. Контраргумент: 8% — в пределах нормы для GitHub. Это обычное поведение, а не признак бота.
4 556 (2.2%) аккаунтов моложе 30 дней. Контраргумент: вирусные события привлекают новичков. Человек прочитал про OpenClaw, зарегистрировался на GitHub, поставил звезду. 2.2% — низкий показатель.
Концентрация Китая ~30%. Контраргумент: AI/ML — одно из главных направлений в китайском tech. Tencent, ByteDance, Alibaba, Baidu — это реальные компании с реальными инженерами. 30% — отражение структуры мирового AI-сообщества.
Пик 25K звёзд в день. Контраргумент: HN + Reddit + Twitter одновременно способны дать такие цифры. DeepSeek показал аналогичную динамику при запуске.
Я специально включил эти контраргументы, потому что анализ без них был бы неполным. Да, 8% пустых профилей существуют. Да, пик в 25K — это много. Но у каждого из этих фактов есть объяснение, не требующее гипотезы о накрутке.
90%+ органика. 5-10% подозрительных аккаунтов — в пределах статистической нормы для любого крупного проекта на GitHub.
Под этим: «77% аккаунтов старше 3 лет и присутствие сотрудников Microsoft, Google, Tencent — крайне сложно подделать.»
Последнее — важно. Это не отчёт, который нужно принимать на веру. Все данные собраны через публичный GitHub API. Любой может повторить этот анализ — API те же, профили те же, SQL-запросы воспроизводимы.
За полтора часа AI-агент собрал 211 тысяч профилей, обогатил их, проанализировал и сгенерировал презентацию. Без моего участия в аналитической части — я только поставил задачу и проверил результат.
Для меня это не про OpenClaw и не про звёзды. Это про то, как меняется работа с данными, когда у тебя есть автономный агент. Раньше такой анализ занял бы дни — настроить API, написать скрипты, загрузить в базу, написать запросы, оформить результат. Сейчас — полтора часа, и большая часть этого времени — ожидание, пока API отдаст данные. Лично я потратил больше времени на написание этой статьи (форматирование и и переписыванеи AI slop)
Я работаю с Data более 15 лет, с 2023 с AI решениями, и вижу, как AI-агенты меняют подход к анализу данных. Не заменяют аналитика — но убирают рутину. Человек ставит вопрос и оценивает ответ. Машина делает всё между этими этапами.
Андрей Ожигин — CEO Ayga.Tech.
Data & AI solutions, AI Adoption, Digital products.
Последние 15 лет был на руководящих позициях в L'Oréal, с конца 2023 годы активно изучаю и использую AI в рабочих и личных проектах. Преподователь в SIBE/Kingston РАНХиГС, Британской Высшей Школы Дизайна.
Образование: MBA SIBE/Kingston РАНХиГС, CDO программы Skoltech, Иннополис, ДВФУ.
Gubin — AI Agent (OpenClaw). Автономный сбор и анализ 211K профилей. Технический стек: 10 OAuth tokens, GraphQL batch enrichment, Postgres pipeline, Slidev для презентации. Модель: Claude Opus 4.6.
Gubin работает на платформе OpenClaw — это open-source фреймворк для автономных AI-агентов. Тот самый openclaw, звёзды которого мы анализировали. Определённая ирония в том, что продукт проверил сам себя — но данные объективны, SQL-запросы воспроизводимы, а исходные профили доступны через публичный API.
Источник


