23.08.2018, 01:00 | #1111 |
Гроссмейстер
Регистрация: 27.09.2017
Адрес: Москва
Сообщений: 4,142
Сказал(а) спасибо: 2,297
Поблагодарили 2,510 раз(а) в 1,635 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от svoitsl
странное дело, но графиков более адекватно отражающих рейтинг сети вроде и не существует
|
Пользователь сказал cпасибо: | Maratka (23.08.2018) |
23.08.2018, 01:37 | #1112 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
Цитата: Сообщение от svoitsl
странное дело, но графиков более адекватно отражающих рейтинг сети вроде и не существует
Вот опять же, с 792 версии по 930 вроде бы по графику больше 200 эло, а на деле там 30+/-15 в матче 1х1. Ну и что по графику можно сказать, если он за неделю умудряется накопить 200 эло погрешности? Да просто ничего. Посмотрел и забыл. Какой там он показывает рост или падение - вообще неважно, т.к. к реальному росту или падению отношение значения графика не имеет никакого. Он имел смысл, когда от сети к сети приросты были >> погрешностей, но сейчас, когда 2 сотни сетей дают десятки (в лучшем случае) эло, а на графике суммируются погрешности в 15 эло сотни раз... Он просто бессмысленнен, т.к. суммирование погрешностей перекрывает приросты или падения эло на порядок. Собственно, я уже упоминал, что если применять подобную методологию к стокфишу, то мы выясним, что с SF 9 он набрал сотни три эло. Да только на деле там не сотни три, а 43 выходит. Поэтому все графики эло стокфиша строятся от хорошо измеренных точек, а не суммой от предыдущего значения (например, вот здесь https://github.com/glinscott/fishtes...gression-Tests ) |
23.08.2018, 01:40 | #1113 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
А откуда такие погрешности?
Каждая новая сеть играет с предыдущей ~30 тыс. партий, погрешность должна быть около 3 Elo. |
23.08.2018, 01:46 | #1114 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
Цитата: Сообщение от Maratka
А откуда такие погрешности?
Каждая новая сеть играет с предыдущей ~30 тыс. партий, погрешность должна быть около 3 Elo. Конкретно тут играют по 400-500 партий. На основании этих значений как раз график и строится. Партии для обучения тут не считаются, т.к. они для обучения, это не "сеть против сети", а нечто совсем другое. |
Пользователь сказал cпасибо: | Maratka (23.08.2018) |
23.08.2018, 01:58 | #1115 |
Гроссмейстер
Регистрация: 27.09.2017
Адрес: Москва
Сообщений: 4,142
Сказал(а) спасибо: 2,297
Поблагодарили 2,510 раз(а) в 1,635 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от Vizvezdenec
http://testserver.lczero.org/matches
Конкретно тут играют по 400-500 партий. На основании этих значений как раз график и строится. Партии для обучения тут не считаются, т.к. они для обучения, это не "сеть против сети", а нечто совсем другое. |
Пользователь сказал cпасибо: | Maratka (23.08.2018) |
23.08.2018, 02:13 | #1116 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
Да ничего там не уточняется.
Возьмите любую старую сеть, сравните с соседской, посмотрите по таблице матчей - совпадение будет до сотых долей эло. Всё, что делается, это раз в 200 или 300 или 100 сетей играются матчи сетей с сильно разными ID. Кстати говоря, они наиболее показательны - вот, например, 200 эло прироста по графику от 792 до 973 на деле оказываются 33 в матче 1х1. Отмечу, что 792 сеть была неделю назад, поэтому как бы её уже должны были "уточнить". И тесты против AB движков в большинстве своём, к сожалению, тоже полная чепуха. Самый популярный мало того, что имеет странные правила остановки партии, корявое значение хэша и т.д., но имеет вообще критическую проблему методологии - дебюты выбираются случайно из большой книги и даже не играются с обращением цвета. Понятное дело, что там, где тест занимает 200 партий, так ещё и дебюты распределены неравно, погрешности крайне велики (я думаю, что если одной сети повезёт и она в среднем по выходу из дебюта на отрезке в 200 партий получит +0.2 вместо среднего 0.00, то это даст ей эло 20-30, никак не меньше), т.к. это просто вносит дополнительный шум. В итоге сеть, которая "лучшая против AB движков", вполне просто может быть самой везучей с тем, какие дебюты ей выпали, за белых всякие голландские защиты, а за чёрных дебюты Ларсена и Бёрда - в той книге они точно есть. |
Пользователь сказал cпасибо: | Maratka (23.08.2018) |
23.08.2018, 09:49 | #1117 |
3 разряд
Регистрация: 25.05.2018
Сообщений: 207
Сказал(а) спасибо: 41
Поблагодарили 95 раз(а) в 80 сообщениях
Репутация: 3
|
Re: LCZero
На самом деле в графике есть смысл, просто смотреть на него надо более масштабно.
То есть, обращать внимание на отрезки, не в 1млн игр, а например в 10млн. А стравливать сети имеет смысл, например каждые 5млн игр. |
23.08.2018, 10:05 | #1118 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
В графике есть смысл с точки зрения глобального тренда, безусловно.
Но при этом конкретное сравнение сетей по нему невозможно. Более того, можно представить себе интересную вещь. Допустим, с определённого момента у нас нейросеть полностью "вышла на режим" и каждая новая по силе не отличается от старой. Тогда у нас каждая новая сеть будет отличаться от прошлой на случайную величину по гауссу с двумя сигмами, равными 15 эло. Что значит, что если мы так прокрутим N нейросетей, то выйдет тоже разброс финального эло по гауссу, только будет он уже 15*sqrt(N) эло. В принципе для того, чтобы перекрыть 4500 селфплей эло, хватит 90000 версий нейросети. Через 90000 версий такого графика для "замороженной" сети он будет лежать в интервале от 0 до 9000 эло с вероятностью 95% (при этом эло, разумеется, как было, так и осталось 4500). Так что даже как глобальный тренд этот график имеет смысл, пока есть реальный рост. Когда же погрешность начинает реальный рост перекрывать (а сейчас это происходит с большим запасом, 15 эло/сеть в среднем давно уже недостижимы), график просто отображает случайный шум, а не тренд какой-то. |
Пользователь сказал cпасибо: | Maratka (23.08.2018) |
23.08.2018, 12:11 | #1119 |
Гроссмейстер
Регистрация: 27.09.2017
Адрес: Москва
Сообщений: 4,142
Сказал(а) спасибо: 2,297
Поблагодарили 2,510 раз(а) в 1,635 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от Vizvezdenec
Разработчики Лилы наконец-то стали что-то нормально тестировать в фреймворке на базе OpenBench
http://ec2-34-217-73-2.us-west-2.com...om:8000/index/ http://ec2-34-217-73-2.us-west-2.com...00/viewTest/6/ |
23.08.2018, 15:12 | #1120 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
http://testserver.lczero.org/matches
Вот ещё. 520 версия, с которой уже там приросты в миллионы эло рисуют. 10520 11011 false +83 -201 =312 -69.71 А на деле 70. |
23.08.2018, 15:24 | #1121 |
Гроссмейстер
Регистрация: 27.09.2017
Адрес: Москва
Сообщений: 4,142
Сказал(а) спасибо: 2,297
Поблагодарили 2,510 раз(а) в 1,635 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от Vizvezdenec
http://testserver.lczero.org/matches
Вот ещё. 520 версия, с которой уже там приросты в миллионы эло рисуют. 10520 11011 false +83 -201 =312 -69.71 А на деле 70. Последние сети в среднем упали в силе игры. Кстати, разница даже в том рейтинг-листе между 520-й сетью со стандартными настройками и лучшими сетями не превышает сотни. Хотя некоторые говорят, что Lc0 уже обошла Houdini 6, в реальности об этом рано говорить. То, что догоняет - да. 70 пунктов - очень хороший прирост. Но я не уверен, что в длинном контроле было бы 70. |
23.08.2018, 15:27 | #1122 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Цитата: Сообщение от sovaz1997
70 пунктов - очень хороший прирост. Но я не уверен, что в длинном контроле было бы 70.
|
23.08.2018, 15:29 | #1123 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Кто-то может проверить OpenCL-версию 0.17 на скорость, выросла ли она как обещали в ~5 раз, ну или хотя бы раза в два?
Я у себя разницы не вижу. |
23.08.2018, 15:57 | #1124 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
Не знаю, на самом деле скейлинг на длинный временной контроль не так плох, как о нём привыкли думать.
У стокфиша, например, из 30-40 эло теряется 2 при изменении времени с 60+0.6 на 180+1.8. Так что если увеличить до часа-двух... Ну может быть 10 эло потеряется, и то не факт, т.к. 2 эло это глубоко в пределах погрешности, разумеется. |
Пользователь сказал cпасибо: | sovaz1997 (23.08.2018) |
23.08.2018, 19:07 | #1125 |
Гроссмейстер
Регистрация: 19.04.2017
Сообщений: 4,734
Сказал(а) спасибо: 1,204
Поблагодарили 2,853 раз(а) в 1,885 сообщениях
Репутация: 159
|
Re: LCZero
Интересно, а блог кто нибудь читает?
Развернуть для просмотраУровень обучения Test10 был снижен Уровень обучения для тестового прогона test10 был снижен до 0,0002. Сетевой идентификатор 11013 станет первой сетью, прошедшей обучение с новым LR. Это последний раз, когда мы понижаем его для теста10, чтобы выжать еще немного Elo из него. Ожидается, что результат будет виден в течение дня или двух. Тест10, вероятно, останется в течение нескольких недель, и после этого план должен выполнить сброс и снова запустить main2 с нуля. Кстати тестовый матч уже начался Что изменится после перезагрузки: квантование int8 во время обучения Вот как это сделал DeepMind. Это создаст сети, совместимые с инфраструктурой TensorRT, что должно значительно улучшить nps на поддерживаемом оборудовании. Мы пытались квантовать существующие сети, но на самом деле это не так. Падение Эло было около -300. Обучение усреднению стохастических весов Это, мы надеемся, приведет к улучшению качества сети. Плоскость Rule50. Как я писал в нескольких предыдущих сообщениях в блоге, выясняется, что информация о 50-перемещаемом счетчике правил недоступна для сети. Это будет исправлено. Значение постоянной Cpuct будет увеличено во время обучения. Это может позволить Лиле лучше видеть тактику. Возможно, что параллельно мы будем тренировать несколько сетевых размеров, но в последнее время обучение действительно было тесно назад, мы не уверены, что емкость будет даже для двух сетей. [свернуть] мне показалась странной строка "квантование int8 во время обучения" что бы это значило? Не приведет ли это к снижению разрядности? Да и "совместимость" себя не оправдывает,не много у кого есть TPU Кстати тестовый матч уже начался Последний раз редактировалось svoitsl; 23.08.2018 в 20:05. |
23.08.2018, 20:41 | #1126 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Цитата: Сообщение от svoitsl
что бы это значило? Не приведет ли это к снижению разрядности?
Обучение при использовании математики низкой точности имеет смысл быть при начальном обучении, чтобы быстро заполнить основные узлы сети. Таким образом, если как они пишут, они будут тренировать несколько сетей одновременно, то для новых сетей int8 имеет место быть. |
23.08.2018, 20:48 | #1127 |
Гроссмейстер
Регистрация: 19.04.2017
Сообщений: 4,734
Сказал(а) спасибо: 1,204
Поблагодарили 2,853 раз(а) в 1,885 сообщениях
Репутация: 159
|
Re: LCZero
Цитата: Сообщение от Maratka
Не привдет.
Но точно неизвестно, почему A0 уперлась в свой потолок, потому что просто сеть уже насытилась или потому что разрядность данных низкая (и поэтому ниже точность) Тренировать сети меньшего размера как выяснилось очень уж больших ресурсов не потребует,хотя будет обидно, если их рейтинг достигнет максимума только из за Int8, хотя 16 бит могли бы дать ещё сотенку Эло В общем Арасан кажется проиграет lc0 уже кажется два раза |
23.08.2018, 22:28 | #1128 |
Гроссмейстер
Регистрация: 27.09.2017
Адрес: Москва
Сообщений: 4,142
Сказал(а) спасибо: 2,297
Поблагодарили 2,510 раз(а) в 1,635 сообщениях
Репутация: 92
|
Re: LCZero
Похоже, тестируют 4xV100 против одного ядра: https://www.chess.com/computer-chess-championship
Или против всех 96. Что-то со скоростью странно |
23.08.2018, 23:32 | #1129 |
Гроссмейстер
Регистрация: 19.04.2017
Сообщений: 4,734
Сказал(а) спасибо: 1,204
Поблагодарили 2,853 раз(а) в 1,885 сообщениях
Репутация: 159
|
Re: LCZero
Вроде со скоростью все не плохо, у Лилы порядка 70-80 knps,то есть столько сколько было у A0 на 4TPU
А вот у её оппонентов все же поменьше 80 mnps вот она всех и громит,кроме Fritz, с ним ничья |
24.08.2018, 00:26 | #1131 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
Ничья ещё с Айвенго и с Laser, ну как-то не очень впечатляет пока, если честно.
Возможно, разговоры про такой себе скейлинг на множество видеокарт и правдивы. |
24.08.2018, 00:35 | #1132 |
Гроссмейстер
Регистрация: 27.09.2017
Адрес: Москва
Сообщений: 4,142
Сказал(а) спасибо: 2,297
Поблагодарили 2,510 раз(а) в 1,635 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от Vizvezdenec
Ничья ещё с Айвенго и с Laser, ну как-то не очень впечатляет пока, если честно.
Возможно, разговоры про такой себе скейлинг на множество видеокарт и правдивы. По поводу скейлинга на нескольких видеокартах: ничего страшного, думаю. 4xV100 это и так слишком много ----------- И ведь не зря тестируют. Если у Lc0 действительно окажется пониженная производительность, то эту ошибку найдут и исправят с большой вероятностью и не будут говорить, что "это тестовый сезон, мы ничего не можем с этим сделать" и т. д. |
Пользователь сказал cпасибо: | Maratka (24.08.2018) |
24.08.2018, 03:47 | #1133 |
Гроссмейстер
Регистрация: 20.12.2016
Сообщений: 1,715
Сказал(а) спасибо: 2,282
Поблагодарили 2,156 раз(а) в 1,075 сообщениях
Репутация: 240
|
Re: LCZero
Цитата: Сообщение от Maratka
Кто-то может проверить OpenCL-версию 0.17 на скорость, выросла ли она как обещали в ~5 раз, ну или хотя бы раза в два?
Я у себя разницы не вижу. Но вот в этой тестовой позиции через пару минут выдала 40ку: Развернуть для просмотра[свернуть] 0.16 после 2 минут выдавала максимум 20ку. Последний раз редактировалось Burcontovk; 24.08.2018 в 04:22. |
Пользователь сказал cпасибо: | Maratka (24.08.2018) |
24.08.2018, 07:24 | #1134 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Цитата: Сообщение от Vizvezdenec
Возможно, разговоры про такой себе скейлинг на множество видеокарт и правдивы.
Т.е. куча сравнительно простых кристаллов а-ля современные RX 560, посаженные на одну подложку, и соединенные фирменной IF-шиной (т.е. ровно так же, как модули в Ryzen). На выходе - низкий уровень брака, низкая себестоимость, возможность мастшабирования на любой нужный уровень производительности. И при этом в силу задействования IF вместо привычного CrossFire - для программиста это все богатство видно как один чип. Недостаток только один: в силу известных ограничений, никакой CUDA там не будет по определению. Только OpenCL и (возможно) какой-то фирменный API от AMD. |
24.08.2018, 07:31 | #1135 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Цитата: Сообщение от Burcontovk
Визуально разница есть небольшая 10-15%. Если 0.16 версия в начальной позиции через минуту выдавала 1ку. То 0.17я сразу выдает 1ку.
uci go infinite _______ И какая видеоплата? |
24.08.2018, 20:42 | #1136 |
Гроссмейстер
Регистрация: 20.12.2016
Сообщений: 1,715
Сказал(а) спасибо: 2,282
Поблагодарили 2,156 раз(а) в 1,075 сообщениях
Репутация: 240
|
Re: LCZero
Цитата: Сообщение от Maratka
А если в коносли проверить?
uci go infinite _______ И какая видеоплата? Через минуту теста: 0.16 - 580 nps 0.17 - 894 nps |
Пользователь сказал cпасибо: | Maratka (24.08.2018) |
27.08.2018, 15:51 | #1137 |
Гроссмейстер
Регистрация: 19.04.2017
Сообщений: 4,734
Сказал(а) спасибо: 1,204
Поблагодарили 2,853 раз(а) в 1,885 сообщениях
Репутация: 159
|
Re: LCZero
Lc0 0.17 зарелизили
Отличий от 0.17rc2 нет, говорят, никаких |
28.08.2018, 15:52 | #1138 |
Гроссмейстер
Регистрация: 27.09.2017
Адрес: Москва
Сообщений: 4,142
Сказал(а) спасибо: 2,297
Поблагодарили 2,510 раз(а) в 1,635 сообщениях
Репутация: 92
|
Re: LCZero
Запустил тест на 10 партий с последней сетью. Цель, естественно, не выявить сильнейшего xD, а получить хотя бы одну победу LCZero, при этом такую, которая позволит выявить недостатки SF. Конечно, хочется победу уровня Alpha Zero. У меня, правда, старенькая видеокарта - GeForce GTX 660. Процессор еще старше, но он относительно быстрый (Intel Core i7-860). 650 nps против 6 млн. у Sf. В итоге Leela Ratio где-то 0.1, что не очень много. Возможно, я уменьшу число потоков для Stockfish, но победа будет ценнее над более производительным вариантом.
|
28.08.2018, 18:12 | #1139 |
Гроссмейстер
Регистрация: 19.04.2017
Сообщений: 4,734
Сказал(а) спасибо: 1,204
Поблагодарили 2,853 раз(а) в 1,885 сообщениях
Репутация: 159
|
Re: LCZero
Цитата: Сообщение от sovaz1997
хочется победу уровня Alpha Zero
|
Здесь присутствуют: 6 (пользователей: 0 , гостей: 6) | |
|
|