LCZero - Страница 64 - Forchess

svoitsl · 09.01.2019, 21:43

В общем решил я проверять движки на всех возможных дебютах в один полуход, их оказалась всего 20 штук. Это число очень хорошо подходит.
Вот только до конца пока не разобрался,как сделать, что бы в Арене эти дебюты шли один за одним...

Maratka · 09.01.2019, 22:19

Цитата: Сообщение от sovaz1997

Test40 уже имеет 2200 реальных пунктов за несколько часов.

Цитата: Сообщение от sovaz1997

В статистику все идут, график уточняется. В Matches проходит какой-то SPRT-тест, а дальше все партии учитываются.

Уже не имеет. Теперь похоже скорректировали. 2-3 разряд за полтора суток. Прямо скажем, не ахти как быстро, учитывая, что чем дальше, тем медленнее.
Причем последние часов десять рейтинг вообще не растет, граф вышел на прямую.

svoitsl · 09.01.2019, 22:31

Цитата: Сообщение от Maratka

граф вышел на прямую.

Вы не спутали с самоЭло?
Он может запросто даже снижаться,а вот реальный при этом рости

sovaz1997 · 09.01.2019, 23:07

В реальности Zevra вчера обыгрывала Lc0 40X, сегодня проигрывает

Рост, конечно, есть: https://docs.google.com/spreadsheets...#gid=312836954, но пока добавили только до 25-й сети (у 25-й около 2621 CCRL).

Maratka · 09.01.2019, 23:33

Цитата: Сообщение от svoitsl

Вы не спутали с самоЭло?

Вчера на этом графике было 2200, т.е. КМС. А сейчас 1600, т.е. даже не первый разряд.

sovaz1997 · 10.01.2019, 01:25

Цитата: Сообщение от Maratka

Вчера на этом графике было 2200, т.е. КМС. А сейчас 1600, т.е. даже не первый разряд.

Не было там 2200, я про рейтинг относительно CCRL говорил. И сейчас это 2621 для 25-й сети.

sovaz1997 · 10.01.2019, 09:13

Умные вещи пишут в Discord по выбору сети. Это написал не разработчик. Но идею он дал хорошую, думаю.

Код:

"The testing framework should be included in the lc0 client. We should only test self elo (no external AB engines included) but doing it in a proper way. Like stockfish does every new patch.
Instead of the current match, each new net can be tested at very low nodes per move (maybe even 1) against the last 10 previous nets. Pick an opening book with 500 representative positions (1000 games per match so 10.000 games in total)
Then run ordo on that result. If the performance of the new net is greater than every previous net by a certain amount of ELO, then it can be automaticly considered as the new best. This speeds up the testing process in the begining of a new run were improvements are massive and evident.
In the middle and in the end of the run when nets become much more closer to each other, and low nodes matches become pretty much usseles, we can still use the "10.000 games one node test" as a sanity check (is a really really fast test) but also make a new test with reduced number of games but increasing the nodes (something like 100 game match against each net so 1000 games in total but at 200K nodes per move or even more). It would take more testing time than the current pipeline but in the end is totally worth it. We would have the best nets already selected during the run and people would not have to be wasting his electricity and time on personal tests that are inconclusive at best in some cases.
Of course someone has to code all of this in the client and make it work automatically. But I guess this is far more simple than the actual lc0 client that we already have.
"

Т. е. идея внедрить в клиент Lc0 тестирующую функцию/фреймворк. Кратко: предлагается делать тесты каждой новой сети против десятки предыдущих и уже на основе этого смотреть, какая сеть лучшая (хотя я все-таки за использование ab-движков в тестах в том числе). Точность определения лучшей сети увеличится. Потенциально хорошие тесты можно уже тестировать с более длинным контролем.

А то сейчас как: получают что-то вроде

Код:

# PLAYER       :  RATING  ERROR  POINTS   (%)  PLAYED    W    L    D  D(%)  CFS(%)
 1 Lc0_32450    :    31.0   37.5    23.5    59      40   12    5   23    58      95
 2 Lc0_32194    :   -31.0   37.5    16.5    41      40    5   12   23    58     ---

в длинном контроле. Потом говорят, что на большом контроле +- не имеет большого значения. И ведь не поспоришь, большинство выберет ту, которая в тесте 40 партий победила. Я понимаю, что другие тесты тоже показывают прирост, но все же.

В общем, я остаюсь при своем мнении, что если сети отличаются более, чем на 40-50 пунктов ЭЛО, сейчас это определяется по тем тестам, которые есть. Но когда я вижу, что люди определили разницу в 5 или 10 пунктов между определенными сетями, я в это не верю).

А с помощью системы тестирования можно будет и патчи тестировать, и выбирать лучшую сеть. И все это будет управляться.

Rom77 · 10.01.2019, 10:51

Десять сетей - это полгига трафика. Кроме того, последние 5 сетей я бы исключил.

Vizvezdenec · 10.01.2019, 11:14

Люди, видимо, никогда не видели тестов FastGM.
Который делал удвоение временного контроля и матч между одними и теми же версиями SF и Komodo на одной и той же книге (50 позиций).
В итоге у него получилось что-то такое:
30 минут на партию +20-10=70 в пользу SF,
час на партию +15-13=72 в пользу SF (вот он, скейлинг комодо включился!)
два часа на партию +22-6=72 в пользу SF (а нет...). А потом говорят, что +/- на большом контроле ничего не значит, ага.

crem · 10.01.2019, 17:44

Решил я как-то в конце декабря записать видео на ютубе о том как работает Lc0 и A0...

В процессе записи видео обнаружилось, что у нас отличается архитектура сети от AlphaZero в Policy Head: у нас просто плоский вектор из 1860 возможных ходов на выходе, а у A0 матрица 8x8x76, поэтому у A0 сеть лучше понимает сходные ходы из разных частей доски (и я дуамаю, что это должно очень сильно помочь с тактикой).

В статье DeepMind говорили что они пробовали и плоский вектор тоже, и так оно работает не сильно хуже. Я подозреваю, что их "не сильно хуже" -- это и есть уровень Lc0. На этой неделе народ потестировал тренировку с новым policy head, и графики многообещающи! Но в test40 это изменение не попало, ещё код не готов.

К чему я это говорю: test40 конечно ожидается, что будет лучше чем test30 из-за SE, но уже известно, что будет после test40.

Rom77 · 10.01.2019, 17:54

Цитата: Сообщение от crem

Решил я как-то в конце декабря записать видео на ютубе о том как работает Lc0 и A0...

Видео уже где-то выложено или пока ещё готовится?

crem · 10.01.2019, 18:08

Цитата: Сообщение от Rom77

Видео уже где-то выложено или пока ещё готовится?

Готовится.
Я там рассказывал, что DeepMind скорее всего решили сделать всё плоским вектором, а не более хитрыми плоскостями, для того чтобы архитектуры сети у разных игр не отличалась (а в Го там действительно плоский вектор!). Посреди записи обнаружил, что у них всё не так, и теперь три недели думаю, что с этим делать.

И ещё видео оказывалось длинным. Я вообще нудновато рассказываю, а если это ещё и на час, то ни у кого терпения не хватит.

Короче, постараюсь сделать несколько видео, но коротких, минут по десять.

sovaz1997 · 10.01.2019, 18:15

Может, стоит тогда перезапустить test40 или там все не так просто переделать?

crem · 10.01.2019, 18:42

Цитата: Сообщение от sovaz1997

Может, стоит тогда перезапустить test40 или там все не так просто переделать?

Вроде бы, код достаточно близок к готовности...
Но в последнее время было много беспорядочных релизов, и тогда придётся это опять продолжать.

Сейчас попробую обсудить!

Неделю назад я пробовал намекнуть, но не было тестов, которые показывают, что этот policy head на самом деле помогает, поэтому не все были уверены что это стоит того. А сейчас тесты есть.

svoitsl · 10.01.2019, 19:21

Цитата: Сообщение от crem

Сейчас попробую обсудить!

Один день потерь (обучения тест40) все таки не Бог весть сколько много, вообще в особой торопливости её обучать нет особых причин, наверняка были мнения ,что лучше тест30 доучить, раз так повезло, что может Лила в суперфинал TCEC пройдет.
(Там каждый десяток Эло не будет лишним)
А тем временем оптимизировать матрицу (может 8x8x76 не оптимальные размеры имеет) и заодно проверить код.
Слишком уж на много снижается сила игры Лилы, когда она может проиграть буквально за один ход

crem · 10.01.2019, 20:35

Цитата: Сообщение от svoitsl

Один день потерь (обучения тест40) все таки не Бог весть сколько много, вообще в особой торопливости её обучать нет особых причин, наверняка были мнения ,что лучше тест30 доучить, раз так повезло, что может Лила в суперфинал TCEC пройдет.
(Там каждый десяток Эло не будет лишним)
А тем временем оптимизировать матрицу (может 8x8x76 не оптимальные размеры имеет) и заодно проверить код.
Слишком уж на много снижается сила игры Лилы, когда она может проиграть буквально за один ход

Изменений пока в коде нет, по очень оптимистичным прогнозам весь код будет готов к использованию через неделю.
В процессе подготовки к test40 был ещё test35 и test37.. По-хорошему, это всё надо бы повторить, чтобы зря электричество не жечь а потом баг найти..

Короче, наверное имеет смысл оставить test40 как есть.
Но знать, что test50 будет лучше.

Maratka · 10.01.2019, 20:52

Цитата: Сообщение от crem

К чему я это говорю: test40 конечно ожидается, что будет лучше чем test30 из-за SE, но уже известно, что будет после test40.

Интересно было бы узнать, когда оно будет. Каждые несколько месяцев рестартовать процесс обучения, получив на финише хорошо если десятка 3-4 ELO к прошлой сети (а то и нуль) - этак оно может и на года два растянуться.

Вот простой пример: если бы не начали учить сеть 20, а потом 30, но продолжили бы учить сеть 10 - неужели за полгода ее не вышло бы "прокачать" до уровня лучших сетей 30 (из того, что я сам пощупал - это 32379)?
Ведь разница мизерная, а полгода - это таки полгода.

Viktor · 10.01.2019, 21:05

Ребята, вы там не спешите "уничтожать" шахматы. Хотелось бы еще в них поиграть!

Maratka · 10.01.2019, 21:05

С точки зрения человека (даже и ведущих гроссмейстеров) шахматы уничтожены уже лет двадцать назад.

crem · 10.01.2019, 21:06

Цитата: Сообщение от Maratka

Вот простой пример: если бы не начали учить сеть 20, а потом 30, но продолжили бы учить сеть 10 - неужели за полгода ее не вышло бы "прокачать" до уровня лучших сетей 30 (из того, что я сам пощупал - это 32379)?
Ведь разница мизерная, а полгода - это таки полгода.

test10 был близок к пределу на минимальном Learning Rate. За полгода он бы ничему новому не научился. За первую неделю может и научился, а дальше -- нет.

В test10 был баг (игнорировалось число ходов без взятия), и cpuct тоже считался неправильным (к тому моменту обнаружилось что последнее упоминание занчения cpuct было для AlphaGo и оно было 5, а не 1.8 как у нас), и может что-то ещё было плохо, я не помню.

Всё, что было выучено при более высоком Learning Rate, тренировками на более низких LR не переучить. А возврат к высокому LR уничтожает весь прогресс, который произошёл после этого. Поэтому если найден баг, а уменьшение LR уже произошло (а оно происходит трижды в процессе тренировки) -- то проще всего начать заново.

Maratka · 10.01.2019, 21:36

Понятно, спасибо!

Но не слишком ли много багов?
Вроде бы шахматные правила не очень сложные... ;)

И еще разочек хотелось бы все же спросить: как скоро планируется закончить обучение с вменяемым результатом, скажем обойти 11248 (некоторые считают лучше 11250 - IMHO непринципиально) на... ну пусть будет сотни полторы реальных ELO (по результатам двух замеров: прямая дуэль сетей, и через посредника, скажем того же SF)?

svoitsl · 10.01.2019, 21:48

Цитата: Сообщение от Maratka

Но не слишком ли много багов?

Не ошибается тот кто ничего не делает, главное что они все же находятся и исправляются
Но пока, насколько я понял, пытаются воспроизвести A0, а уже скоро пора озаботиться хотя бы оптимизацией настроек (насколько настройки A0 оптимальны толком неизвестно, но даже если и так то они оптимальны для TPU)

Цитата: Сообщение от Maratka

на... ну пусть будет сотни полторы реальных ELO

Вообще предсказывать тут затруднительно, идя след в след за A0 вряд ли можно достичь выдающихся результатов, если сравнить с A0 то они уже достигнуты
(скорее всего Лила уже достигла уровня SF9)

Цитата: Сообщение от Maratka

(из того, что я сам пощупал - это 32379)

Вот снова о тестировании.....
В каких режимах это лучше делать?
1 С последним SF или между собой? (думаю что лучше между собой)
2 С дебютной книжкой или без (думаю что с книжкой на все возможные полуходы, их всего 20)
3 Какой делать контроль? (думаю что если между собой - то и 5000 узлов на ход хватит)
Просто тестировщиков много, а вот методики единой нет вроде

Maratka · 10.01.2019, 23:57

Цитата: Сообщение от svoitsl

Но пока, насколько я понял, пытаются воспроизвести A0,

Это наиглавнейшая проблема. AZ в целом не тянет на уровень SF10 (при игре без книг пожалуй переиграет, но с книгами - наоборот сольет с треском).

Так что если из LZ пытаются создать опенсурсный аналог AZ, то смысла в движке немного.

svoitsl · 11.01.2019, 00:02

Цитата: Сообщение от Maratka

то смысла в движке немного.

тут примерно как у китайцев, сперва копируют- потом или даже попутно совершенствуют.
Смысл как видно есть.

Bullet · 11.01.2019, 03:34

Цитата: Сообщение от crem

Решил я как-то в конце декабря записать видео на ютубе о том как работает Lc0 и A0...

Очень ждем! А есть ссылка на Ваш канал?

Magystr · 11.01.2019, 10:16

Вот была (и есть) версия test10, сильная и быстрая. Как выясняется при ее формировании были какие-то баги. Потом попытались сделать test20. В общем-то неуспешно. Далее был (и есть test30). Может быть она чуть посильнее, чем test10 (но не факт), но уж точно гораздо медленнее. Сейчас начинается расчет test40. К чему он приведет - пока не очень понятно.
У меня складывается впечатление, что гипотетическая сеть с размерностью 14 - 18 (с исправлениями) была бы точно сильнее имеющихся и test10, и test30. И к тому же достаточно быстрая. А скорость очень сильно помогает избежать просчетов.

Vizvezdenec · 11.01.2019, 11:20

Цитата: Сообщение от Magystr

Вот была (и есть) версия test10, сильная и быстрая. Как выясняется при ее формировании были какие-то баги. Потом попытались сделать test20. В общем-то неуспешно. Далее был (и есть test30). Может быть она чуть посильнее, чем test10 (но не факт), но уж точно гораздо медленнее. Сейчас начинается расчет test40. К чему он приведет - пока не очень понятно.
У меня складывается впечатление, что гипотетическая сеть с размерностью 14 - 18 (с исправлениями) была бы точно сильнее имеющихся и test10, и test30. И к тому же достаточно быстрая. А скорость очень сильно помогает избежать просчетов.

Тест 20, 30, 40 и т.д. никак не медленнее тест 10, т.к. они одинаковой размерности.

Magystr · 11.01.2019, 13:35

Цитата: Сообщение от Vizvezdenec

Тест 20, 30, 40 и т.д. никак не медленнее тест 10, т.к. они одинаковой размерности.

Вы конечно же большой специалист в области шахматного программирования, но здесь Вы заблуждаетесь, как мне представляется. Размер сети сильно влияет на скорость расчета.

Vizvezdenec · 11.01.2019, 13:54

Цитата: Сообщение от Magystr

Вы конечно же большой специалист в области шахматного программирования, но здесь Вы заблуждаетесь, как мне представляется. Размер сети сильно влияет на скорость расчета.

Влияет.
Но эти сети имеют одинаковый размер 20х256.
Разница только в методиках обучения и других нюансах.

Magystr · 11.01.2019, 15:35

Цитата: Сообщение от Vizvezdenec

Влияет.
Но эти сети имеют одинаковый размер 20х256.
Разница только в методиках обучения и других нюансах.

Размеры РАЗНЫЕ и определяются первой цифрой (10,20,30,40).
На начальной стадии для ускорения процесса, большие сети (30,35,40) могут начинать обучение с 10-ти, но потом переводятся на номинальный размер.

09.01.2019, 21:43	#1891
svoitsl Гроссмейстер Регистрация: 19.04.2017 Сообщений: 4,734 Сказал(а) спасибо: 1,204 Поблагодарили 2,853 раз(а) в 1,885 сообщениях Репутация: 159	Re: LCZero В общем решил я проверять движки на всех возможных дебютах в один полуход, их оказалась всего 20 штук. Это число очень хорошо подходит. Вот только до конца пока не разобрался,как сделать, что бы в Арене эти дебюты шли один за одним...

09.01.2019, 22:19	#1892
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Цитата: Сообщение от sovaz1997 Test40 уже имеет 2200 реальных пунктов за несколько часов. Цитата: Сообщение от sovaz1997 В статистику все идут, график уточняется. В Matches проходит какой-то SPRT-тест, а дальше все партии учитываются. Уже не имеет. Теперь похоже скорректировали. 2-3 разряд за полтора суток. Прямо скажем, не ахти как быстро, учитывая, что чем дальше, тем медленнее. Причем последние часов десять рейтинг вообще не растет, граф вышел на прямую.

09.01.2019, 22:31	#1893
svoitsl Гроссмейстер Регистрация: 19.04.2017 Сообщений: 4,734 Сказал(а) спасибо: 1,204 Поблагодарили 2,853 раз(а) в 1,885 сообщениях Репутация: 159	Re: LCZero Цитата: Сообщение от Maratka граф вышел на прямую. Вы не спутали с самоЭло? Он может запросто даже снижаться,а вот реальный при этом рости

09.01.2019, 23:07	#1894
sovaz1997 Гроссмейстер Регистрация: 27.09.2017 Адрес: Москва Сообщений: 4,142 Сказал(а) спасибо: 2,297 Поблагодарили 2,510 раз(а) в 1,635 сообщениях Репутация: 92	Re: LCZero В реальности Zevra вчера обыгрывала Lc0 40X, сегодня проигрывает Рост, конечно, есть: https://docs.google.com/spreadsheets...#gid=312836954, но пока добавили только до 25-й сети (у 25-й около 2621 CCRL).

09.01.2019, 23:33	#1895
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Цитата: Сообщение от svoitsl Вы не спутали с самоЭло? Вчера на этом графике было 2200, т.е. КМС. А сейчас 1600, т.е. даже не первый разряд.

10.01.2019, 01:25	#1896
sovaz1997 Гроссмейстер Регистрация: 27.09.2017 Адрес: Москва Сообщений: 4,142 Сказал(а) спасибо: 2,297 Поблагодарили 2,510 раз(а) в 1,635 сообщениях Репутация: 92	Re: LCZero Цитата: Сообщение от Maratka Вчера на этом графике было 2200, т.е. КМС. А сейчас 1600, т.е. даже не первый разряд. Не было там 2200, я про рейтинг относительно CCRL говорил. И сейчас это 2621 для 25-й сети.

10.01.2019, 09:13	#1897
sovaz1997 Гроссмейстер Регистрация: 27.09.2017 Адрес: Москва Сообщений: 4,142 Сказал(а) спасибо: 2,297 Поблагодарили 2,510 раз(а) в 1,635 сообщениях Репутация: 92	Re: LCZero Умные вещи пишут в Discord по выбору сети. Это написал не разработчик. Но идею он дал хорошую, думаю. Код: "The testing framework should be included in the lc0 client. We should only test self elo (no external AB engines included) but doing it in a proper way. Like stockfish does every new patch. Instead of the current match, each new net can be tested at very low nodes per move (maybe even 1) against the last 10 previous nets. Pick an opening book with 500 representative positions (1000 games per match so 10.000 games in total) Then run ordo on that result. If the performance of the new net is greater than every previous net by a certain amount of ELO, then it can be automaticly considered as the new best. This speeds up the testing process in the begining of a new run were improvements are massive and evident. In the middle and in the end of the run when nets become much more closer to each other, and low nodes matches become pretty much usseles, we can still use the "10.000 games one node test" as a sanity check (is a really really fast test) but also make a new test with reduced number of games but increasing the nodes (something like 100 game match against each net so 1000 games in total but at 200K nodes per move or even more). It would take more testing time than the current pipeline but in the end is totally worth it. We would have the best nets already selected during the run and people would not have to be wasting his electricity and time on personal tests that are inconclusive at best in some cases. Of course someone has to code all of this in the client and make it work automatically. But I guess this is far more simple than the actual lc0 client that we already have. " Т. е. идея внедрить в клиент Lc0 тестирующую функцию/фреймворк. Кратко: предлагается делать тесты каждой новой сети против десятки предыдущих и уже на основе этого смотреть, какая сеть лучшая (хотя я все-таки за использование ab-движков в тестах в том числе). Точность определения лучшей сети увеличится. Потенциально хорошие тесты можно уже тестировать с более длинным контролем. А то сейчас как: получают что-то вроде Код: # PLAYER : RATING ERROR POINTS (%) PLAYED W L D D(%) CFS(%) 1 Lc0_32450 : 31.0 37.5 23.5 59 40 12 5 23 58 95 2 Lc0_32194 : -31.0 37.5 16.5 41 40 5 12 23 58 --- в длинном контроле. Потом говорят, что на большом контроле +- не имеет большого значения. И ведь не поспоришь, большинство выберет ту, которая в тесте 40 партий победила. Я понимаю, что другие тесты тоже показывают прирост, но все же. В общем, я остаюсь при своем мнении, что если сети отличаются более, чем на 40-50 пунктов ЭЛО, сейчас это определяется по тем тестам, которые есть. Но когда я вижу, что люди определили разницу в 5 или 10 пунктов между определенными сетями, я в это не верю). А с помощью системы тестирования можно будет и патчи тестировать, и выбирать лучшую сеть. И все это будет управляться.

10.01.2019, 10:51	#1898
Rom77 Мастер Регистрация: 11.08.2017 Адрес: Киров Сообщений: 912 Сказал(а) спасибо: 888 Поблагодарили 1,197 раз(а) в 632 сообщениях Репутация: 132	Re: LCZero Десять сетей - это полгига трафика. Кроме того, последние 5 сетей я бы исключил.

10.01.2019, 11:14	#1899
Vizvezdenec Гроссмейстер Регистрация: 30.05.2018 Адрес: Севастополь Сообщений: 4,022 Сказал(а) спасибо: 56 Поблагодарили 5,294 раз(а) в 2,673 сообщениях Репутация: 216	Re: LCZero Люди, видимо, никогда не видели тестов FastGM. Который делал удвоение временного контроля и матч между одними и теми же версиями SF и Komodo на одной и той же книге (50 позиций). В итоге у него получилось что-то такое: 30 минут на партию +20-10=70 в пользу SF, час на партию +15-13=72 в пользу SF (вот он, скейлинг комодо включился!) два часа на партию +22-6=72 в пользу SF (а нет...). А потом говорят, что +/- на большом контроле ничего не значит, ага.

10.01.2019, 17:44	#1900
crem 2 разряд Регистрация: 30.04.2018 Сообщений: 252 Сказал(а) спасибо: 9 Поблагодарили 505 раз(а) в 193 сообщениях Репутация: 51	Re: LCZero Решил я как-то в конце декабря записать видео на ютубе о том как работает Lc0 и A0... В процессе записи видео обнаружилось, что у нас отличается архитектура сети от AlphaZero в Policy Head: у нас просто плоский вектор из 1860 возможных ходов на выходе, а у A0 матрица 8x8x76, поэтому у A0 сеть лучше понимает сходные ходы из разных частей доски (и я дуамаю, что это должно очень сильно помочь с тактикой). В статье DeepMind говорили что они пробовали и плоский вектор тоже, и так оно работает не сильно хуже. Я подозреваю, что их "не сильно хуже" -- это и есть уровень Lc0. На этой неделе народ потестировал тренировку с новым policy head, и графики многообещающи! Но в test40 это изменение не попало, ещё код не готов. К чему я это говорю: test40 конечно ожидается, что будет лучше чем test30 из-за SE, но уже известно, что будет после test40.

10.01.2019, 17:54	#1901
Rom77 Мастер Регистрация: 11.08.2017 Адрес: Киров Сообщений: 912 Сказал(а) спасибо: 888 Поблагодарили 1,197 раз(а) в 632 сообщениях Репутация: 132	Re: LCZero Цитата: Сообщение от crem Решил я как-то в конце декабря записать видео на ютубе о том как работает Lc0 и A0... Видео уже где-то выложено или пока ещё готовится?

10.01.2019, 18:08	#1902
crem 2 разряд Регистрация: 30.04.2018 Сообщений: 252 Сказал(а) спасибо: 9 Поблагодарили 505 раз(а) в 193 сообщениях Репутация: 51	Re: LCZero Цитата: Сообщение от Rom77 Видео уже где-то выложено или пока ещё готовится? Готовится. Я там рассказывал, что DeepMind скорее всего решили сделать всё плоским вектором, а не более хитрыми плоскостями, для того чтобы архитектуры сети у разных игр не отличалась (а в Го там действительно плоский вектор!). Посреди записи обнаружил, что у них всё не так, и теперь три недели думаю, что с этим делать. И ещё видео оказывалось длинным. Я вообще нудновато рассказываю, а если это ещё и на час, то ни у кого терпения не хватит. Короче, постараюсь сделать несколько видео, но коротких, минут по десять.

10.01.2019, 18:15	#1903
sovaz1997 Гроссмейстер Регистрация: 27.09.2017 Адрес: Москва Сообщений: 4,142 Сказал(а) спасибо: 2,297 Поблагодарили 2,510 раз(а) в 1,635 сообщениях Репутация: 92	Re: LCZero Может, стоит тогда перезапустить test40 или там все не так просто переделать?

10.01.2019, 18:42	#1904
crem 2 разряд Регистрация: 30.04.2018 Сообщений: 252 Сказал(а) спасибо: 9 Поблагодарили 505 раз(а) в 193 сообщениях Репутация: 51	Re: LCZero Цитата: Сообщение от sovaz1997 Может, стоит тогда перезапустить test40 или там все не так просто переделать? Вроде бы, код достаточно близок к готовности... Но в последнее время было много беспорядочных релизов, и тогда придётся это опять продолжать. Сейчас попробую обсудить! Неделю назад я пробовал намекнуть, но не было тестов, которые показывают, что этот policy head на самом деле помогает, поэтому не все были уверены что это стоит того. А сейчас тесты есть.

10.01.2019, 19:21	#1905
svoitsl Гроссмейстер Регистрация: 19.04.2017 Сообщений: 4,734 Сказал(а) спасибо: 1,204 Поблагодарили 2,853 раз(а) в 1,885 сообщениях Репутация: 159	Re: LCZero Цитата: Сообщение от crem Сейчас попробую обсудить! Один день потерь (обучения тест40) все таки не Бог весть сколько много, вообще в особой торопливости её обучать нет особых причин, наверняка были мнения ,что лучше тест30 доучить, раз так повезло, что может Лила в суперфинал TCEC пройдет. (Там каждый десяток Эло не будет лишним) А тем временем оптимизировать матрицу (может 8x8x76 не оптимальные размеры имеет) и заодно проверить код. Слишком уж на много снижается сила игры Лилы, когда она может проиграть буквально за один ход

10.01.2019, 20:35	#1906
crem 2 разряд Регистрация: 30.04.2018 Сообщений: 252 Сказал(а) спасибо: 9 Поблагодарили 505 раз(а) в 193 сообщениях Репутация: 51	Re: LCZero Цитата: Сообщение от svoitsl Один день потерь (обучения тест40) все таки не Бог весть сколько много, вообще в особой торопливости её обучать нет особых причин, наверняка были мнения ,что лучше тест30 доучить, раз так повезло, что может Лила в суперфинал TCEC пройдет. (Там каждый десяток Эло не будет лишним) А тем временем оптимизировать матрицу (может 8x8x76 не оптимальные размеры имеет) и заодно проверить код. Слишком уж на много снижается сила игры Лилы, когда она может проиграть буквально за один ход Изменений пока в коде нет, по очень оптимистичным прогнозам весь код будет готов к использованию через неделю. В процессе подготовки к test40 был ещё test35 и test37.. По-хорошему, это всё надо бы повторить, чтобы зря электричество не жечь а потом баг найти.. Короче, наверное имеет смысл оставить test40 как есть. Но знать, что test50 будет лучше.

10.01.2019, 20:52	#1907
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Цитата: Сообщение от crem К чему я это говорю: test40 конечно ожидается, что будет лучше чем test30 из-за SE, но уже известно, что будет после test40. Интересно было бы узнать, когда оно будет. Каждые несколько месяцев рестартовать процесс обучения, получив на финише хорошо если десятка 3-4 ELO к прошлой сети (а то и нуль) - этак оно может и на года два растянуться. Вот простой пример: если бы не начали учить сеть 20, а потом 30, но продолжили бы учить сеть 10 - неужели за полгода ее не вышло бы "прокачать" до уровня лучших сетей 30 (из того, что я сам пощупал - это 32379)? Ведь разница мизерная, а полгода - это таки полгода.

10.01.2019, 21:05	#1908
Viktor Эксперт Регистрация: 07.06.2016 Сообщений: 5,907 Сказал(а) спасибо: 13,814 Поблагодарили 12,717 раз(а) в 4,521 сообщениях Репутация: 726	Re: LCZero Ребята, вы там не спешите "уничтожать" шахматы. Хотелось бы еще в них поиграть!

10.01.2019, 21:05	#1909
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero С точки зрения человека (даже и ведущих гроссмейстеров) шахматы уничтожены уже лет двадцать назад.

10.01.2019, 21:06	#1910
crem 2 разряд Регистрация: 30.04.2018 Сообщений: 252 Сказал(а) спасибо: 9 Поблагодарили 505 раз(а) в 193 сообщениях Репутация: 51	Re: LCZero Цитата: Сообщение от Maratka Вот простой пример: если бы не начали учить сеть 20, а потом 30, но продолжили бы учить сеть 10 - неужели за полгода ее не вышло бы "прокачать" до уровня лучших сетей 30 (из того, что я сам пощупал - это 32379)? Ведь разница мизерная, а полгода - это таки полгода. test10 был близок к пределу на минимальном Learning Rate. За полгода он бы ничему новому не научился. За первую неделю может и научился, а дальше -- нет. В test10 был баг (игнорировалось число ходов без взятия), и cpuct тоже считался неправильным (к тому моменту обнаружилось что последнее упоминание занчения cpuct было для AlphaGo и оно было 5, а не 1.8 как у нас), и может что-то ещё было плохо, я не помню. Всё, что было выучено при более высоком Learning Rate, тренировками на более низких LR не переучить. А возврат к высокому LR уничтожает весь прогресс, который произошёл после этого. Поэтому если найден баг, а уменьшение LR уже произошло (а оно происходит трижды в процессе тренировки) -- то проще всего начать заново.

10.01.2019, 21:36	#1911
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Понятно, спасибо! Но не слишком ли много багов? Вроде бы шахматные правила не очень сложные... ;) И еще разочек хотелось бы все же спросить: как скоро планируется закончить обучение с вменяемым результатом, скажем обойти 11248 (некоторые считают лучше 11250 - IMHO непринципиально) на... ну пусть будет сотни полторы реальных ELO (по результатам двух замеров: прямая дуэль сетей, и через посредника, скажем того же SF)?

10.01.2019, 21:48	#1912
svoitsl Гроссмейстер Регистрация: 19.04.2017 Сообщений: 4,734 Сказал(а) спасибо: 1,204 Поблагодарили 2,853 раз(а) в 1,885 сообщениях Репутация: 159	Re: LCZero Цитата: Сообщение от Maratka Но не слишком ли много багов? Не ошибается тот кто ничего не делает, главное что они все же находятся и исправляются Но пока, насколько я понял, пытаются воспроизвести A0, а уже скоро пора озаботиться хотя бы оптимизацией настроек (насколько настройки A0 оптимальны толком неизвестно, но даже если и так то они оптимальны для TPU) Цитата: Сообщение от Maratka на... ну пусть будет сотни полторы реальных ELO Вообще предсказывать тут затруднительно, идя след в след за A0 вряд ли можно достичь выдающихся результатов, если сравнить с A0 то они уже достигнуты (скорее всего Лила уже достигла уровня SF9) Цитата: Сообщение от Maratka (из того, что я сам пощупал - это 32379) Вот снова о тестировании..... В каких режимах это лучше делать? 1 С последним SF или между собой? (думаю что лучше между собой) 2 С дебютной книжкой или без (думаю что с книжкой на все возможные полуходы, их всего 20) 3 Какой делать контроль? (думаю что если между собой - то и 5000 узлов на ход хватит) Просто тестировщиков много, а вот методики единой нет вроде

10.01.2019, 23:57	#1913
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Цитата: Сообщение от svoitsl Но пока, насколько я понял, пытаются воспроизвести A0, Это наиглавнейшая проблема. AZ в целом не тянет на уровень SF10 (при игре без книг пожалуй переиграет, но с книгами - наоборот сольет с треском). Так что если из LZ пытаются создать опенсурсный аналог AZ, то смысла в движке немного.

11.01.2019, 00:02	#1914
svoitsl Гроссмейстер Регистрация: 19.04.2017 Сообщений: 4,734 Сказал(а) спасибо: 1,204 Поблагодарили 2,853 раз(а) в 1,885 сообщениях Репутация: 159	Re: LCZero Цитата: Сообщение от Maratka то смысла в движке немного. тут примерно как у китайцев, сперва копируют- потом или даже попутно совершенствуют. Смысл как видно есть.

11.01.2019, 03:34	#1915
Bullet 3 разряд Регистрация: 14.06.2016 Адрес: Москва Сообщений: 234 Сказал(а) спасибо: 142 Поблагодарили 878 раз(а) в 190 сообщениях Репутация: 49	Re: LCZero Цитата: Сообщение от crem Решил я как-то в конце декабря записать видео на ютубе о том как работает Lc0 и A0... Очень ждем! А есть ссылка на Ваш канал?

11.01.2019, 10:16	#1916
Magystr 2 разряд Регистрация: 03.08.2016 Сообщений: 311 Сказал(а) спасибо: 85 Поблагодарили 227 раз(а) в 123 сообщениях Репутация: 10	Re: LCZero Вот была (и есть) версия test10, сильная и быстрая. Как выясняется при ее формировании были какие-то баги. Потом попытались сделать test20. В общем-то неуспешно. Далее был (и есть test30). Может быть она чуть посильнее, чем test10 (но не факт), но уж точно гораздо медленнее. Сейчас начинается расчет test40. К чему он приведет - пока не очень понятно. У меня складывается впечатление, что гипотетическая сеть с размерностью 14 - 18 (с исправлениями) была бы точно сильнее имеющихся и test10, и test30. И к тому же достаточно быстрая. А скорость очень сильно помогает избежать просчетов.

11.01.2019, 11:20	#1917
Vizvezdenec Гроссмейстер Регистрация: 30.05.2018 Адрес: Севастополь Сообщений: 4,022 Сказал(а) спасибо: 56 Поблагодарили 5,294 раз(а) в 2,673 сообщениях Репутация: 216	Re: LCZero Цитата: Сообщение от Magystr Вот была (и есть) версия test10, сильная и быстрая. Как выясняется при ее формировании были какие-то баги. Потом попытались сделать test20. В общем-то неуспешно. Далее был (и есть test30). Может быть она чуть посильнее, чем test10 (но не факт), но уж точно гораздо медленнее. Сейчас начинается расчет test40. К чему он приведет - пока не очень понятно. У меня складывается впечатление, что гипотетическая сеть с размерностью 14 - 18 (с исправлениями) была бы точно сильнее имеющихся и test10, и test30. И к тому же достаточно быстрая. А скорость очень сильно помогает избежать просчетов. Тест 20, 30, 40 и т.д. никак не медленнее тест 10, т.к. они одинаковой размерности.

11.01.2019, 13:35	#1918
Magystr 2 разряд Регистрация: 03.08.2016 Сообщений: 311 Сказал(а) спасибо: 85 Поблагодарили 227 раз(а) в 123 сообщениях Репутация: 10	Re: LCZero Цитата: Сообщение от Vizvezdenec Тест 20, 30, 40 и т.д. никак не медленнее тест 10, т.к. они одинаковой размерности. Вы конечно же большой специалист в области шахматного программирования, но здесь Вы заблуждаетесь, как мне представляется. Размер сети сильно влияет на скорость расчета.

11.01.2019, 13:54	#1919
Vizvezdenec Гроссмейстер Регистрация: 30.05.2018 Адрес: Севастополь Сообщений: 4,022 Сказал(а) спасибо: 56 Поблагодарили 5,294 раз(а) в 2,673 сообщениях Репутация: 216	Re: LCZero Цитата: Сообщение от Magystr Вы конечно же большой специалист в области шахматного программирования, но здесь Вы заблуждаетесь, как мне представляется. Размер сети сильно влияет на скорость расчета. Влияет. Но эти сети имеют одинаковый размер 20х256. Разница только в методиках обучения и других нюансах.

11.01.2019, 15:35	#1920
Magystr 2 разряд Регистрация: 03.08.2016 Сообщений: 311 Сказал(а) спасибо: 85 Поблагодарили 227 раз(а) в 123 сообщениях Репутация: 10	Re: LCZero Цитата: Сообщение от Vizvezdenec Влияет. Но эти сети имеют одинаковый размер 20х256. Разница только в методиках обучения и других нюансах. Размеры РАЗНЫЕ и определяются первой цифрой (10,20,30,40). На начальной стадии для ускорения процесса, большие сети (30,35,40) могут начинать обучение с 10-ти, но потом переводятся на номинальный размер.

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)

Опции темы
Версия для печати Отправить по электронной почте
Опции просмотра
Линейный вид Комбинированный вид Древовидный вид