29.07.2019, 11:57 | #4291 |
Гроссмейстер
Регистрация: 20.01.2019
Сообщений: 1,067
Сказал(а) спасибо: 2
Поблагодарили 701 раз(а) в 343 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от Maratka
неоднократно видел, как по итогам 50 партий один движок выигрывает у другого где-то +12 -2 =36, что составляет целых 70 ELO разницы.
1. Без книги движки бесконечно играют два любимых дебюта, вариации появляются на 10-15 ходу, но непринципиальные Поэтому игры без дебютных книг считаются неинформативными С этим все согласны? Или у гуру своя версия? 2. Чтобы избежать этого, придумали тесты на дебютных книжках. Пусть движки играют разные начала белыми и черными 3. Кто-нибудь пробовал при прочих равных условиях по 100 раз давать программам одно и то же начало, которое было проиграно? Несмотря на вариации с 15 хода, движок будет проигрывать снова и снова и лишь в редких случаях сводить вничью. С этим опять кто-то не согласен? У кого-то проигранные варианты в 50% выигрываются? 4. Из этого следует, что итоговый счет зависит от выбора начал. Если программа случайно попадет на начала, которые она выигрывает, то счет может быть и 12-2. Здесь надо проверять, игрались начала списком или выбирались случайно Лила, например, чаще выигрывает хорошо ей знакомые дебюты, а на редких может сильно проиграть. У других движков тоже могут быть "любимые" начала. Это тоже надо доказывать? |
29.07.2019, 11:57 | #4292 |
КМС
Регистрация: 25.04.2019
Сообщений: 674
Сказал(а) спасибо: 293
Поблагодарили 641 раз(а) в 345 сообщениях
Репутация: 61
|
Re: LCZero
Цитата: Сообщение от Омегазеро
Вы откуда взяли такую глупость?
|
29.07.2019, 12:00 | #4293 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
Есть одна проблема.
Проводились тесты с одинаковыми дебютами и одинаковыми движками, которым чуть подвигали временной контроль. Результаты варьировались от +15-13=72 до +20-4=76 Одни и те же движки, одни и те же дебюты, всего-то разницы - увеличение времени с часа на партию до двух. Так что нет. В большущей вероятностью переиграйте тот же матч - получите вообще другой результат. Кстати говоря, это вообще не покрывает того, что я писал, когда 2 версии движка одинаковые показывают на дебютах с обратным цветом +10 эло на 5000 партий. Или у одинаковых движков тоже откуда-то взялись "неудобные" дебюты? |
29.07.2019, 12:04 | #4294 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
Цитата: Сообщение от alchemist888
Viz вероятно имел ввиду то, что когда вы говорите о какой-то положительной, или отрицательной динамике, то оцениваете ее по самому лучшему тесту, в то время как он с высокой вероятностью сильно отклонен от реального значения разницы в Эло, которое Вы бы получили при количестве партий стремящимся к бесконечности. Таким образом получается двойная ошибка. Первая - когда у Вас малое количество партий и большая погрешность в результатах, а вторая, когда Вы сравниваете результаты новых тестов с таким "отклоненным" тестом.
Примерно то же самое часто вижу на форумах, когда говорят про "регрессию" стокфиша. Да вот даже недавно - 5 регресс тестов подряд. 19, 24.1, 23.2, 23.7, 25.2 эло (за цифры не поручусь, но примерно так). Так вот никакого регресса между 2 и 5 тестами не было, просто 2 повезло попасть в лучшие 5%, на деле там было (условно) 22 эло. То же было и у Stefan Pohl, когда один тест стокфиша показал прирост в +12 эло и потом его 2 месяца не могли превзойти, но не потому что после него был резкий регресс в 6 эло, а просто вот ему так повезло (кстати говоря, игралось против одного и того же набора движков и с теми же дебютами). А вот на Nextchessmove https://nextchessmove.com/dev-builds до сих пор 229 эло побить не можем, так это по той причине, что 229 эло - сами по себе ошибка. |
29.07.2019, 12:07 | #4295 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
А, ещё добавлю, что нейросети да, почти всегда повторяют очень глубоко свои линии, но в случае стокфиша, особенно на многопоточной системе, это вообще не так, у него на е4 где-то 70% сицилианка, а 30% французская, или белыми он 50/50 подаёт e4 и d4 и т.д. В итоге он "сам себе вариация".
Да даже без книги вон он в проигрывающий вариант Каталона сейчас ходит в 20% случаев, в 60% вообще в другой вариант с развилкой на 4 ходу, а ещё в 20% случаев развилка на 10 примерно. |
29.07.2019, 12:13 | #4296 |
Эксперт
ТС
Регистрация: 01.12.2016
Сообщений: 5,696
Сказал(а) спасибо: 264
Поблагодарили 1,517 раз(а) в 1,153 сообщениях
Записей в дневнике: 15
|
Re: LCZero
Ну вот, хотел почитать о Лиле, а тут опять о тестах Стокфиш. Уже не знают где только не написать. Скоро на всех заборах будет инфа о регрессиях. И ведь хоть толк то бы был, один звон только.
__________________
10 оттенков https://www.youtube.com/playlist?lis...7RKv2pEmatnOBs |
29.07.2019, 12:20 | #4297 |
КМС
Регистрация: 25.04.2019
Сообщений: 674
Сказал(а) спасибо: 293
Поблагодарили 641 раз(а) в 345 сообщениях
Репутация: 61
|
Re: LCZero
Цитата: Сообщение от Омегазеро
...
3. Кто-нибудь пробовал при прочих равных условиях по 100 раз давать программам одно и то же начало, которое было проиграно? Несмотря на вариации с 15 хода, движок будет проигрывать снова и снова и лишь в редких случаях сводить вничью. С этим опять кто-то не согласен? У кого-то проигранные варианты в 50% выигрываются? 4. Из этого следует, что итоговый счет зависит от выбора начал... Да, Вы заменили одну переменную (дебюты) на константу, но у Вас все еще осталось множество других переменных, например: расход времени на ходы; разброс скорости LCZero (от сетки к сетке пляшет до 25%); дивергенция ходов после дебюта у одних и тех же версий движков, которая зависит от тайменеджмента, мультипоточности, случайности и других факторов; ошибки в цейтнотах; неудачный, или удачный выбор хода, где в одном случае движок выигрывает, в другом ничья, а в третьем зевок и поражение. Мы помним матч Stockfish - LCZero 32930, где было сыграно 100 партий без книги. Полностью идентичных партий мы не увидели, и по рисунку, даже в одном и том же варианте, многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги. |
29.07.2019, 12:46 | #4298 |
Эксперт
ТС
Регистрация: 01.12.2016
Сообщений: 5,696
Сказал(а) спасибо: 264
Поблагодарили 1,517 раз(а) в 1,153 сообщениях
Записей в дневнике: 15
|
Re: LCZero
Цитата: Сообщение от alchemist888
Мы помним матч Stockfish - LCZero 32930, где было сыграно 100 партий без книги. Полностью идентичных партий мы не увидели, и по рисунку, даже в одном и том же варианте, многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги.
__________________
10 оттенков https://www.youtube.com/playlist?lis...7RKv2pEmatnOBs |
29.07.2019, 12:51 | #4299 |
Гроссмейстер
Регистрация: 20.01.2019
Сообщений: 1,067
Сказал(а) спасибо: 2
Поблагодарили 701 раз(а) в 343 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от Vizvezdenec
Одни и те же движки, одни и те же дебюты, всего-то разницы - увеличение времени с часа на партию до двух.
Цитата: Сообщение от Vizvezdenec
В большущей вероятностью переиграйте тот же матч - получите вообще другой результат
В ваши патчи вшит счетчик случайных чисел и движок выбирает ходы случайно? При переигровке в тех же условиях варианты возникают, если два или более хода движок считает равноценными. Но часто ли встречается ситуация, когда на самом деле они не равноценны и неправильный выбор ведет к другому результату? Сейчас движки стали настолько сильными, что такая ситуация будет редкой. Поэтому в подавляющем большинстве случаев результат будет такой же ПРИ СОВЕРШЕННО РАВНЫХ условиях Еще может быть случай, когда при равных условиях движку в условиях многопоточности не хватает какой-то микросекунды, чтобы найти выигрышное продолжение. Но часто ли встречаются случаи, когда до такой находки не хватает совсем чуть-чуть и при переигровке движок оттяпает эту микросекунду, изменив ход игры? При одинаковом тайм-менеджменте это также редкий случай. Поэтому другой результат С БОЛЬШУЩЕЙ вероятностью - это абсурд. Главное - условия должны быть совершенно равные. Тогда и результаты одинаковые. |
29.07.2019, 12:56 | #4300 |
Гроссмейстер
Регистрация: 20.01.2019
Сообщений: 1,067
Сказал(а) спасибо: 2
Поблагодарили 701 раз(а) в 343 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от alchemist888
многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги.
|
29.07.2019, 13:05 | #4301 |
Эксперт
ТС
Регистрация: 01.12.2016
Сообщений: 5,696
Сказал(а) спасибо: 264
Поблагодарили 1,517 раз(а) в 1,153 сообщениях
Записей в дневнике: 15
|
Re: LCZero
Ещё такой фактор.
При тесте патчей Стокфиш в 40 000 игр и контроле 60+0.6 или меньше, как узнать точно как происходит выбор хода. Я смотрел анализы движков на глубину 40, там в конце такой бред, волосы дыбом. Как на таком лимите времени движок выбирает ход? Думаю что в немалой степени здесь как раз и есть фактор случайности. Не зря Vizvezdenec написал про 19, 24.1, 23.2, 23.7, 25.2 эло и про то, что 229 эло - сами по себе ошибка.. Вообще все эти тесты патчей с таким лимитом вещь весьма условная и судить по ним о прогрессе движка можно с большой натяжкой. Видно же не вооруженным взглядом что за последние пол года у Стока мертвый штиль, закаменел, как будь то на него посмотрела Горгона.
__________________
10 оттенков https://www.youtube.com/playlist?lis...7RKv2pEmatnOBs |
29.07.2019, 13:12 | #4302 |
Гроссмейстер
Регистрация: 20.01.2019
Сообщений: 1,067
Сказал(а) спасибо: 2
Поблагодарили 701 раз(а) в 343 сообщениях
Репутация: 92
|
Re: LCZero
Я согласна, что при очень коротком временном контроле ситуация, когда движок ошибается, считая ходы равноценными, будет возникать гораздо чаще
Также чаще будут встречаться случаи, когда не хватает совсем немного времени, чтобы найти правильный вариант Отсюда больше случайности Поэтому я считаю безумной глупостью тесты на коротких контролях. Даже больше количество партий не позволяет сгладить результаты. Фактически сравнивается не сила движков, а устойчивость к ошибкам |
Пользователь сказал cпасибо: | Alex_Zet (29.07.2019) |
29.07.2019, 13:15 | #4303 |
КМС
Регистрация: 25.04.2019
Сообщений: 674
Сказал(а) спасибо: 293
Поблагодарили 641 раз(а) в 345 сообщениях
Репутация: 61
|
Re: LCZero
Цитата: Сообщение от Омегазеро
Я согласна, что при очень коротком временном контроле ситуация, когда движок ошибается, считая ходы равноценными, будет возникать гораздо чаще
Также чаще будут встречаться случаи, когда не хватает совсем немного времени, чтобы найти правильный вариант Отсюда больше случайности Поэтому я считаю безумной глупостью тесты на коротких контролях. Даже больше количество партий не позволяет сгладить результаты. Фактически сравнивается не сила движков, а устойчивость к ошибкам |
29.07.2019, 13:33 | #4304 |
Эксперт
ТС
Регистрация: 01.12.2016
Сообщений: 5,696
Сказал(а) спасибо: 264
Поблагодарили 1,517 раз(а) в 1,153 сообщениях
Записей в дневнике: 15
|
Re: LCZero
Вполне может быть. Допустим в первом тесте Лила - Сток счет был 60 - 40, то во втором вполне себе может быть 70 - 30 и даже поболее.
__________________
10 оттенков https://www.youtube.com/playlist?lis...7RKv2pEmatnOBs |
29.07.2019, 14:15 | #4306 |
Гроссмейстер
Регистрация: 20.01.2019
Сообщений: 1,067
Сказал(а) спасибо: 2
Поблагодарили 701 раз(а) в 343 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от alchemist888
расход времени на ходы
Мне казалось, что при прочих равных условиях движок будет одинаково распределять время Цитата: Сообщение от alchemist888
которая зависит от тайменеджмента
Цитата: Сообщение от alchemist888
мультипоточности
Цитата: Сообщение от alchemist888
случайности
Цитата: Сообщение от alchemist888
и других факторов
Цитата: Сообщение от alchemist888
ошибки в цейтнотах
|
29.07.2019, 15:01 | #4307 |
КМС
Регистрация: 25.04.2019
Сообщений: 674
Сказал(а) спасибо: 293
Поблагодарили 641 раз(а) в 345 сообщениях
Репутация: 61
|
Re: LCZero
Омегазеро, эти факторы я приводил в пример, как показатель высокой дисперсионности результатов. Все сводится к тому, что в одних и тех же позициях движок может тратить разное время на ход, получать другие результаты анализа, и в конечном счете выбирать другое продолжение, которое повлечет за собой совершенно другую цепочку событий, и может повлиять на итоговый результат партии. Таких итераций только в одной игре около сотни на каждый движок.
Цитата: Сообщение от Омегазеро
В тайм-менеджмент встроен счетчик случайных чисел?
Мне казалось, что при прочих равных условиях движок будет одинаково распределять время Цитата: Сообщение от Омегазеро
ну и как от мультипоточности будут выбираться проигрышные ходы вместо выигрышных?
Цитата: Сообщение от Омегазеро
Цитата: Сообщение от alchemist888:
"и других факторов" Цитата: Сообщение от Омегазеро
каких?
Цитата: Сообщение от Омегазеро
прямо в коде прописана такая штука, как "ошибка в цейтноте"?
|
29.07.2019, 15:16 | #4308 |
Гроссмейстер
Регистрация: 30.05.2018
Адрес: Севастополь
Сообщений: 4,022
Сказал(а) спасибо: 56
Поблагодарили 5,294 раз(а) в 2,673 сообщениях
Репутация: 216
|
Re: LCZero
Не раз, не два и не три я видел, что стокфиш на 4 или там 8 ядрах находит решение тактической позиции то 3 секунды, то 3 минуты, то вообще не находит за 10. Особенно много такого с LazySMP, которое вообще "провоцирует" хождение у разных потоков по как можно более разным веткам поиска, а потом решение в кучу сваливает и "достаёт" сильнейший ход.
Т.е. результаты поиска при LazySMP принципиально отличаются от того, что получается на одном ядре, в то время как при YBWC они получались такими же. Ну зато он обходит закон Амдала и показывает значимый прирост силы вплоть до 400 потоков. Кстати, именно по этой причине, когда опытные люди тестируют движки на тактическую зоркость, они прогоняют 5 раз каждый тест, потому что результат может сильно отличаться. |
Пользователь сказал cпасибо: | Maratka (30.07.2019) |
29.07.2019, 15:46 | #4309 |
Гроссмейстер
Регистрация: 20.01.2019
Сообщений: 1,067
Сказал(а) спасибо: 2
Поблагодарили 701 раз(а) в 343 сообщениях
Репутация: 92
|
Re: LCZero
Цитата: Сообщение от alchemist888
Омегазеро, эти факторы я приводил в пример, как показатель высокой дисперсионности результатов.
Цитата: Сообщение от alchemist888
в конечном счете выбирать другое продолжение, которое повлечет за собой совершенно другую цепочку событий, и может повлиять на итоговый результат партии. Таких итераций только в одной игре около сотни на каждый движок
Вопрос, как часто такая развилка действительно изменит результат партии. В основном речь идет о выборе между почти равнозначными ходами Цитата: Сообщение от alchemist888
Движок должен решить нужно ли ему набирать сейчас большую глубину, или нет. И тут много рандома из-за мультипоточности
Цитата: Сообщение от alchemist888
Во втором случае время на решение будет сильно колебаться
Эти колебания будут критичными в цейтноте А при долгом временном контроле все подобные колебания будут сглажены Цитата: Сообщение от alchemist888
Ну например температура воздуха в помещении повысилась, что привело к легкому перегреву комплектующих и менее стабильной работе; операционная система дала сбой, и какие-то задачи нагружают процессор; в корпус заползло какое-то насекомое
К видеокарте тоже не подключен монитор, чтобы не загружать ее |
29.07.2019, 16:36 | #4310 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Цитата: Сообщение от Alex_Zet
Видно же не вооруженным взглядом что за последние пол года у Стока мертвый штиль, закаменел, как будь то на него посмотрела Горгона.
|
29.07.2019, 23:49 | #4312 |
Гроссмейстер
Регистрация: 19.04.2017
Сообщений: 4,734
Сказал(а) спасибо: 1,204
Поблагодарили 2,853 раз(а) в 1,885 сообщениях
Репутация: 159
|
Re: LCZero
Краткий (50 игр) тест Ruffian 2.1.0 сетью 60033 показал, что Ruffian 2.1.0 оказался сильнее примерно на 450 Эло.
Что означает, что сеть 60033 уже вышла за пределы 2000 Эло (2500-450) и превысила уровень 1-го разряда (в крайнем случае достигла) |
30.07.2019, 00:53 | #4313 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Сети учатся с нуля до ~3000 ELO с темпом тренировочных партий как у LZ за две-три недели. Никаких проблем. Проблемы начинаются когда нужно набрать еще 300-400 ELO сверх 3000. На это запросто может уйти еще месяц-два. А самая проблема - когда нужно "шлифонуться", чтобы набрать последние 100 ELO сверх 3300-3400. Сеть 4xx на это укатала месяца четыре.
|
30.07.2019, 01:57 | #4314 |
Гроссмейстер
Регистрация: 27.09.2017
Адрес: Москва
Сообщений: 4,142
Сказал(а) спасибо: 2,297
Поблагодарили 2,510 раз(а) в 1,635 сообщениях
Репутация: 92
|
Re: LCZero
Maratka, здесь сеть больше и параметры обучения лучше. Думаю, можно допустить, что до уровня Стока она относительно быстро дойдет.
|
30.07.2019, 10:51 | #4316 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Цитата: Сообщение от Омегазеро
Это говорит о разбросе результатов, но не говорит о СЛУЧАЙНОСТИ результатов
|
30.07.2019, 12:05 | #4317 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Цитата: Сообщение от Омегазеро
А теперь напомню предыдущий тест
После 50 партий Лила выигрывает со счетом 10:7 После 100 партий - 15:9 После 200 партий - 31:22 После 300 партий - 46:35 Теоретически ошибка большая, практически Лила захватывает лидерство и ведет с отрывом, которые меняется не сильно |
30.07.2019, 12:16 | #4318 |
Эксперт
Регистрация: 11.04.2017
Адрес: РФ, Крым, Севастополь.
Сообщений: 11,849
Сказал(а) спасибо: 3,311
Поблагодарили 5,952 раз(а) в 4,245 сообщениях
Репутация: 253
|
Re: LCZero
Цитата: Сообщение от sovaz1997
Maratka, здесь сеть больше и параметры обучения лучше. Думаю, можно допустить, что до уровня Стока она относительно быстро дойдет.
1) Параметры обучения - хорошо. Если они действительно лучше. Ибо лучшими они могли оказаться для маленькой сети (модели нынешней), которая как и любая модель не на 100% повторяет оригинал. 2) При этом размеры сети однозначно минус для обучения, ибо оно идет дольше. Ну и самый важный фактор: нельзя сравнивать сырую "мощность" сети и практическую ее игру из-за разных размеров, и как следствие скорости работы движка с этой сетью: из-за худшей производительности сети недостаточно сравняться с предыдущей по теоретическому ее интеллекту для обеспечения такой же силы игры. Новая сеть обязана обойти старую на вполне измеряемую, и скорее всего весьма немалую величину во много десятков, может даже на сотню-две ELO, чтобы сравняться со старой на малых контролях (причем TCEC'овский скорее всего малый, чем достаточный). Т.е. ощутить преимущество новой сети при небольшом превышении ее интеллекта над старой сетью можно только при бесконечном анализе, что актуально для адванса, но измерить по результатам турнира вряд-ли получится. |
Здесь присутствуют: 5 (пользователей: 0 , гостей: 5) | |
|
|