LCZero - Страница 144 - Forchess

Омегазеро · 29.07.2019, 11:57

Цитата: Сообщение от Maratka

неоднократно видел, как по итогам 50 партий один движок выигрывает у другого где-то +12 -2 =36, что составляет целых 70 ELO разницы.

Давайте разберемся в ситуации

1. Без книги движки бесконечно играют два любимых дебюта, вариации появляются на 10-15 ходу, но непринципиальные
Поэтому игры без дебютных книг считаются неинформативными
С этим все согласны? Или у гуру своя версия?

2. Чтобы избежать этого, придумали тесты на дебютных книжках. Пусть движки играют разные начала белыми и черными

3. Кто-нибудь пробовал при прочих равных условиях по 100 раз давать программам одно и то же начало, которое было проиграно? Несмотря на вариации с 15 хода, движок будет проигрывать снова и снова и лишь в редких случаях сводить вничью.
С этим опять кто-то не согласен? У кого-то проигранные варианты в 50% выигрываются?

4. Из этого следует, что итоговый счет зависит от выбора начал. Если программа случайно попадет на начала, которые она выигрывает, то счет может быть и 12-2. Здесь надо проверять, игрались начала списком или выбирались случайно
Лила, например, чаще выигрывает хорошо ей знакомые дебюты, а на редких может сильно проиграть. У других движков тоже могут быть "любимые" начала. Это тоже надо доказывать?

alchemist888 · 29.07.2019, 11:57

Цитата: Сообщение от Омегазеро

Вы откуда взяли такую глупость?

Viz вероятно имел ввиду то, что когда вы говорите о какой-то положительной, или отрицательной динамике, то оцениваете ее по самому лучшему тесту, в то время как он с высокой вероятностью сильно отклонен от реального значения разницы в Эло, которое Вы бы получили при количестве партий стремящимся к бесконечности. Таким образом получается двойная ошибка. Первая - когда у Вас малое количество партий и большая погрешность в результатах, а вторая, когда Вы сравниваете результаты новых тестов с таким "отклоненным" тестом.

Vizvezdenec · 29.07.2019, 12:00

Есть одна проблема.
Проводились тесты с одинаковыми дебютами и одинаковыми движками, которым чуть подвигали временной контроль.
Результаты варьировались от +15-13=72 до +20-4=76
Одни и те же движки, одни и те же дебюты, всего-то разницы - увеличение времени с часа на партию до двух.
Так что нет. В большущей вероятностью переиграйте тот же матч - получите вообще другой результат.
Кстати говоря, это вообще не покрывает того, что я писал, когда 2 версии движка одинаковые показывают на дебютах с обратным цветом +10 эло на 5000 партий. Или у одинаковых движков тоже откуда-то взялись "неудобные" дебюты?

Vizvezdenec · 29.07.2019, 12:04

Цитата: Сообщение от alchemist888

Viz вероятно имел ввиду то, что когда вы говорите о какой-то положительной, или отрицательной динамике, то оцениваете ее по самому лучшему тесту, в то время как он с высокой вероятностью сильно отклонен от реального значения разницы в Эло, которое Вы бы получили при количестве партий стремящимся к бесконечности. Таким образом получается двойная ошибка. Первая - когда у Вас малое количество партий и большая погрешность в результатах, а вторая, когда Вы сравниваете результаты новых тестов с таким "отклоненным" тестом.

Именно это и имею в виду.
Примерно то же самое часто вижу на форумах, когда говорят про "регрессию" стокфиша.
Да вот даже недавно - 5 регресс тестов подряд.
19, 24.1, 23.2, 23.7, 25.2 эло (за цифры не поручусь, но примерно так).
Так вот никакого регресса между 2 и 5 тестами не было, просто 2 повезло попасть в лучшие 5%, на деле там было (условно) 22 эло.
То же было и у Stefan Pohl, когда один тест стокфиша показал прирост в +12 эло и потом его 2 месяца не могли превзойти, но не потому что после него был резкий регресс в 6 эло, а просто вот ему так повезло (кстати говоря, игралось против одного и того же набора движков и с теми же дебютами).
А вот на Nextchessmove https://nextchessmove.com/dev-builds до сих пор 229 эло побить не можем, так это по той причине, что 229 эло - сами по себе ошибка.

Vizvezdenec · 29.07.2019, 12:07

А, ещё добавлю, что нейросети да, почти всегда повторяют очень глубоко свои линии, но в случае стокфиша, особенно на многопоточной системе, это вообще не так, у него на е4 где-то 70% сицилианка, а 30% французская, или белыми он 50/50 подаёт e4 и d4 и т.д. В итоге он "сам себе вариация".
Да даже без книги вон он в проигрывающий вариант Каталона сейчас ходит в 20% случаев, в 60% вообще в другой вариант с развилкой на 4 ходу, а ещё в 20% случаев развилка на 10 примерно.

Alex_Zet · 29.07.2019, 12:13

Ну вот, хотел почитать о Лиле, а тут опять о тестах Стокфиш. Уже не знают где только не написать. Скоро на всех заборах будет инфа о регрессиях. И ведь хоть толк то бы был, один звон только.

alchemist888 · 29.07.2019, 12:20

Цитата: Сообщение от Омегазеро

...
3. Кто-нибудь пробовал при прочих равных условиях по 100 раз давать программам одно и то же начало, которое было проиграно? Несмотря на вариации с 15 хода, движок будет проигрывать снова и снова и лишь в редких случаях сводить вничью.
С этим опять кто-то не согласен? У кого-то проигранные варианты в 50% выигрываются?

4. Из этого следует, что итоговый счет зависит от выбора начал...

Если Вы проводите тесты с всегда одинаковым дебютным набором, то это улучшает чистоту тестов, но тем не менее 400 игр все равно не достаточно, чтобы делать серьезные оценки прогресса/регресса.
Да, Вы заменили одну переменную (дебюты) на константу, но у Вас все еще осталось множество других переменных, например: расход времени на ходы; разброс скорости LCZero (от сетки к сетке пляшет до 25%); дивергенция ходов после дебюта у одних и тех же версий движков, которая зависит от тайменеджмента, мультипоточности, случайности и других факторов; ошибки в цейтнотах; неудачный, или удачный выбор хода, где в одном случае движок выигрывает, в другом ничья, а в третьем зевок и поражение.
Мы помним матч Stockfish - LCZero 32930, где было сыграно 100 партий без книги. Полностью идентичных партий мы не увидели, и по рисунку, даже в одном и том же варианте, многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги.

Alex_Zet · 29.07.2019, 12:46

Цитата: Сообщение от alchemist888

Мы помним матч Stockfish - LCZero 32930, где было сыграно 100 партий без книги. Полностью идентичных партий мы не увидели, и по рисунку, даже в одном и том же варианте, многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги.

Не означает ли это то, что результат того матча закончившегося 4 - 16 во многом случаен, как и результаты двух последних кубков и суперфинала 16?

Омегазеро · 29.07.2019, 12:51

Цитата: Сообщение от Vizvezdenec

Одни и те же движки, одни и те же дебюты, всего-то разницы - увеличение времени с часа на партию до двух.

Это увеличение позволяет во многих случаях больше "подумать" и досчитать до выигрышных или ничейных вариантов

Цитата: Сообщение от Vizvezdenec

В большущей вероятностью переиграйте тот же матч - получите вообще другой результат

Откуда? Откуда может получиться другой результат, если условия матча совершенно одинаковы (одинаковый контроль времени, скорость перебора, хэш, память)
В ваши патчи вшит счетчик случайных чисел и движок выбирает ходы случайно?

При переигровке в тех же условиях варианты возникают, если два или более хода движок считает равноценными. Но часто ли встречается ситуация, когда на самом деле они не равноценны и неправильный выбор ведет к другому результату?

Сейчас движки стали настолько сильными, что такая ситуация будет редкой. Поэтому в подавляющем большинстве случаев результат будет такой же ПРИ СОВЕРШЕННО РАВНЫХ условиях

Еще может быть случай, когда при равных условиях движку в условиях многопоточности не хватает какой-то микросекунды, чтобы найти выигрышное продолжение. Но часто ли встречаются случаи, когда до такой находки не хватает совсем чуть-чуть и при переигровке движок оттяпает эту микросекунду, изменив ход игры? При одинаковом тайм-менеджменте это также редкий случай.

Поэтому другой результат С БОЛЬШУЩЕЙ вероятностью - это абсурд. Главное - условия должны быть совершенно равные. Тогда и результаты одинаковые.

Омегазеро · 29.07.2019, 12:56

Цитата: Сообщение от alchemist888

многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги.

Это говорит о разбросе результатов, но не говорит о СЛУЧАЙНОСТИ результатов

Alex_Zet · 29.07.2019, 13:05

Ещё такой фактор.
При тесте патчей Стокфиш в 40 000 игр и контроле 60+0.6 или меньше, как узнать точно как происходит выбор хода. Я смотрел анализы движков на глубину 40, там в конце такой бред, волосы дыбом. Как на таком лимите времени движок выбирает ход? Думаю что в немалой степени здесь как раз и есть фактор случайности. Не зря Vizvezdenec написал про 19, 24.1, 23.2, 23.7, 25.2 эло и про то, что 229 эло - сами по себе ошибка.. Вообще все эти тесты патчей с таким лимитом вещь весьма условная и судить по ним о прогрессе движка можно с большой натяжкой. Видно же не вооруженным взглядом что за последние пол года у Стока мертвый штиль, закаменел, как будь то на него посмотрела Горгона.

Омегазеро · 29.07.2019, 13:12

Я согласна, что при очень коротком временном контроле ситуация, когда движок ошибается, считая ходы равноценными, будет возникать гораздо чаще
Также чаще будут встречаться случаи, когда не хватает совсем немного времени, чтобы найти правильный вариант
Отсюда больше случайности

Поэтому я считаю безумной глупостью тесты на коротких контролях. Даже больше количество партий не позволяет сгладить результаты. Фактически сравнивается не сила движков, а устойчивость к ошибкам

alchemist888 · 29.07.2019, 13:15

Цитата: Сообщение от Омегазеро

Я согласна, что при очень коротком временном контроле ситуация, когда движок ошибается, считая ходы равноценными, будет возникать гораздо чаще
Также чаще будут встречаться случаи, когда не хватает совсем немного времени, чтобы найти правильный вариант
Отсюда больше случайности

Поэтому я считаю безумной глупостью тесты на коротких контролях. Даже больше количество партий не позволяет сгладить результаты. Фактически сравнивается не сила движков, а устойчивость к ошибкам

То есть Вы утверждаете, что в Ваших тестах разброса в результатах не будет?

Alex_Zet · 29.07.2019, 13:33

Вполне может быть. Допустим в первом тесте Лила - Сток счет был 60 - 40, то во втором вполне себе может быть 70 - 30 и даже поболее.

Омегазеро · 29.07.2019, 13:50

Цитата: Сообщение от alchemist888

То есть Вы утверждаете, что в Ваших тестах разброса в результатах не будет?

Я утверждаю, что будет!

Омегазеро · 29.07.2019, 14:15

Цитата: Сообщение от alchemist888

расход времени на ходы

В тайм-менеджмент встроен счетчик случайных чисел?
Мне казалось, что при прочих равных условиях движок будет одинаково распределять время

Цитата: Сообщение от alchemist888

которая зависит от тайменеджмента

таймменеджмент у нас фиксированный, так как версия движка одна и та же

Цитата: Сообщение от alchemist888

мультипоточности

ну и как от мультипоточности будут выбираться проигрышные ходы вместо выигрышных?

Цитата: Сообщение от alchemist888

случайности

прямо в коде движка при выборе ходов, которые не считаются равноценными, вшит счетчик случайных чисел?

Цитата: Сообщение от alchemist888

и других факторов

каких?

Цитата: Сообщение от alchemist888

ошибки в цейтнотах

прямо в коде прописана такая штука, как "ошибка в цейтноте"?

alchemist888 · 29.07.2019, 15:01

Омегазеро, эти факторы я приводил в пример, как показатель высокой дисперсионности результатов. Все сводится к тому, что в одних и тех же позициях движок может тратить разное время на ход, получать другие результаты анализа, и в конечном счете выбирать другое продолжение, которое повлечет за собой совершенно другую цепочку событий, и может повлиять на итоговый результат партии. Таких итераций только в одной игре около сотни на каждый движок.

Цитата: Сообщение от Омегазеро

В тайм-менеджмент встроен счетчик случайных чисел?
Мне казалось, что при прочих равных условиях движок будет одинаково распределять время

Нет. Время будет расходоваться по-разному даже в одной и той же позиции и зависит это от данных, которые обрабатывают потоки. Условно. Движок должен решить нужно ли ему набирать сейчас большую глубину, или нет. И тут много рандома из-за мультипоточности.

Цитата: Сообщение от Омегазеро

ну и как от мультипоточности будут выбираться проигрышные ходы вместо выигрышных?

Мультипоточность сильно влияет на результат анализа. Вы можете проверить тестовые позиции на одном потоке, и на нескольких потоках. В первом случае результат почти всегда будет постоянным - движок решает позицию за определенное время. Во втором случае время на решение будет сильно колебаться.

Цитата: Сообщение от Омегазеро

Цитата: Сообщение от alchemist888:
"и других факторов"

Цитата: Сообщение от Омегазеро

каких?

Ну например температура воздуха в помещении повысилась, что привело к легкому перегреву комплектующих и менее стабильной работе; операционная система дала сбой, и какие-то задачи нагружают процессор; в корпус заползло какое-то насекомое

и т.д., и т.п. А если серьезно, то в основном имел ввиду дивергентность из-за мультипоточности.

Цитата: Сообщение от Омегазеро

прямо в коде прописана такая штука, как "ошибка в цейтноте"?

Цейтнот - это самая дисперсионная зона. Из-за нехватки времени движки выпускают перевес и попадают в проигранные положения. Из 400 игр только около 100 будет результативными, представьте какое влияние на результат оказывает цейтнот, если 10% решающих ошибок произошли именно в нем. Здесь единственное решение - увеличить количество партий, чтобы распределить влияние цейтнота на оба движка как можно равномернее.

Vizvezdenec · 29.07.2019, 15:16

Не раз, не два и не три я видел, что стокфиш на 4 или там 8 ядрах находит решение тактической позиции то 3 секунды, то 3 минуты, то вообще не находит за 10. Особенно много такого с LazySMP, которое вообще "провоцирует" хождение у разных потоков по как можно более разным веткам поиска, а потом решение в кучу сваливает и "достаёт" сильнейший ход.
Т.е. результаты поиска при LazySMP принципиально отличаются от того, что получается на одном ядре, в то время как при YBWC они получались такими же.
Ну зато он обходит закон Амдала и показывает значимый прирост силы вплоть до 400 потоков.

Кстати, именно по этой причине, когда опытные люди тестируют движки на тактическую зоркость, они прогоняют 5 раз каждый тест, потому что результат может сильно отличаться.

Омегазеро · 29.07.2019, 15:46

Цитата: Сообщение от alchemist888

Омегазеро, эти факторы я приводил в пример, как показатель высокой дисперсионности результатов.

Я знаю, просто ехидничаю

Цитата: Сообщение от alchemist888

в конечном счете выбирать другое продолжение, которое повлечет за собой совершенно другую цепочку событий, и может повлиять на итоговый результат партии. Таких итераций только в одной игре около сотни на каждый движок

Я об этом писала!
Вопрос, как часто такая развилка действительно изменит результат партии. В основном речь идет о выборе между почти равнозначными ходами

Цитата: Сообщение от alchemist888

Движок должен решить нужно ли ему набирать сейчас большую глубину, или нет. И тут много рандома из-за мультипоточности

Рандома немного, потому что движок не подбрасывает монетку, принимая решение. Различие будет только от этого:

Цитата: Сообщение от alchemist888

Во втором случае время на решение будет сильно колебаться

Но это не значит, что каждый раз движок будет упускать правильные ходы
Эти колебания будут критичными в цейтноте
А при долгом временном контроле все подобные колебания будут сглажены

Цитата: Сообщение от alchemist888

Ну например температура воздуха в помещении повысилась, что привело к легкому перегреву комплектующих и менее стабильной работе; операционная система дала сбой, и какие-то задачи нагружают процессор; в корпус заползло какое-то насекомое

У меня отдельный комп для тестов, чтобы процессор ничего не нагружало, специально поставлена чистая операционная система, чтобы ничего не мешало, и компьютер стоит под кондиционером
К видеокарте тоже не подключен монитор, чтобы не загружать ее

Maratka · 29.07.2019, 16:36

Цитата: Сообщение от Alex_Zet

Видно же не вооруженным взглядом что за последние пол года у Стока мертвый штиль, закаменел, как будь то на него посмотрела Горгона.

Зарядите текущую сборку против где-то февральской-мартовской. Уверен, что разница будет на вполне измеряемые 5-10 ELO, а может даже и больше, если конечно же партий достаточно много (скажем те же 40 тыс. на контроле 10+0.1).

svoitsl · 29.07.2019, 19:56

А рейтинг растет и растет

svoitsl · 29.07.2019, 23:49

Краткий (50 игр) тест Ruffian 2.1.0 сетью 60033 показал, что Ruffian 2.1.0 оказался сильнее примерно на 450 Эло.
Что означает, что сеть 60033 уже вышла за пределы 2000 Эло (2500-450) и превысила уровень 1-го разряда (в крайнем случае достигла)

Maratka · 30.07.2019, 00:53

Сети учатся с нуля до ~3000 ELO с темпом тренировочных партий как у LZ за две-три недели. Никаких проблем. Проблемы начинаются когда нужно набрать еще 300-400 ELO сверх 3000. На это запросто может уйти еще месяц-два. А самая проблема - когда нужно "шлифонуться", чтобы набрать последние 100 ELO сверх 3300-3400. Сеть 4xx на это укатала месяца четыре.

sovaz1997 · 30.07.2019, 01:57

Maratka, здесь сеть больше и параметры обучения лучше. Думаю, можно допустить, что до уровня Стока она относительно быстро дойдет.

svoitsl · 30.07.2019, 07:36

Уровень Стока перешла на более чем 20 Эло

Maratka · 30.07.2019, 10:51

Цитата: Сообщение от Омегазеро

Это говорит о разбросе результатов, но не говорит о СЛУЧАЙНОСТИ результатов

Вообще говоря, когда Вы кидаете банальную монетку, результат тоже разброс, а не СЛУЧАЙНОСТЬ, ибо зависит всего от нескольких факторов: как кинули, как поймали (или дали упасть), если упасть - какая поверхность, от чего зависит упадет ли она и "прилипнет" (скажем упала на песок), или будет скакать дальше (гранитная плита), были ли помехи при броске (ветер и подобное), т.е. в общем-то все просчитывается.

Maratka · 30.07.2019, 12:05

Цитата: Сообщение от Омегазеро

А теперь напомню предыдущий тест
После 50 партий Лила выигрывает со счетом 10:7
После 100 партий - 15:9
После 200 партий - 31:22
После 300 партий - 46:35
Теоретически ошибка большая, практически Лила захватывает лидерство и ведет с отрывом, которые меняется не сильно

А теперь разделите первое число на второе, и увидите "k побед". Если 15:9 (1,67) и 46:35 (1,31) - это называется "меняется не сильно", хотя в свою очередь оно изменилось на 27%, т.е. больше, чем на четверть - то я даже не знаю, какие еще аргументы нужны.

Maratka · 30.07.2019, 12:16

Цитата: Сообщение от sovaz1997

Maratka, здесь сеть больше и параметры обучения лучше. Думаю, можно допустить, что до уровня Стока она относительно быстро дойдет.

Еще раз повторюсь:
1) Параметры обучения - хорошо. Если они действительно лучше. Ибо лучшими они могли оказаться для маленькой сети (модели нынешней), которая как и любая модель не на 100% повторяет оригинал.
2) При этом размеры сети однозначно минус для обучения, ибо оно идет дольше.

Ну и самый важный фактор: нельзя сравнивать сырую "мощность" сети и практическую ее игру из-за разных размеров, и как следствие скорости работы движка с этой сетью: из-за худшей производительности сети недостаточно сравняться с предыдущей по теоретическому ее интеллекту для обеспечения такой же силы игры. Новая сеть обязана обойти старую на вполне измеряемую, и скорее всего весьма немалую величину во много десятков, может даже на сотню-две ELO, чтобы сравняться со старой на малых контролях (причем TCEC'овский скорее всего малый, чем достаточный).
Т.е. ощутить преимущество новой сети при небольшом превышении ее интеллекта над старой сетью можно только при бесконечном анализе, что актуально для адванса, но измерить по результатам турнира вряд-ли получится.

Neofelis · 30.07.2019, 13:30

Ну так уже увидели, что большая сеть играет сильнее. Терминатор на СССС, к примеру.

Maratka · 30.07.2019, 13:35

На 100 партиях?

Плюс мульти-GPU...

29.07.2019, 11:57	#4291
Омегазеро Гроссмейстер Регистрация: 20.01.2019 Сообщений: 1,067 Сказал(а) спасибо: 2 Поблагодарили 701 раз(а) в 343 сообщениях Репутация: 92	Re: LCZero Цитата: Сообщение от Maratka неоднократно видел, как по итогам 50 партий один движок выигрывает у другого где-то +12 -2 =36, что составляет целых 70 ELO разницы. Давайте разберемся в ситуации 1. Без книги движки бесконечно играют два любимых дебюта, вариации появляются на 10-15 ходу, но непринципиальные Поэтому игры без дебютных книг считаются неинформативными С этим все согласны? Или у гуру своя версия? 2. Чтобы избежать этого, придумали тесты на дебютных книжках. Пусть движки играют разные начала белыми и черными 3. Кто-нибудь пробовал при прочих равных условиях по 100 раз давать программам одно и то же начало, которое было проиграно? Несмотря на вариации с 15 хода, движок будет проигрывать снова и снова и лишь в редких случаях сводить вничью. С этим опять кто-то не согласен? У кого-то проигранные варианты в 50% выигрываются? 4. Из этого следует, что итоговый счет зависит от выбора начал. Если программа случайно попадет на начала, которые она выигрывает, то счет может быть и 12-2. Здесь надо проверять, игрались начала списком или выбирались случайно Лила, например, чаще выигрывает хорошо ей знакомые дебюты, а на редких может сильно проиграть. У других движков тоже могут быть "любимые" начала. Это тоже надо доказывать?

29.07.2019, 11:57	#4292
alchemist888 КМС Регистрация: 25.04.2019 Сообщений: 674 Сказал(а) спасибо: 293 Поблагодарили 641 раз(а) в 345 сообщениях Репутация: 61	Re: LCZero Цитата: Сообщение от Омегазеро Вы откуда взяли такую глупость? Viz вероятно имел ввиду то, что когда вы говорите о какой-то положительной, или отрицательной динамике, то оцениваете ее по самому лучшему тесту, в то время как он с высокой вероятностью сильно отклонен от реального значения разницы в Эло, которое Вы бы получили при количестве партий стремящимся к бесконечности. Таким образом получается двойная ошибка. Первая - когда у Вас малое количество партий и большая погрешность в результатах, а вторая, когда Вы сравниваете результаты новых тестов с таким "отклоненным" тестом.

29.07.2019, 12:00	#4293
Vizvezdenec Гроссмейстер Регистрация: 30.05.2018 Адрес: Севастополь Сообщений: 4,022 Сказал(а) спасибо: 56 Поблагодарили 5,294 раз(а) в 2,673 сообщениях Репутация: 216	Re: LCZero Есть одна проблема. Проводились тесты с одинаковыми дебютами и одинаковыми движками, которым чуть подвигали временной контроль. Результаты варьировались от +15-13=72 до +20-4=76 Одни и те же движки, одни и те же дебюты, всего-то разницы - увеличение времени с часа на партию до двух. Так что нет. В большущей вероятностью переиграйте тот же матч - получите вообще другой результат. Кстати говоря, это вообще не покрывает того, что я писал, когда 2 версии движка одинаковые показывают на дебютах с обратным цветом +10 эло на 5000 партий. Или у одинаковых движков тоже откуда-то взялись "неудобные" дебюты?

29.07.2019, 12:04	#4294
Vizvezdenec Гроссмейстер Регистрация: 30.05.2018 Адрес: Севастополь Сообщений: 4,022 Сказал(а) спасибо: 56 Поблагодарили 5,294 раз(а) в 2,673 сообщениях Репутация: 216	Re: LCZero Цитата: Сообщение от alchemist888 Viz вероятно имел ввиду то, что когда вы говорите о какой-то положительной, или отрицательной динамике, то оцениваете ее по самому лучшему тесту, в то время как он с высокой вероятностью сильно отклонен от реального значения разницы в Эло, которое Вы бы получили при количестве партий стремящимся к бесконечности. Таким образом получается двойная ошибка. Первая - когда у Вас малое количество партий и большая погрешность в результатах, а вторая, когда Вы сравниваете результаты новых тестов с таким "отклоненным" тестом. Именно это и имею в виду. Примерно то же самое часто вижу на форумах, когда говорят про "регрессию" стокфиша. Да вот даже недавно - 5 регресс тестов подряд. 19, 24.1, 23.2, 23.7, 25.2 эло (за цифры не поручусь, но примерно так). Так вот никакого регресса между 2 и 5 тестами не было, просто 2 повезло попасть в лучшие 5%, на деле там было (условно) 22 эло. То же было и у Stefan Pohl, когда один тест стокфиша показал прирост в +12 эло и потом его 2 месяца не могли превзойти, но не потому что после него был резкий регресс в 6 эло, а просто вот ему так повезло (кстати говоря, игралось против одного и того же набора движков и с теми же дебютами). А вот на Nextchessmove https://nextchessmove.com/dev-builds до сих пор 229 эло побить не можем, так это по той причине, что 229 эло - сами по себе ошибка.

29.07.2019, 12:07	#4295
Vizvezdenec Гроссмейстер Регистрация: 30.05.2018 Адрес: Севастополь Сообщений: 4,022 Сказал(а) спасибо: 56 Поблагодарили 5,294 раз(а) в 2,673 сообщениях Репутация: 216	Re: LCZero А, ещё добавлю, что нейросети да, почти всегда повторяют очень глубоко свои линии, но в случае стокфиша, особенно на многопоточной системе, это вообще не так, у него на е4 где-то 70% сицилианка, а 30% французская, или белыми он 50/50 подаёт e4 и d4 и т.д. В итоге он "сам себе вариация". Да даже без книги вон он в проигрывающий вариант Каталона сейчас ходит в 20% случаев, в 60% вообще в другой вариант с развилкой на 4 ходу, а ещё в 20% случаев развилка на 10 примерно.

29.07.2019, 12:13	#4296
Alex_Zet Эксперт ТС Регистрация: 01.12.2016 Сообщений: 5,696 Сказал(а) спасибо: 264 Поблагодарили 1,517 раз(а) в 1,153 сообщениях Записей в дневнике: 15 Репутация:	Re: LCZero Ну вот, хотел почитать о Лиле, а тут опять о тестах Стокфиш. Уже не знают где только не написать. Скоро на всех заборах будет инфа о регрессиях. И ведь хоть толк то бы был, один звон только. __________________ 10 оттенков https://www.youtube.com/playlist?lis...7RKv2pEmatnOBs

29.07.2019, 12:20	#4297
alchemist888 КМС Регистрация: 25.04.2019 Сообщений: 674 Сказал(а) спасибо: 293 Поблагодарили 641 раз(а) в 345 сообщениях Репутация: 61	Re: LCZero Цитата: Сообщение от Омегазеро ... 3. Кто-нибудь пробовал при прочих равных условиях по 100 раз давать программам одно и то же начало, которое было проиграно? Несмотря на вариации с 15 хода, движок будет проигрывать снова и снова и лишь в редких случаях сводить вничью. С этим опять кто-то не согласен? У кого-то проигранные варианты в 50% выигрываются? 4. Из этого следует, что итоговый счет зависит от выбора начал... Если Вы проводите тесты с всегда одинаковым дебютным набором, то это улучшает чистоту тестов, но тем не менее 400 игр все равно не достаточно, чтобы делать серьезные оценки прогресса/регресса. Да, Вы заменили одну переменную (дебюты) на константу, но у Вас все еще осталось множество других переменных, например: расход времени на ходы; разброс скорости LCZero (от сетки к сетке пляшет до 25%); дивергенция ходов после дебюта у одних и тех же версий движков, которая зависит от тайменеджмента, мультипоточности, случайности и других факторов; ошибки в цейтнотах; неудачный, или удачный выбор хода, где в одном случае движок выигрывает, в другом ничья, а в третьем зевок и поражение. Мы помним матч Stockfish - LCZero 32930, где было сыграно 100 партий без книги. Полностью идентичных партий мы не увидели, и по рисунку, даже в одном и том же варианте, многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги.

29.07.2019, 12:46	#4298
Alex_Zet Эксперт ТС Регистрация: 01.12.2016 Сообщений: 5,696 Сказал(а) спасибо: 264 Поблагодарили 1,517 раз(а) в 1,153 сообщениях Записей в дневнике: 15 Репутация:	Re: LCZero Цитата: Сообщение от alchemist888 Мы помним матч Stockfish - LCZero 32930, где было сыграно 100 партий без книги. Полностью идентичных партий мы не увидели, и по рисунку, даже в одном и том же варианте, многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги. Не означает ли это то, что результат того матча закончившегося 4 - 16 во многом случаен, как и результаты двух последних кубков и суперфинала 16? __________________ 10 оттенков https://www.youtube.com/playlist?lis...7RKv2pEmatnOBs

29.07.2019, 12:51	#4299
Омегазеро Гроссмейстер Регистрация: 20.01.2019 Сообщений: 1,067 Сказал(а) спасибо: 2 Поблагодарили 701 раз(а) в 343 сообщениях Репутация: 92	Re: LCZero Цитата: Сообщение от Vizvezdenec Одни и те же движки, одни и те же дебюты, всего-то разницы - увеличение времени с часа на партию до двух. Это увеличение позволяет во многих случаях больше "подумать" и досчитать до выигрышных или ничейных вариантов Цитата: Сообщение от Vizvezdenec В большущей вероятностью переиграйте тот же матч - получите вообще другой результат Откуда? Откуда может получиться другой результат, если условия матча совершенно одинаковы (одинаковый контроль времени, скорость перебора, хэш, память) В ваши патчи вшит счетчик случайных чисел и движок выбирает ходы случайно? При переигровке в тех же условиях варианты возникают, если два или более хода движок считает равноценными. Но часто ли встречается ситуация, когда на самом деле они не равноценны и неправильный выбор ведет к другому результату? Сейчас движки стали настолько сильными, что такая ситуация будет редкой. Поэтому в подавляющем большинстве случаев результат будет такой же ПРИ СОВЕРШЕННО РАВНЫХ условиях Еще может быть случай, когда при равных условиях движку в условиях многопоточности не хватает какой-то микросекунды, чтобы найти выигрышное продолжение. Но часто ли встречаются случаи, когда до такой находки не хватает совсем чуть-чуть и при переигровке движок оттяпает эту микросекунду, изменив ход игры? При одинаковом тайм-менеджменте это также редкий случай. Поэтому другой результат С БОЛЬШУЩЕЙ вероятностью - это абсурд. Главное - условия должны быть совершенно равные. Тогда и результаты одинаковые.

29.07.2019, 12:56	#4300
Омегазеро Гроссмейстер Регистрация: 20.01.2019 Сообщений: 1,067 Сказал(а) спасибо: 2 Поблагодарили 701 раз(а) в 343 сообщениях Репутация: 92	Re: LCZero Цитата: Сообщение от alchemist888 многие партии отличались. Что говорит о высокой степени разброса результатов даже в случае игры без дебютной книги. Это говорит о разбросе результатов, но не говорит о СЛУЧАЙНОСТИ результатов

29.07.2019, 13:05	#4301
Alex_Zet Эксперт ТС Регистрация: 01.12.2016 Сообщений: 5,696 Сказал(а) спасибо: 264 Поблагодарили 1,517 раз(а) в 1,153 сообщениях Записей в дневнике: 15 Репутация:	Re: LCZero Ещё такой фактор. При тесте патчей Стокфиш в 40 000 игр и контроле 60+0.6 или меньше, как узнать точно как происходит выбор хода. Я смотрел анализы движков на глубину 40, там в конце такой бред, волосы дыбом. Как на таком лимите времени движок выбирает ход? Думаю что в немалой степени здесь как раз и есть фактор случайности. Не зря Vizvezdenec написал про 19, 24.1, 23.2, 23.7, 25.2 эло и про то, что 229 эло - сами по себе ошибка.. Вообще все эти тесты патчей с таким лимитом вещь весьма условная и судить по ним о прогрессе движка можно с большой натяжкой. Видно же не вооруженным взглядом что за последние пол года у Стока мертвый штиль, закаменел, как будь то на него посмотрела Горгона. __________________ 10 оттенков https://www.youtube.com/playlist?lis...7RKv2pEmatnOBs

29.07.2019, 13:12	#4302
Омегазеро Гроссмейстер Регистрация: 20.01.2019 Сообщений: 1,067 Сказал(а) спасибо: 2 Поблагодарили 701 раз(а) в 343 сообщениях Репутация: 92	Re: LCZero Я согласна, что при очень коротком временном контроле ситуация, когда движок ошибается, считая ходы равноценными, будет возникать гораздо чаще Также чаще будут встречаться случаи, когда не хватает совсем немного времени, чтобы найти правильный вариант Отсюда больше случайности Поэтому я считаю безумной глупостью тесты на коротких контролях. Даже больше количество партий не позволяет сгладить результаты. Фактически сравнивается не сила движков, а устойчивость к ошибкам

29.07.2019, 13:15	#4303
alchemist888 КМС Регистрация: 25.04.2019 Сообщений: 674 Сказал(а) спасибо: 293 Поблагодарили 641 раз(а) в 345 сообщениях Репутация: 61	Re: LCZero Цитата: Сообщение от Омегазеро Я согласна, что при очень коротком временном контроле ситуация, когда движок ошибается, считая ходы равноценными, будет возникать гораздо чаще Также чаще будут встречаться случаи, когда не хватает совсем немного времени, чтобы найти правильный вариант Отсюда больше случайности Поэтому я считаю безумной глупостью тесты на коротких контролях. Даже больше количество партий не позволяет сгладить результаты. Фактически сравнивается не сила движков, а устойчивость к ошибкам То есть Вы утверждаете, что в Ваших тестах разброса в результатах не будет?

29.07.2019, 13:33	#4304
Alex_Zet Эксперт ТС Регистрация: 01.12.2016 Сообщений: 5,696 Сказал(а) спасибо: 264 Поблагодарили 1,517 раз(а) в 1,153 сообщениях Записей в дневнике: 15 Репутация:	Re: LCZero Вполне может быть. Допустим в первом тесте Лила - Сток счет был 60 - 40, то во втором вполне себе может быть 70 - 30 и даже поболее. __________________ 10 оттенков https://www.youtube.com/playlist?lis...7RKv2pEmatnOBs

29.07.2019, 13:50	#4305
Омегазеро Гроссмейстер Регистрация: 20.01.2019 Сообщений: 1,067 Сказал(а) спасибо: 2 Поблагодарили 701 раз(а) в 343 сообщениях Репутация: 92	Re: LCZero Цитата: Сообщение от alchemist888 То есть Вы утверждаете, что в Ваших тестах разброса в результатах не будет? Я утверждаю, что будет!

29.07.2019, 14:15	#4306
Омегазеро Гроссмейстер Регистрация: 20.01.2019 Сообщений: 1,067 Сказал(а) спасибо: 2 Поблагодарили 701 раз(а) в 343 сообщениях Репутация: 92	Re: LCZero Цитата: Сообщение от alchemist888 расход времени на ходы В тайм-менеджмент встроен счетчик случайных чисел? Мне казалось, что при прочих равных условиях движок будет одинаково распределять время Цитата: Сообщение от alchemist888 которая зависит от тайменеджмента таймменеджмент у нас фиксированный, так как версия движка одна и та же Цитата: Сообщение от alchemist888 мультипоточности ну и как от мультипоточности будут выбираться проигрышные ходы вместо выигрышных? Цитата: Сообщение от alchemist888 случайности прямо в коде движка при выборе ходов, которые не считаются равноценными, вшит счетчик случайных чисел? Цитата: Сообщение от alchemist888 и других факторов каких? Цитата: Сообщение от alchemist888 ошибки в цейтнотах прямо в коде прописана такая штука, как "ошибка в цейтноте"?

29.07.2019, 15:01	#4307
alchemist888 КМС Регистрация: 25.04.2019 Сообщений: 674 Сказал(а) спасибо: 293 Поблагодарили 641 раз(а) в 345 сообщениях Репутация: 61	Re: LCZero Омегазеро, эти факторы я приводил в пример, как показатель высокой дисперсионности результатов. Все сводится к тому, что в одних и тех же позициях движок может тратить разное время на ход, получать другие результаты анализа, и в конечном счете выбирать другое продолжение, которое повлечет за собой совершенно другую цепочку событий, и может повлиять на итоговый результат партии. Таких итераций только в одной игре около сотни на каждый движок. Цитата: Сообщение от Омегазеро В тайм-менеджмент встроен счетчик случайных чисел? Мне казалось, что при прочих равных условиях движок будет одинаково распределять время Нет. Время будет расходоваться по-разному даже в одной и той же позиции и зависит это от данных, которые обрабатывают потоки. Условно. Движок должен решить нужно ли ему набирать сейчас большую глубину, или нет. И тут много рандома из-за мультипоточности. Цитата: Сообщение от Омегазеро ну и как от мультипоточности будут выбираться проигрышные ходы вместо выигрышных? Мультипоточность сильно влияет на результат анализа. Вы можете проверить тестовые позиции на одном потоке, и на нескольких потоках. В первом случае результат почти всегда будет постоянным - движок решает позицию за определенное время. Во втором случае время на решение будет сильно колебаться. Цитата: Сообщение от Омегазеро Цитата: Сообщение от alchemist888: "и других факторов" Цитата: Сообщение от Омегазеро каких? Ну например температура воздуха в помещении повысилась, что привело к легкому перегреву комплектующих и менее стабильной работе; операционная система дала сбой, и какие-то задачи нагружают процессор; в корпус заползло какое-то насекомое и т.д., и т.п. А если серьезно, то в основном имел ввиду дивергентность из-за мультипоточности. Цитата: Сообщение от Омегазеро прямо в коде прописана такая штука, как "ошибка в цейтноте"? Цейтнот - это самая дисперсионная зона. Из-за нехватки времени движки выпускают перевес и попадают в проигранные положения. Из 400 игр только около 100 будет результативными, представьте какое влияние на результат оказывает цейтнот, если 10% решающих ошибок произошли именно в нем. Здесь единственное решение - увеличить количество партий, чтобы распределить влияние цейтнота на оба движка как можно равномернее.

29.07.2019, 15:16	#4308
Vizvezdenec Гроссмейстер Регистрация: 30.05.2018 Адрес: Севастополь Сообщений: 4,022 Сказал(а) спасибо: 56 Поблагодарили 5,294 раз(а) в 2,673 сообщениях Репутация: 216	Re: LCZero Не раз, не два и не три я видел, что стокфиш на 4 или там 8 ядрах находит решение тактической позиции то 3 секунды, то 3 минуты, то вообще не находит за 10. Особенно много такого с LazySMP, которое вообще "провоцирует" хождение у разных потоков по как можно более разным веткам поиска, а потом решение в кучу сваливает и "достаёт" сильнейший ход. Т.е. результаты поиска при LazySMP принципиально отличаются от того, что получается на одном ядре, в то время как при YBWC они получались такими же. Ну зато он обходит закон Амдала и показывает значимый прирост силы вплоть до 400 потоков. Кстати, именно по этой причине, когда опытные люди тестируют движки на тактическую зоркость, они прогоняют 5 раз каждый тест, потому что результат может сильно отличаться.

29.07.2019, 15:46	#4309
Омегазеро Гроссмейстер Регистрация: 20.01.2019 Сообщений: 1,067 Сказал(а) спасибо: 2 Поблагодарили 701 раз(а) в 343 сообщениях Репутация: 92	Re: LCZero Цитата: Сообщение от alchemist888 Омегазеро, эти факторы я приводил в пример, как показатель высокой дисперсионности результатов. Я знаю, просто ехидничаю Цитата: Сообщение от alchemist888 в конечном счете выбирать другое продолжение, которое повлечет за собой совершенно другую цепочку событий, и может повлиять на итоговый результат партии. Таких итераций только в одной игре около сотни на каждый движок Я об этом писала! Вопрос, как часто такая развилка действительно изменит результат партии. В основном речь идет о выборе между почти равнозначными ходами Цитата: Сообщение от alchemist888 Движок должен решить нужно ли ему набирать сейчас большую глубину, или нет. И тут много рандома из-за мультипоточности Рандома немного, потому что движок не подбрасывает монетку, принимая решение. Различие будет только от этого: Цитата: Сообщение от alchemist888 Во втором случае время на решение будет сильно колебаться Но это не значит, что каждый раз движок будет упускать правильные ходы Эти колебания будут критичными в цейтноте А при долгом временном контроле все подобные колебания будут сглажены Цитата: Сообщение от alchemist888 Ну например температура воздуха в помещении повысилась, что привело к легкому перегреву комплектующих и менее стабильной работе; операционная система дала сбой, и какие-то задачи нагружают процессор; в корпус заползло какое-то насекомое У меня отдельный комп для тестов, чтобы процессор ничего не нагружало, специально поставлена чистая операционная система, чтобы ничего не мешало, и компьютер стоит под кондиционером К видеокарте тоже не подключен монитор, чтобы не загружать ее

29.07.2019, 16:36	#4310
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Цитата: Сообщение от Alex_Zet Видно же не вооруженным взглядом что за последние пол года у Стока мертвый штиль, закаменел, как будь то на него посмотрела Горгона. Зарядите текущую сборку против где-то февральской-мартовской. Уверен, что разница будет на вполне измеряемые 5-10 ELO, а может даже и больше, если конечно же партий достаточно много (скажем те же 40 тыс. на контроле 10+0.1).

29.07.2019, 19:56	#4311
svoitsl Гроссмейстер Регистрация: 19.04.2017 Сообщений: 4,734 Сказал(а) спасибо: 1,204 Поблагодарили 2,853 раз(а) в 1,885 сообщениях Репутация: 159	Re: LCZero А рейтинг растет и растет

29.07.2019, 23:49	#4312
svoitsl Гроссмейстер Регистрация: 19.04.2017 Сообщений: 4,734 Сказал(а) спасибо: 1,204 Поблагодарили 2,853 раз(а) в 1,885 сообщениях Репутация: 159	Re: LCZero Краткий (50 игр) тест Ruffian 2.1.0 сетью 60033 показал, что Ruffian 2.1.0 оказался сильнее примерно на 450 Эло. Что означает, что сеть 60033 уже вышла за пределы 2000 Эло (2500-450) и превысила уровень 1-го разряда (в крайнем случае достигла)

30.07.2019, 00:53	#4313
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Сети учатся с нуля до ~3000 ELO с темпом тренировочных партий как у LZ за две-три недели. Никаких проблем. Проблемы начинаются когда нужно набрать еще 300-400 ELO сверх 3000. На это запросто может уйти еще месяц-два. А самая проблема - когда нужно "шлифонуться", чтобы набрать последние 100 ELO сверх 3300-3400. Сеть 4xx на это укатала месяца четыре.

30.07.2019, 01:57	#4314
sovaz1997 Гроссмейстер Регистрация: 27.09.2017 Адрес: Москва Сообщений: 4,142 Сказал(а) спасибо: 2,297 Поблагодарили 2,510 раз(а) в 1,635 сообщениях Репутация: 92	Re: LCZero Maratka, здесь сеть больше и параметры обучения лучше. Думаю, можно допустить, что до уровня Стока она относительно быстро дойдет.

30.07.2019, 07:36	#4315
svoitsl Гроссмейстер Регистрация: 19.04.2017 Сообщений: 4,734 Сказал(а) спасибо: 1,204 Поблагодарили 2,853 раз(а) в 1,885 сообщениях Репутация: 159	Re: LCZero Уровень Стока перешла на более чем 20 Эло

30.07.2019, 10:51	#4316
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Цитата: Сообщение от Омегазеро Это говорит о разбросе результатов, но не говорит о СЛУЧАЙНОСТИ результатов Вообще говоря, когда Вы кидаете банальную монетку, результат тоже разброс, а не СЛУЧАЙНОСТЬ, ибо зависит всего от нескольких факторов: как кинули, как поймали (или дали упасть), если упасть - какая поверхность, от чего зависит упадет ли она и "прилипнет" (скажем упала на песок), или будет скакать дальше (гранитная плита), были ли помехи при броске (ветер и подобное), т.е. в общем-то все просчитывается.

30.07.2019, 12:05	#4317
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Цитата: Сообщение от Омегазеро А теперь напомню предыдущий тест После 50 партий Лила выигрывает со счетом 10:7 После 100 партий - 15:9 После 200 партий - 31:22 После 300 партий - 46:35 Теоретически ошибка большая, практически Лила захватывает лидерство и ведет с отрывом, которые меняется не сильно А теперь разделите первое число на второе, и увидите "k побед". Если 15:9 (1,67) и 46:35 (1,31) - это называется "меняется не сильно", хотя в свою очередь оно изменилось на 27%, т.е. больше, чем на четверть - то я даже не знаю, какие еще аргументы нужны.

30.07.2019, 12:16	#4318
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero Цитата: Сообщение от sovaz1997 Maratka, здесь сеть больше и параметры обучения лучше. Думаю, можно допустить, что до уровня Стока она относительно быстро дойдет. Еще раз повторюсь: 1) Параметры обучения - хорошо. Если они действительно лучше. Ибо лучшими они могли оказаться для маленькой сети (модели нынешней), которая как и любая модель не на 100% повторяет оригинал. 2) При этом размеры сети однозначно минус для обучения, ибо оно идет дольше. Ну и самый важный фактор: нельзя сравнивать сырую "мощность" сети и практическую ее игру из-за разных размеров, и как следствие скорости работы движка с этой сетью: из-за худшей производительности сети недостаточно сравняться с предыдущей по теоретическому ее интеллекту для обеспечения такой же силы игры. Новая сеть обязана обойти старую на вполне измеряемую, и скорее всего весьма немалую величину во много десятков, может даже на сотню-две ELO, чтобы сравняться со старой на малых контролях (причем TCEC'овский скорее всего малый, чем достаточный). Т.е. ощутить преимущество новой сети при небольшом превышении ее интеллекта над старой сетью можно только при бесконечном анализе, что актуально для адванса, но измерить по результатам турнира вряд-ли получится.

30.07.2019, 13:30	#4319
Neofelis 2 разряд Регистрация: 14.02.2019 Сообщений: 311 Сказал(а) спасибо: 0 Поблагодарили 149 раз(а) в 107 сообщениях Репутация: 10	Re: LCZero Ну так уже увидели, что большая сеть играет сильнее. Терминатор на СССС, к примеру.

30.07.2019, 13:35	#4320
Maratka Эксперт Регистрация: 11.04.2017 Адрес: РФ, Крым, Севастополь. Сообщений: 11,849 Сказал(а) спасибо: 3,311 Поблагодарили 5,952 раз(а) в 4,245 сообщениях Репутация: 253	Re: LCZero На 100 партиях? Плюс мульти-GPU...

Здесь присутствуют: 5 (пользователей: 0 , гостей: 5)