TSC! Russia     

РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ - TSC! Russia

Присоединяйтесь к команде распределенных вычислений TSC! Russia!
о команде | новости | ссылки | файлы | форум команды
наши герои | наши даты | наши достижения

Проект Folding@Home | Другие проекты

Известные проблемы

На этой странице перечислены проблемы, с которыми нашей команде (и не только ей :) приходилось встречаться в проекте Community TSC, а также их возможные причины и способы решения, если они нам известны. 

Внимательно прочтите список проблем, сгруппированный по разделам. Если вашей (или аналогичной) проблемы нет в списке, или для нее не дано решения, или наше решение вам не помогло, не отчаивайтесь. Ваши товарищи по команде всегда постараются помочь. Для этого обратитесь в наш форум.

Возможно также, что то, что вы заметили, вовсе не проблема, а особенность процесса счета, работы сервера или программы-клиента. Некоторые особенности работы можно найти на наших страничках, посвященных настройкам клиента. 

1. Проблемы со статистикой

1.1. Меня нет в команде, хотя я только что (недавно) присоединился.

 1.2. Я установил ещё одну ноду, но не вижу её в статистике: ни на персональной странице, ни в профиле команды.

1.3. Количество посчитанных кандидатов не меняется, хотя я их закачиваю на сервер.

1.4. Количество посчитанных мною кандидатов меняется, то увеличиваясь, то уменьшаясь ("у меня отбирают кандидатов!").

1.5. Мне насчитывается фантастически большое количество кандидатов за день/неделю. Я столько не считаю!

1.6. Я закачиваю на сервер кандидаты, но засчитывается только часть из них!

1.7. У меня отбирают (отобрали) моего лучшего кандидата! Раньше он был на сервере, теперь его больше не видно, или же он так и не появился на сервере!

1.8. Не грузится статистика или грузится непонятно что (например, страница с сообщениями об ошибках в выполнении javascript).

2. Проблемы с работой клиента или основного сервера проекта

2.1. Клиент не считает (загрузка процессора - 0), хотя  в окне отображаются цель и молекула кандидата.

2.2. Клиент не считает, в окне клиента не отображаются ни цель, ни кандидат, зато имеется надпись "Initializing... (This may take several minutes)".

2.3. Очень часто появляются сообщения об ошибках в программах докера и гридера (для платформы Windows это программы dockwin.exe, gridwin.exe).

2.4. После нештатной перезагрузки системы обнуляются входящая и/или исходящая очереди кандидатов, пропадает локальная статистика или не запускается клиент.

2.5. В процессе счёта компьютер самопроизвольно перезагружается, выключается или "повисает".

2.6. Соединение с Интернетом установлено, но закачки кандидатов с сервера и/или на сервер не происходит.

2.7. Клиент работает, конформеры считаются, но молекулы кандидата в окне не видно (или же видны отдельные разорванные атомы, группы атомов).

2.8. Не получается зарегистрировать (добавить) ноду или присоединиться к команде Russia.

3. Причины проблем и пути решения:

1.1. Меня нет в команде, хотя я только что (недавно) присоединился.

Причины и решения:

Прежде всего, посмотрите на свою персональную страничку в проекте. Если там есть указание на членство в команде (раздел "Team Information"), то командная статистика просто не успела обновиться. 
В зависимости от загрузки и проводимых на сервере статистики работ это может занять от 2-3 минут до получаса, если сервер вообще работает. Если вам повезло, и это 2-3 минуты, то просто перезагрузите страницу в броузере. 
Также можно посмотреть в профайле команды, имеется ли внизу страницы указание на новых пользователей, ожидающих обновления статистики ("awaiting a statistics update"). Если такая строка имеется, то скорее всего, именно вы послужили причиной для её появления. :)

Если на персональной страничке тоже нет указания на команду, то вероятнее всего, при присоединении к команде произошла ошибка. Повторите попытку. Советую также прочесть на данной странице пути решения проблемы 2.8.

 1.2. Я установил ещё одну ноду, но не вижу её в статистике: ни на персональной странице, ни в профиле команды.

Причины и решения:

В проекте Community TSC мало просто зарегистрировать ноду на ваш e-mail. Нужно еще зайти на вашу персональную страничку, где через кнопку "Add node"  присоединить её "официально". Сделано это для того, чтобы случайно зарегистрированные ноды не засоряли статистику.

Хуже, если при регистрации ноды вы ошибочно ввели отличный от первоначально заданного e-mail адрес. Даже если он отличается только заглавной буквой (прописная - строчная), сервер воспринимает это как другой адрес. После этого остается только удалить файл node.prp и провести новую регистрацию. Главное, чтобы старая нода с ошибочным почтовым адресом не успела сбросить на сервер результаты расчётов - они, к сожалению, просто пропадут.
В качестве альтернативной возможности, можно направить письмо одному из ведущих проекта, дабы ошибка была вручную исправлена на сервере. Но это целесообразно только в случае, если вы много теряете, так как успех не гарантирован.

Если же вы нормально присоединяли ноду, то, как и в предыдущем случае, либо сервер не успел обновить статистику, либо произошла ошибка при присоединении. Попробуйте повторить процедуру снова.

1.3. Количество посчитанных кандидатов не меняется, хотя я их закачиваю на сервер.

Причины и решения:

Скорее всего, сервер либо ещё не успел обновить данные (это занимает от нескольких минут до получаса), либо имеются сбои в его работе. Бывает, что при проведении работ или ошибках сервера сумма кандидатов перестает обновляться, несмотря на то, что посчитанные принимаются, а новые выдаются. Для проверки этого предположения загрузите одну из страниц статистики за сегодняшний день (командную или членов проекта) и посмотрите дату и время последнего обновления статистики. Если оно было довольно давно - то причина в останове сервера.
В такой ситуации вас должно утешать то, что кандидаты никуда не пропадают, и сколько бы не длились проблемы, по их окончании ВСЕ посчитанные кандидаты засчитываются.

Некоторые члены команды сообщали (не проверено!) также о полном пропадании посчитанных кандидатов ("не дошли до сервера"). Это теоретически возможно, но практически маловероятно, в силу устройства самого процесса закачки. Другое дело, если произошел аппаратный сбой и обнулился файл очереди (см. п. 2.4.)... Но это к серверу отношения не имеет.

1.4. Количество посчитанных мною кандидатов меняется, то увеличиваясь, то уменьшаясь ( "у меня отбирают кандидатов!").

Причины и решения:

Это сбой на сервере. Обратите внимание, при этом время и дата, на которые приводятся данные, меняются точно так же (на командной страничке время не видно, используйте странички результатов за сегодня). Подождите, пока сервер отладят, и ничего у вас не пропадёт.

1.5. Мне насчитывается фантастически большое количество кандидатов за день/неделю. Я столько не считаю!

Причины и решения:

Это проблема с неким шедулером сервера статистики. Из-за сбоев, которые начались в процессе его переналадки в январе-феврале 2003 года, иногда засчитываются за "сегодня" кандидаты за два и даже три дня, как членам команд, так и целым командам. Однако общее количество кандидатов и у вас, и у других при этом считается правильно, а это главное!

1.6. Я закачиваю на сервер кандидаты, но засчитывается только часть из них!

Причины и решения:

Предположительно, имеется несколько принимающих результаты серверов. Иногда барахлят все, тогда проявляется проблема под номером 1.3. Но иногда сбои затрагивают только один сервер, и продолжая принимать кандидатов, он их не засчитывает. После исправления сервера всё будет засчитано полностью.

1.7. У меня отбирают (отобрали) моего лучшего кандидата! Раньше он был на сервере, теперь его больше не видно, или же он так и не появился на сервере!

Причины и решения:

Во-первых, к сожалению, в этой части статистика проекта оставляет желать лучшего, и ваш рекордный кандидат может не отражаться в общих рекордах. Более того, многократно зафиксированы случаи, когда рекорды для ноды на самом сервере были выше, чем общие рекорды всего проекта, что свидетельствует об элементарных программных ошибках. В принципе, поскольку результаты всех кандидатов все равно сохранены в базе данных, то при исправлении статистических программ ваш лучший результат появится.

Это всего лишь предположение, но вторая возможная причина состоит в том, что подавляющее большинство результатов, как пояснил один из ведущих проекта, не должны превышать -30. Поэтому все выдающиеся рекорды по целям PTEN и PI3K до их замены на "улучшенные" версии обусловлены ошибками в базе данных кандидатов :(. Не исключено поэтому, что ваш кандидат не прошёл некую проверку на безошибочность, особенно если это произошло после апдейта клиента до версии 01.01.04.

1.8. Не грузится статистика или грузится непонятно что (например, страница с сообщениями об ошибках в выполнении javascript).

Причины и решения:

Сервер статистики не работает полностью или частично. Обычно это означает, что идут наладочные работы. В некоторых случаях страница пытается отработать анализ статистических данных, но сами данные временно недоступны - тогда и появляются сообщения об ошибках при выполнении javascript.

2.1. Клиент не считает (загрузка процессора - 0), хотя  в окне отображаются цель и молекула кандидата.

Причины и решения:

Клиент сообщает, что находится в состоянии "computing docking energy for conformer 1", но при этом в действительности ничего не делает. В то же время DSpy терпеливо насчитывает общее время процессу "computing docking grid" (известна также как "Проблема № 6").
Наиболее вероятное происхождение. При переходе от процесса GridWin к процессу DockWin происходит сбой, в результате которого последний не запускается, а клиент не в состоянии штатно отработать данную проблему (повторить запуск процесса DockWin). 

У этого сбоя две причины: первая - дефектные (недокачанные) кандидаты. Решение (найдено участником команды Igor_red). Выгрузите клиента. В утилите DSpy нажмите комбинацию клавиш клавиш Alt+F. Все "неправильные" кандидаты в текущей очереди, вызывающие "заморозку" клиента, будут удалены. Перезапустите клиента.

Вторая причина состоит в том, что параметры кандидатов превышают возможности докера. (В моём случае, скажем, кандидат имел количество поворотных элементов 32, тогда как DockWin в состоянии считать кандидатов с не более, чем 30 поворотными звеньями. Данные я нашёл в файле, лежавшем в папке с кандидатом - Прим. Hil). 
Попробуйте удалить этого кандидата, найдя его по номеру в каталоге structs. При этом лучше всего удалить лишь один из его файлов, а затем с помощью DSpy вычистить очередь заданий от такого кандидата, иначе программа может закачать его по новой, поскольку он сохраняется в файле tasks.dat.

2.2. Клиент не считает, в окне клиента не отображаются ни цель, ни молекула, зато имеется надпись "Initializing... (This may take several minutes)".

Причины и решения:

Скорее всего, очередь заданий пуста (см. Stats Display в окне клиента или показания DSpy/RTTP). Это может быть проблема с подключением к Интернету, файрволом/прокси или с раздаточным сервером проекта (подробнее в п. 2.6.). Ну или просто очередь кончилась. :)

Если очередь не пуста, то возможно также, что ваш клиент поврежден в результате аварийных перезагрузок. На будущее тут можно посоветовать только одно: устраняйте переразгон, заменяйте дефектные комплектующие и обеспечивайте нормальное состояние ОС.
А пока попробуйте сохранить два файла, храняющиеся в каталоге CommunityTSC\TSC\res: outqueue.dat (нужен только в том случае, если имеются не выгруженные посчитанные кандидаты) и node.prp, затем нужно переустановить клиента, не регистрируя новую ноду, и восстановить эти файлы. 

2.3. Очень часто появляются сообщения об ошибках в программах докера и гридера (для платформы Windows это программы dockwin.exe, gridwin.exe).

Причины и решения:

Возможно, это плохое охлаждение процессора, а скорее всего переразгон и ещё раз переразгон! Других причин тут практически не может быть. Если, конечно, у вас не "битая" память/материнская плата и подобного рода ошибки - не ваши верные друзья.
Дело в том, что клиент нагружает процессор крайне интенсивно, и хотя по нагреву процессора ему трудно "переплюнуть" специализированные "зажигалки" типа CPUBurn, однако любую обычную программу (в том числе любую игру) он оставляет далеко позади. Так что если вы до того не тестировали свой процессор программами типа CPUBurn хотя бы сутки подряд, то вполне может произойти сбой из-за перегрева. Решения? Более качественное охлаждение центрального процессора, снижение напряжения на процессоре (если он не разогнан...) или снижение разгона, если разогнан.

Более того, ряд участников нашей команды (Wilde, Hil и другие) считает, что клиент представляет собой гораздо более эффективный тест на стабильность системы, чем CPUBurn, так как тестирует больший диапазон инструкций, обеспечивая практически тот же нагрев. Тем не менее, другая часть команды с этим аргументированно не согласна, так что вопрос остается открытым.

2.4. После нештатной перезагрузки системы обнуляются входящая и/или исходящая очереди кандидатов, пропадает локальная статистика или не запускается клиент.

Причины и решения:

Бывает, что сбой происходит в момент записи на диск. Есть немалый шанс, что файлы очередей после проверки диска можно будет восстановить из сохранённых lost chains. Поэтому ни в коем случае их при проверке диска не удаляйте, если проверяете диск вручную (автопроверка W2k/XP сохранит их сама), а сверив со структурой типичных файлов клиента, попробуйте их восстановить под прежними именами. 
Не повезло - так не повезло, но лично мне такой приём не раз помогал восстановить то один, то другой файл клиента.

Если клиент не запускается вовсе, а восстановить файлы не получается, то можно просто переустановить клиента без регистрации новой ноды, а затем восстановить файл node.prp от поврежденной ноды. Надеюсь, вы его сохранили, как рекомендует Wilde? Впрочем, если он уцелел после сбоя, это можно сделать в любое время. 
Очередь посчитанных, но еще не выгруженных на сервер кандидатов можно сохранить, если сохраните также файл outqueue.dat от прежней установки клиента.

2.5. Компьютер самопроизвольно перезагружается, выключается или "повисает".

Причины и решения:

И вновь основные причины переразгон и перегрев. Обычные программы просто не в состоянии так интенсивно нагрузить систему! 

Выключение очевидно свидетельствует о срабатывании термозащиты, в других случаях возможны и иные сбои, однако решение проблемы то же, что и для п. 2.3.

2.6. Соединение с Интернетом установлено, но закачки кандидатов с сервера и/или на сервер не происходит.

Причины и решения:

1. Сбоит сервер проекта. 
Довольно часто закачка и выгрузка останавливаются или замедляются у всех участников проекта.
Бывает даже (редко), что на одной ноде "не дают" или "не берут" кандидатов по несколько дней, в то время как у других нет никаких проблем. В данный момент ясности по причинам такой "избирательной работы" сервера нет. Исправляется всё так же в произвольный момент, причём переставлять ноду, пытаясь этот момент приблизить, :) абсолютно бесполезно. Одно точно: если сервер барахлит, а у вас лимитированный временем dial-up, и в данный момент закачка ну ни в какую, то не ждите у моря погоды, можно смело отключаться и подключаться снова не раньше, чем через несколько часов.
Впрочем, в случае избирательного "игнорирования" определенной ноды сервером проекта можно попробовать закачать или сбросить очередь, временно скопировав файл node.prp на этот компьютер с другой ноды, не имеющей таких проблем. После закачки/выгрузки восстановите старый node.prp! Заменить его можно только после выгрузки клиента.

2. Проблемы с файрволами и прокси-серверами. 
В данный момент решаются с переменным успехом: у многих всё-таки не работает :(. Клиент как-то нестандартно общается с серверами проекта, не иначе. 
Поищите решение проблемы в нашем форуме или обратитесь к тем участникам, кто уже сталкивался лично с такими проблемами.

2.7. Клиент работает, конформеры считаются, но молекулы в окне не видно (или видны отдельные разорванные атомы).

Причины и решения:

В нижнем углу окна GUI имеется махонькая надпись "Atom data incomplete"? Тогда это подарок от создателей базы данных кандидатов. Ваш кандидат не имеет части данных по собственной "внешности". 
Иногда его удается увидеть, повернув под определенным углом, но бывают даже такие, которых не видно вовсе. Обидно, конечно, но на процесс и результаты счёта это никак не влияет. 
Кстати, старые кандидаты для целей PTEN и PI3K такой проблемы не имели. Их проблемы были гораздо хуже. :)

2.8. Не получается зарегистрировать (добавить) ноду или присоединиться к команде Russia

Причины и решения:

Первичная регистрация ноды требует подключения данного компьютера к Интернету (возможно обойти это, если имеется хотя бы один компьютер, который имеет доступ в Интернет - см. раздел "Настройки").

Для регистрации и многих других действий на официальном сайте проекта необходимо, чтобы в броузере были разрешены cookies. Если из соображений паранойи (или иных) вы их отключили, включите хотя бы временно, перед добавлением ноды, собственной регистрацией и т. д.

Зафиксированы также случаи, когда участники пытались зарегистрироваться вместо нужной страницы на странице регистрации официального форума проекта CommunityTSC. Эта регистрация никак не связана с регистрацией члена проекта!

Если Ваша проблема не нашлась в этом списке, не отчаивайтесь, а обращайтесь в наш форум! Вам постараются помочь все участники нашей команды, присутствующие там в данный момент. В случае систематизации появления проблемы, она обязательно будет описана в этом разделе.

Новая версия "Известных проблем" составлена участником нашей команды Hil. За что ему - огромное спасибо!


   
Hosted by uCoz