故障排除#
本故障排除指南为您提供了处理 您的 AEN 安装可能出现的问题。
常规故障排除步骤#
清除浏览器 Cookie。当您更改 AEN 配置 或升级 AEN,浏览器中残留的 Cookie 可能会导致 问题。清除 cookie 并重新登录有助于 解决问题。
确保在所有节点上将 AEN 服务设置为在启动时启动。
浏览器错误:重定向太多#
原因#
浏览器 Cookie 已过期。
解决方案#
注销。
清除浏览器的 Cookie。
清除浏览器缓存。
登录。
浏览器错误:启动项目应用程序时重定向过多#
当用户尝试启动应用程序时,浏览器显示 “Too many redirects”。
原因#
项目的 Compute Resource 无效或已被删除。
解决方案#
Exception:异常。TypeError: 'NoneType' 对象没有属性 '__getitem__'#
>当项目 未分配 Compute Resource。
原因#
项目的 Compute Resource 无效或已被删除。
解决方案#
错误:unix:////opt/wakari/wakari-server/etc/supervisor.sock 没有这样的文件#
这是一个 supervisorctl 错误。
原因#
supervisord 未在 Server 上运行。
解决方案#
确保 supervisord 包含在 crontab 中。然后重新启动 supervisord 手动作。
错误:删除项目时出现“找不到数据中心”#
原因#
数据中心已被删除。
解决方案#
以 root 身份运行:
/opt/wakari/wakari-server/bin/wk-server-admin remove-project --db-only <user> <project>
忘记管理员密码#
使用 ssh 以 root 身份登录服务器。
跑:
/opt/wakari/wakari-server/bin/wk-server-admin reset-password -u SOME_USER -p SOME_PASSWORD
注意:将 SOME_USER 替换为管理员用户名,将 SOME_PASSWORD 替换为密码。
使用新密码以管理员用户身份登录到 AEN。
或者,您可以添加管理员用户:
使用 ssh 以 root 身份登录服务器。
跑:
/opt/wakari/wakari-server/bin/wk-server-admin add-user SOME_USER --admin -p SOME_PASSWORD -e YOUR_EMAIL
注意:将 SOME_USER 替换为用户名,将 SOME_PASSWORD 替换为密码,并将 YOUR_EMAIL 替换为您的电子邮件地址。
使用新密码以管理员用户身份登录到 AEN。
正在删除的日志文件#
正在删除日志文件。
注意:每个进程和应用程序的 AEN 日志文件的位置 显示在概念的节点部分中。
原因#
AEN 安装程序登录到/tmp/wakari\_{server,gateway,compute}.log
.如果日志文件
增长得太大,则可能会删除它们。
解决方案#
要将日志设置为或多或少详细,请使用 Jupyter Notebooks 使用 Application.log_level。
使日志不如默认值详细,但仍如此 informative 中,将 Application.log_level 设置为 ERROR。
错误:此套接字已关闭#
当您收到 “This socket is closed” 错误消息时 尝试启动应用程序。
原因#
当 supervisord 进程被杀死时,发送到
标准输出stdout
和标准误差stderr
是
装在一个最终会装满的管道中。
一旦装满,尝试启动任何应用程序都会导致 “This socket is closed” 错误。
解决方案#
要防止此问题,请执行以下作:
按照管理服务中的说明进行作 停止和重新启动进程。
在未先停止的情况下,不要停止或终止 supervisord wk-compute 和使用它的任何其他进程。
要解决“此套接字已关闭”错误,请执行以下作:
通过运行
sudo kill -9
.重启 supervisord 和 wk-compute 进程:
sudo /etc/init.d/wakari-compute stop sudo /etc/init.d/wakari-compute start
服务错误 502:无法连接到应用程序管理器#
网关节点显示 “Service Error 502: Can not connect 发送到应用程序管理器。
原因#
计算节点没有响应,因为 wk-compute 进程 已停止。
解决方案#
停止并重新启动 supervisord 和 wk-compute 进程:
sudo /etc/init.d/wakari-compute stop
sudo /etc/init.d/wakari-compute start
Amazon Web Services (AWS) 上的 502 通信错误#
您收到“502 Communication Error: This gateway could not (502 通信错误:此网关无法) communicate with the Wakari server“错误消息。
原因#
AEN 网关无法与 上的 Wakari 服务器通信 AWS 的。的 IP 地址可能存在问题 Wakari 服务器。
解决方案#
将 AEN 网关配置为使用服务器的 DNS 主机名。 在 AWS 上,这是 Amazon Elastic Compute 的 DNS 主机名 云 (EC2) 实例。
用户名无效#
原因#
用户名不遵循以下 1 项或多项规则:
必须至少 3 个字符且不超过 25 个字符。
第一个字符必须是字母 (A-Z) 或数字 (0-9)。
其他字符可以是字母、数字、句点 (.)、 下划线 (_) 或连字符 (-)。
POSIX 标准指定这些 字符是可移植的文件名字符集,而 可移植用户名具有相同的字符集。
解决方案#
请遵循上述用户名规则。
笔记本错误:无法通过 LaTeX 将笔记本下载为 PDF#
原因#
LaTeX 未正确安装。
CentOS/6 解决方案#
从 TUG 站点安装 TeXLive。 按照描述的步骤进行作。安装可能需要一些时间。
将安装添加到
PATH
在文件中/etc/profile.d/latex.sh
.添加以下内容,根据需要替换 year 和 architecture:PATH=/usr/local/texlive/2017/bin/x86_64-linux:$PATH
重新启动计算节点。
CentOS/7 解决方案#
运行命令安装缺少的软件包:
yum install texlive texlive-xetex texlive-xetexconfig texlive-xetex-def texlive-adjustbox texlive-upquote texlive-ulem
反应 迟钝wk-server
没有错误消息的线程#
原因#
有两件事会导致wk-server
线程冻结而不显示错误消息:
LDAP 冻结
MongoDB 冻结
如果 LDAP 或 MongoDB 配置了长时间超时,则 Gunicorn 可以先超时并终止 LDAP 或 MongoDB 进程。然后,LDAP 或 MongoDB 进程会终止,而不会记录超时错误。
解决方案#
检查冻结的 LDAP 或 MongoDB 服务器进程。
您可能还希望将 Gunicorn 超时配置为 30 秒以上。
反应 迟钝wk-gateway
没有错误消息的线程#
原因#
如果 TLS 配置了受密码保护的私钥,wk-gateway
将冻结,且没有任何错误消息。
解决方案#
更新 TLS 配置,使其不使用 PassPhrase protected Private Key 的密钥。
启动项目时出错#
项目的状态页面显示“启动此项目时出错”。
原因#
计算节点中缺少磁盘空间会阻止项目启动。
解决方案#
验证项目节点是否满足系统要求。
检查计算节点的分区上是否有足够的可用空间,其中
/projects
生活:df -h /projects
释放一些磁盘空间以满足系统要求。
重新启动项目。
忽略 .condarc 文件中的更改#
应用于的更改.condarc
被 conda 忽略。
原因#
Conda 通过将多个文件合并在一起来加载其配置。
解决方案#
检查是否将更改应用于正确的文件。
要显示 conda 当前使用的合并状态,请执行以下作:
conda config --show
要显示 conda 当前正在读取的所有配置文件:
conda config --show-sources