故障排除#

本故障排除指南为您提供了处理 您的 AEN 安装可能出现的问题。

常规故障排除步骤#

  1. 清除浏览器 Cookie。当您更改 AEN 配置 或升级 AEN,浏览器中残留的 Cookie 可能会导致 问题。清除 cookie 并重新登录有助于 解决问题。

  2. 确保 NGINX 和 MongoDB 正在运行

  3. 确保在所有节点上将 AEN 服务设置为在启动时启动

  4. 确保服务按预期运行。如果任何服务是 未运行或缺失,请重新启动它们

  5. 检查并删除无关的进程

  6. 检查节点之间的连通性

  7. 检查配置文件语法

  8. 检查文件所有权

  9. 验证 POSIX ACL 是否已启用

浏览器错误:重定向太多#

原因#

浏览器 Cookie 已过期。

解决方案#

  1. 注销。

  2. 清除浏览器的 Cookie。

  3. 清除浏览器缓存。

  4. 登录。

浏览器错误:启动项目应用程序时重定向过多#

当用户尝试启动应用程序时,浏览器显示 “Too many redirects”。

原因#

项目的 Compute Resource 无效或已被删除。

解决方案#

将项目移动到有效的 Compute Resource

Exception:异常。TypeError: 'NoneType' 对象没有属性 '__getitem__'#

>当项目 未分配 Compute Resource。

原因#

项目的 Compute Resource 无效或已被删除。

解决方案#

将项目移动到有效的 Compute Resource

错误:unix:////opt/wakari/wakari-server/etc/supervisor.sock 没有这样的文件#

这是一个 supervisorctl 错误。

原因#

supervisord 未在 Server 上运行。

解决方案#

确保 supervisord 包含在 crontab 中。然后重新启动 supervisord 手动作。

错误:删除项目时出现“找不到数据中心”#

原因#

数据中心已被删除。

解决方案#

以 root 身份运行:

/opt/wakari/wakari-server/bin/wk-server-admin remove-project --db-only <user> <project>

忘记管理员密码#

  1. 使用 ssh 以 root 身份登录服务器。

  2. 跑:

    /opt/wakari/wakari-server/bin/wk-server-admin reset-password -u SOME_USER -p SOME_PASSWORD
    

    注意:将 SOME_USER 替换为管理员用户名,将 SOME_PASSWORD 替换为密码。

  3. 使用新密码以管理员用户身份登录到 AEN。

或者,您可以添加管理员用户:

  1. 使用 ssh 以 root 身份登录服务器。

  2. 跑:

    /opt/wakari/wakari-server/bin/wk-server-admin add-user SOME_USER --admin -p SOME_PASSWORD -e YOUR_EMAIL
    

    注意:将 SOME_USER 替换为用户名,将 SOME_PASSWORD 替换为密码,并将 YOUR_EMAIL 替换为您的电子邮件地址。

  3. 使用新密码以管理员用户身份登录到 AEN。

正在删除的日志文件#

正在删除日志文件。

注意:每个进程和应用程序的 AEN 日志文件的位置 显示在概念的节点部分中。

原因#

AEN 安装程序登录到/tmp/wakari\_{server,gateway,compute}.log.如果日志文件 增长得太大,则可能会删除它们。

解决方案#

要将日志设置为或多或少详细,请使用 Jupyter Notebooks 使用 Application.log_level

使日志不如默认值详细,但仍如此 informative 中,将 Application.log_level 设置为 ERROR。

错误:此套接字已关闭#

当您收到 “This socket is closed” 错误消息时 尝试启动应用程序。

原因#

当 supervisord 进程被杀死时,发送到 标准输出stdout和标准误差stderr是 装在一个最终会装满的管道中。

一旦装满,尝试启动任何应用程序都会导致 “This socket is closed” 错误。

解决方案#

要防止此问题,请执行以下作:

  • 按照管理服务中的说明进行作 停止和重新启动进程。

  • 在未先停止的情况下,不要停止或终止 supervisord wk-compute 和使用它的任何其他进程。

要解决“此套接字已关闭”错误,请执行以下作:

  1. 通过运行sudo kill -9.

  2. 重启 supervisord 和 wk-compute 进程:

    sudo /etc/init.d/wakari-compute stop
    sudo /etc/init.d/wakari-compute start
    

服务错误 502:无法连接到应用程序管理器#

网关节点显示 “Service Error 502: Can not connect 发送到应用程序管理器。

原因#

计算节点没有响应,因为 wk-compute 进程 已停止。

解决方案#

停止并重新启动 supervisord 和 wk-compute 进程:

sudo /etc/init.d/wakari-compute stop
sudo /etc/init.d/wakari-compute start

Amazon Web Services (AWS) 上的 502 通信错误#

您收到“502 Communication Error: This gateway could not (502 通信错误:此网关无法) communicate with the Wakari server“错误消息。

原因#

AEN 网关无法与 上的 Wakari 服务器通信 AWS 的。的 IP 地址可能存在问题 Wakari 服务器。

解决方案#

将 AEN 网关配置为使用服务器的 DNS 主机名。 在 AWS 上,这是 Amazon Elastic Compute 的 DNS 主机名 云 (EC2) 实例。

用户名无效#

原因#

用户名不遵循以下 1 项或多项规则:

  • 必须至少 3 个字符且不超过 25 个字符。

  • 第一个字符必须是字母 (A-Z) 或数字 (0-9)。

  • 其他字符可以是字母、数字、句点 (.)、 下划线 (_) 或连字符 (-)。

  • POSIX 标准指定这些 字符是可移植的文件名字符集,而 可移植用户名具有相同的字符集。

解决方案#

请遵循上述用户名规则。

笔记本错误:无法通过 LaTeX 将笔记本下载为 PDF#

原因#

LaTeX 未正确安装。

CentOS/6 解决方案#

  1. TUG 站点安装 TeXLive。 按照描述的步骤进行作。安装可能需要一些时间。

  2. 将安装添加到PATH在文件中/etc/profile.d/latex.sh.添加以下内容,根据需要替换 year 和 architecture:

    PATH=/usr/local/texlive/2017/bin/x86_64-linux:$PATH
    
  3. 重新启动计算节点。

CentOS/7 解决方案#

  1. 运行命令安装缺少的软件包:

    yum install texlive texlive-xetex texlive-xetexconfig texlive-xetex-def texlive-adjustbox texlive-upquote texlive-ulem
    

反应 迟钝wk-server没有错误消息的线程#

原因#

有两件事会导致wk-server线程冻结而不显示错误消息:

  • LDAP 冻结

  • MongoDB 冻结

如果 LDAP 或 MongoDB 配置了长时间超时,则 Gunicorn 可以先超时并终止 LDAP 或 MongoDB 进程。然后,LDAP 或 MongoDB 进程会终止,而不会记录超时错误。

解决方案#

  1. 检查冻结的 LDAP 或 MongoDB 服务器进程。

  2. 您可能还希望将 Gunicorn 超时配置为 30 秒以上。

反应 迟钝wk-gateway没有错误消息的线程#

原因#

如果 TLS 配置了受密码保护的私钥,wk-gateway将冻结,且没有任何错误消息。

解决方案#

更新 TLS 配置,使其不使用 PassPhrase protected Private Key 的密钥。

启动项目时出错#

项目的状态页面显示“启动此项目时出错”。

原因#

计算节点中缺少磁盘空间会阻止项目启动。

解决方案#

  1. 验证项目节点是否满足系统要求

  2. 检查计算节点的分区上是否有足够的可用空间,其中/projects生活:

    df -h /projects
    
  3. 释放一些磁盘空间以满足系统要求。

  4. 重新启动项目。

忽略 .condarc 文件中的更改#

应用于的更改.condarc被 conda 忽略。

原因#

Conda 通过将多个文件合并在一起来加载其配置。

解决方案#

检查是否将更改应用于正确的文件。

要显示 conda 当前使用的合并状态,请执行以下作:

conda config --show

要显示 conda 当前正在读取的所有配置文件:

conda config --show-sources