云学堂:管理平台使用问题
目录
- 1 初始化部署,在部署主机阶段提示“云主机本地镜像存储/vms/images未就绪。”
- 2 “错误”报警“Error in command: /etc/init.d/libvirt-bin: 23: ulimit: error setting limit (Operation not permitted)”
- 3 “错误”报警“Check_nrpe:Error-Cloud not complete SSL handshake”
- 4 需要修改服务器业务口IP,如何操作
- 5 混合计算程序无法最大化
- 6 如何修改服务器管理口IP
- 7 H3ClassFTP工具无法打开
- 8 License处理问题
- 9 云桌面无法打开配置了混合计算的程序
- 10 配置混合计算出现报错
- 11 虚拟机提示“您的凭据不工作”
- 12 主机状态为禁用,无法启用
- 13 主机状态概率性出现禁用,一段时间后又恢复
- 14 服务器增加内存条处理
- 15 添加主机提示hccvswtich已存在
- 16 云学堂管理平台登录密码忘记了
- 17 glusterfs-server stop处理方法
- 18 磁盘分区调整方案
- 19 云学堂管理平台无法正常上传License授权文件
- 20 在启动的课程虚拟机中无法挂载“软件共享盘”
- 21 管理平台提示“找不到课程的镜像文件”
- 22 2.27 /var/log目录由于日志满导致云学堂环境不可用
- 23 管理平台报Undefine异常,教师端侧报“error(500)”错误
- 24 云主机无法启用
- 25 CVK主机无法正常启动
- 26 已有集群添加主机失败
- 27 管理平台升级后课程模板安装软件报错
- 28 管理平台升级失败
- 29 管理平台观看直播失败
- 30 管理节点业务虚拟交换机被误清除
- 31 云学堂管理平台升级问题举例
- 32 主机下课后仍占用CPU和内存
- 33 集群环境,主机断网、断电、关机状态时,直接被删除,导致配置残留。然后该主机被重新添加回来,状态显示禁用。
- 34 共享存储与本地gluster目录的对应关系
- 35 从管理平台自带的H3ClassFTP工具无法上传镜像与软件等,怎么处理
- 36 上课后虚拟机状态为“未知状态”,客户端一直无法连接,如何处理
- 37 服务器后台查看存储是否挂载
- 38 服务器XCONSOLE界面未启动
- 39 管理平台日志收集
- 40 管理平台admin账户密码忘记,如何重置?
- 41 2.46 高可用课程上课,其中一台服务器断电后恢复供电,主机被禁用,并提示glusterfs-server stop/waiting
- 42 集群环境中,如何设置资源分配策略?
- 43 上课中,服务器总电源跳闸,重新上电后,出现虚拟机黑屏的情况
- 44 忘记mysql密码
- 45 主机缩容后无法再次扩容(将主机添加到集群)
- 46 在管理平台上启动课程虚拟机后,鼠标无法透传到虚拟机中
- 47 云学堂管理平台登录界面无法打开,报错提示502 Bad Gateway
- 48 集群环境中,主机之间如何传输文件
- 49 HA环境中,如何判断主备服务器
- 50 软件安装文件上传失败
- 51 云学堂管理平台相关端口说明
- 52 忘记服务器HDM(iLO)口密码处理方法
- 53 更换哪些硬件时需要重新申请license授权?
- 54 模板安装软件上传的目录读写异常即Share.img异常
- 55 平台上下课卡住异常,报“undefined”错误
- 56 平台上下课卡住异常,日志中出现allocate waiting提示
- 57 云学堂服务器配置公网后,全国大屏采集端仍无法连接数据中心
- 58 云学堂管理平台的教室状态一直处于正在上课中
- 59 上课时提示“启动课程失败,服务器没有足够的资源”
- 60 集群模式下,计算节点上的虚拟机无法获取IP
- 61 启用考试模式的RDP课程上课时,若干学生机黑屏如何处理
- 62 Flash重定向时,概率性出现全屏后视频区域黑屏,但视频声音和进度条缓冲正常。
- 63 使用IE浏览器无法打开管理平台
- 64 四主机集群,特定两台主机下的虚拟机启动总是很慢,明显慢于另外两台主机下的虚拟机
- 65 课程上下课速度缓慢,如何解决
- 66 多节点环境下,某台主机故障,如何处理
初始化部署,在部署主机阶段提示“云主机本地镜像存储/vms/images未就绪。”
故障描述
在给服务器手动安装CAS过程中,磁盘分区配置错误,导致云学堂管理平台做初始化时出现报错。
故障处理步骤
- 登陆管理平台后台,根据下图手动修改分区挂载点,如果修改完成仍然部署不成功,再进行下面的步骤。
- 重新安装CAS。注意,在进行分区配置的时候需严格按照下表中的分区要求进行配置。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
“错误”报警“Error in command: /etc/init.d/libvirt-bin: 23: ulimit: error setting limit (Operation not permitted)”
故障描述
报警列表出现“错误”类型 “Error in command: /etc/init.d/libvirt-bin: 23: ulimit: error setting limit (Operation not permitted)”。
故障处理步骤
该报警信息不影响云学堂功能的正常使用,可通过以下步骤清除该报警信息。
- 通过SSH工具连接安装有管理平台的服务器。
- 执行service nagios-nrpe-server restart命令。等待30s左右,异常服务提示会消失。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
“错误”报警“Check_nrpe:Error-Cloud not complete SSL handshake”
故障描述
报警列表出现“错误”类型“Check_nrpe:Error-Cloud not complete SSL handshake”。
故障处理步骤
该报警信息不影响云学堂功能的正常使用,可通过以下步骤清除该报警信息。
- 在报警信息列表中查看提示该“错误”信息的对应的是那些主机。
- 通过SSH工具分别连接提示该“错误”的主机。
- 执行service nagios-nrpe-server restart命令。等待30s左右,异常服务提示会消失。
需要修改服务器业务口IP,如何操作
故障描述
云学堂网络环境变动或者其他情况导致业务口IP地址需要修改。
故障处理步骤
- 将“登录用PC”的网络信息设置为与服务器管理口IP地址同网段。
- 通过网线将“登录用PC”接入管理网络。
- 打开Google浏览器,通过管理口IP地址访问管理平台。
- 选择导航树[云主机],将目标主机“维护”。
- 选择目标主机,单击页面上方的“虚拟交换机”操作项。
- 单击虚拟交换机“hccvswitch”右侧的“修改”按钮。根据需求对地址信息进行修改。
- 保存设置。
- 如果修改了安装有管理平台的云主机的“业务IP地址”,则需要同步修改教师端配置界面的管理平台IP信息。
- 使用管理员账户登录教师端软件,对学生机重新进行部署。
- 部署成功后,请选择“确定并重启终端”。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
混合计算程序无法最大化
故障描述
对于E0102P03H02及之前的云学堂版本。进行过混合计算配置的程序,在运行过程中,再最小化操作后,因为找不到最小化图标导致无法再打开程序。
故障处理步骤
- 建议升级云学堂至E0102P03H03及之后的版本。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
如何修改服务器管理口IP
故障描述
该管理口IP修改方案只适用于只有一台服务器的云学堂单机环境,集群环境请勿使用该方法修改管理口IP。对于云学堂网络环境变动或者其他需要修改管理口IP的特殊情况,下面列出管理口IP的修改方案。
故障处理步骤
- 通过登录PC,使用SSH远程工具连接需要修改管理IP地址的UIS-Class。
- 编辑interfaces配置文件。
- root@cvknode:~# vim /etc/network/interfaces
- 按a键进入编辑模式。
- 移动光标修改vswitch0的管理IP地址(address),及对应的管理口掩码(netmask)、管理口网段(network)、广播地址(broadcast)。
- 修改完成后,按ESC键退出编辑模式。
- 保存并退出。
- :wq
- 重启网络服务。
- root@cvknode:~# /etc/init.d/networking restart
- 登入数据库。
- root@cvknode:~# mysql –u<用户名> -p<密码>
- 启用HORIZON数据库。
- mysql> use HORIZON;
- 查看主机信息。
- mysql> select * from horizon_host;
- 修改管理IP地址。
- update horizon_host set management_ip=’<新的管理IP>’ where name=’<name>’;
- 退出数据库。
- mysql> exit;
- 仅当修改了安装有管理平台的UIS-Class后才进行此步操作,将config.yml 文件中system.management-ip后面的IP信息修改为新的管理IP地址。
- root@cvknode:~# vim /etc/horizon/config.yml
- 重启管理平台服务。
- root@cvknode:~# /var/lib/h3class/venv/horizon/bin/horizon stop
- root@cvknode:~# /var/lib/h3class/venv/horizon/bin/horizon start
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
H3ClassFTP工具无法打开
故障描述
用户想要使用Google浏览器上传镜像文件、软件安装文件时,系统没有自动启动H3ClassFTP工具。
故障处理步骤
如果没有安装过H3ClassFTP,请单击“立即下载”,安装H3ClassFTP工具,然后再尝试打开。 如果安装过H3ClassFTP,请按照以下步骤进行处理。
- 关闭Google浏览器。
- 打开Google浏览器软件安装目录。
- 单击地址栏“Chrome”返回上一级目录。
- 进入User Data文件夹,用记事本打开Local State文件。
- 使用快捷键“Ctrl+F”,打开“查找”,输入查找内容“hccftp”,单击“查找下一个”,将找到的”hccftp”:true中的true改为false,保存并退出。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
License处理问题
故障描述
由于云学堂环境重装CAS和管理平台软件,可能需要对License进行重新注册。
故障处理步骤
情况一:
对于云学堂任何版本,安装有管理平台的服务器重新安装CAS和管理平台软件,即管理平台软件先后安装在同一台服务器上。由于License只与服务器的MAC地址存在绑定关系,所以在管理平台初始化部署完成后,只需登录管理平台,使用原Lic文件直接激活License即可。
- 云学堂E0102P03H03及其之后的版本,首次注册License时,Lic文件会被默认备份到安装有管理平台软件的服务器上,存放目录为/var/lib/h3class/repo/,请使用FTP工具将Lic文件传输到本地备用。
- 云学堂E0102P02H01、V0.10.8、V0.11.28、E0102P03、E0102P03H01、E0102P03H02等版本,如果您在首次注册License的时候有做Lic文件备份,则可忽略该条说明。如果您的Lic文件丢失了,那么请联系云学堂一线工程师,提交“工作联络单”申请授权码与物理机解绑。或者致电400-810-0504咨询产品支持,申请授权码与物理机解绑。待解绑成功,按照云学堂管理平台上的License激活步骤重新使用授权码激活。
情况二:
对于云学堂任何版本,环境重装后,如果管理平台软件先后安装在不同的服务器上。那么请联系云学堂一线工程师,提交“工作联络单”申请授权码与物理机解绑。或者致电400-810-0504咨询产品支持,申请授权码与物理机解绑。待解绑成功,按照云学堂管理平台上的License激活步骤重新使用授权码激活。
云桌面无法打开配置了混合计算的程序
故障描述
上课过程中,学生端无法打开配置过混合计算的程序,提示“未开启混合计算”。
故障处理步骤
- 检查学生机本地,混合计算程序的安装路径是否存在中文,如果有中文,重新安装在英文路径下。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
配置混合计算出现报错
故障描述
在课程模板中配置混合计算软件时,系统提示“请使用系统管理员打开本程序! Systerm.ArgumentException:路径中具有非法字符”。
故障处理步骤
- 请确认路径信息填写无误。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
虚拟机提示“您的凭据不工作”
故障描述
上课过程中,出现虚拟机提示“您的凭据不工作”问题。
故障处理步骤
- 使用Chrome浏览器打开云学堂管理平台。
- 在课程列表中找到上课使用的课程模板。
- 进入课程模板。
- 执行“运行>gpedit.msc>计算机配置>管理模板>Windows组件>远程桌面服务>远程桌面会话主机>安全>双击编辑远程(RDP)连接要求使用指定的安全层”
- 选择已启用。
- 安全层选择“RDP”
- 单击确定。
- 关闭课程模板。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
主机状态为禁用,无法启用
故障描述
云学堂管理平台云主机列表中,禁用的主机无法启用。
故障处理步骤
情况一
vswitch0禁止配置网关。检查云学堂管理平台云主机列表中的主机对应虚拟交换机列表,如果vswitch0存在网关信息,请按照下列步骤删除网关信息。
- 使用SSH工具连接对应主机。
- 使用vim /etc/network/interfaces命令,进入interfaces文件编辑模式。
- 将vswitch0的gateway信息删除或者注释掉。
- 保存退出。
- 使用/etc/init.d/networking restart命令重启网卡。
- 重新在云学堂管理平台启用主机。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
情况二
安装有管理平台的主机无法启用,请尝试重启管理平台服务。
- 使用SSH工具连接安装有管理平台的服务器。
- 执行 /var/lib/h3class/venv/horizon/bin/horizon stop命令。
- 执行 /var/lib/h3class/venv/horizon/bin/horizon start命令。
- 在管理平台启用主机。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
主机状态概率性出现禁用,一段时间后又恢复
故障处理
云学堂由E0303H01升级至E0303H02后,主机概率性出现禁用状态,一段时间后会自动恢复,禁用时间过长将会对上课造成严重影响。
故障处理步骤
出现此现象的原因是CAS侧当libvirt运行繁忙、任务有阻塞超过15s时不会报libvirt停止运行,认为虽有阻塞但libvirt可正常工作(旧版本死锁问题已解决);而云学堂侧监测libvirt阻塞超过15s后判断libvirt假死(现象和死锁一致)从而主动重启libvirt服务,且重启后若检测不到libvirt正常运行仍会继续重启。故云学堂检测libvirt假死并重启libvirt服务导致主机出现禁用状态,重启libvirt成功后,禁用状态消失,恢复正常。处理方法如下:
- 根据需求,重装环境、重新部署,排除升级对环境的影响。
- 如果重装后依然出现禁用,请联系H3C云学堂研发注释掉libvirt重启机制。
服务器增加内存条处理
故障处理
云学堂E0102P03H03版本及之前版本,给服务器增加了内存条后,管理平台首页的内存总量未更新。
故障处理步骤
管理平台首页的内存总量是从数据库获取的,这里手动更新一下数据库中的内存数值即可。内存配置举例:某台服务器原来的内存是200GB,现在原来的基础上增加100GB
- 使用SSH工具连接安装有云学堂管理平台服务器。
- 输入 mysql -u<数据库用户名> -p<数据库密码> 命令,登入数据库。(缺省用户名密码都是horizon)
- 输入“use HORIZON; ”命令,选择HORIZON数据库。
- 输入 “select * from horizon_host;” 命令,查看horizon_host表数据。
- 表中memory字段表示的时主机内存数值,单位Byte。
- 主机200GB内存对应的memory数值是214748364800Byte,现在增加了100G,那么原来的数据需要增加107374182400Byte,增加后的数值是322122547200Byte。输入 “update horizon_host set memory=’ 322122547200’ where name=’<主机名>’;” 更新内存数值。
- 输入“exit;” 命令,退出数据库。
- 刷新管理平台。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
添加主机提示hccvswtich已存在
故障处理
从云学堂主机列表中删除“关机状态”或者“断网状态”的主机后,再次添加被删除的主机,会提示“检测到网桥hccvswitch已存在,服务器可能已经被其他集群环境使用,请确认后重试”。
故障处理步骤
- 通过SSH工具登录“被删除”的主机后台。
- 执行chmod +x /opt/bin/compute-clean.sh命令,给compute-clean.sh文件增加可执行权限。
- 执行/opt/bin/compute-clean.sh完成虚拟交换机网络信息清理。
- 输入ovs-vsctl show命令,检查确认“hccvswitch”相关的网络信息已经被删除。
- 登录云学堂管理平台重新添加主机。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
云学堂管理平台登录密码忘记了
故障描述
如果忘记了云学堂管理平台的登录账户信息,无法登录管理平台。
故障处理步骤
- 通过SSH工具登录安装有云学堂管理平台软件的服务器后台。
- 执行 /var/lib/h3class/bin/reset-admin-pwd.sh 命令。
- 命令执行完成后,管理平台登录用户名和密码将被重置为“admin/admin”。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
glusterfs-server stop处理方法
故障描述
在服务器异常断电恢复后,可能会遇到云主机处于“禁用”状态,无法启用的情况,在报警列表中出现“glusterfs-server stop”提示。
故障处理步骤
- 使用SSH工具登录提示“glusterfs-server stop”的云主机。
- 执行“service glusterfs-server start”命令。
- 在云学堂管理平台上手动启用处于“禁用”状态的云主机。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
磁盘分区调整方案
故障描述
场景一
- 磁盘分区与官方标准不符,需要调整现有分区磁盘空间容量。
场景二
- 云学堂实际使用过程中,对本地存储需求较高时,可稍将/gluster/ssd部分容量移至/vms/desktop分区,增加本地存储容量上限。
故障处理步骤
请参见手册《云学堂1.0磁盘分区容量调整方案》
云学堂管理平台无法正常上传License授权文件
故障描述
登录云学堂管理平台的web界面准备导入正式License文件时,云学堂管理平台界面上传License文件的功能按钮无法正常使用。
故障处理步骤
云学堂License授权文件的上传加载需要依赖于浏览器的Flash和Active X等组件,解决步骤如下:
- 通过官方渠道下载安装Flash等插件并启用。
- 清理浏览器缓存后重新打开云学堂管理平台界面上传lic文件。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
在启动的课程虚拟机中无法挂载“软件共享盘”
故障描述
使用Windows Server2008制作课程,在启动的课程虚拟机中无法挂载“软件共享盘”。
故障处理步骤
管理平台提示“找不到课程的镜像文件”
故障描述
在管理平台上启用“镜像”或“课程”的虚拟机时,浏览器页面提示“找不到课程的镜像文件”。
故障处理步骤
情况一
因为云主机处于“维护”状态,因此无法启用该云主机上的“镜像”或“课程”的虚拟机。将云主机恢复启用后即可。 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
2.27 /var/log目录由于日志满导致云学堂环境不可用
故障描述
/var/log目录日志过多,比如主机异常时,错误日志迅速积累,导致该目录存储空间不足,从而导致云学堂环境不可用。
故障处理步骤
- 请联系H3C技术支持工程师。
管理平台报Undefine异常,教师端侧报“error(500)”错误
故障描述
- 上课过程云主机异常断电,待服务器重启后发现云学堂管理平台报“undefine”错误,平台各处信息均显示NAN或无显示(数据库停止状态);
- 教师端侧重新登陆时报“The remote server returned an error(500) Internal Server Error”或"基础连接已经关闭,连接被意外关闭"
故障原因
- 正常情况下,云学堂的教室在不上课的情况下状态为“空闲”,上课的情况下状态为“上课中”,由于在执行上课过程中服务器发生异常掉电,导致教室一直呈现“正在上课”的异常状态,需要通过后台手工修改数据库的方法来修改教室的状态;
- 异常断电导致数据库文件损坏,数据库连接失败。如果后台手动启动MySQL服务,linux系统会提示start job failed to start
故障处理步骤
以下操作请在H3C技术工程师指导下完成,或直接由H3C技术工程师远程处理。
重置云学堂数据库上下课状态
如果是上课过程产生的异常断电,首先需要下课并手动删除虚拟机,如果下课后平台依然显示上课状态,说明数据库上下课状态信息残留
- 通过SSH工具登录到云学堂管理平台云主机的后台,输入 mysql -u<数据库用户名> -p<数据库密码> 命令,登入数据库;(缺省用户名密码都是horizon)
- 输入“select * from horizon_classroomstage”查询教室当前的状态,若state数值是否为0即为空闲状态,2即为上课状态;
- 如果下课状态中教室state数值不为0,则执行“update horizon_classroomstage set state='0' where id='3';”命令将id为3的教室的状态值修改为0;
- 修改完成后再使用select * from horizon_classroomstage命令查询确认教室的state数值是否已修改为0。
备份和重置云学堂数据库
- 使用SSH工具远程连接到服务器后台;
- 使用cat /etc/mysql/my.cnf命令,查看图示路径。mysql数据库数据缺省存放位置是/var/lib/mysql 目录;
- 使用mkdir /vms/mysqlbackup命令,创建备份目录;
- 使用cp -r /var/lib/mysql /vms/mysqlbackup命令,将mysql数据文件cp到备份目录中;
- 修改mysql配置文件:
- 使用vim /etc/mysql/my.cnf命令,进入/etc/mysql/my.cnf文件的编辑状态
- 在[mysqld]下一行增加innodb_force_recovery = 4
- 保存修改
- 使用service mysql start命令,启动mysql服务
- 如果执行失败,则继续修改配置文件 vim /etc/mysql/my.cnf 设置 innodb_force_recovery 后面的值1到6 逐个替换,重复以上步骤,直到service mysql start 成功
- mysql 服务启动成功则继续执行下一步操作。如果mysql 服务仍然启动不成功,请不要继续操作,联系研发同事处理;
- 使用mysqldump -uroot -p1q2w3e --all-databases > /vms/dump.sql命令,备份数据库信息;
- 使用service mysql stop命令,关闭mysql服务;
- 使用vim /etc/mysql/my.cnf命令编辑MySQL配置文件,将之前在[mysqld]字段后面添加的innodb_force_recovery删除;
- 使用/var/lib/mysql命令,进入MySQL数据文件夹;
- 删除掉除mysql/ 和 performance_schema/ 以外的所有文件和文件夹;
- 启动关键服务:/var/lib/h3class/venv/horizon/bin/horizon start;
- 使用service mysql start命令,启动MySQL服务;
- 使用mysql -uroot -p1q2w3e -e 'source /vms/dump.sql' 命令,导入数据。
云主机无法启用
故障描述
- 云主机处于禁用状态,启用主机时提示服务器网络连通性存在问题。
- 云主机下虚拟机交换机栏消失,后台查看实际虚拟交换机存在。
- hccvmm和libvirt进程无法启用。
故障处理步骤
目前已知原因由于CVK主机下/opt/bin/目录下所有文件未知原因被删除,导致hccvmm和libvirt进程无法启用。 请联系H3C技术工程师处理。建议将课程镜像做好备份后,重装CVK及云学堂管理平台。
CVK主机无法正常启动
故障描述
CVK网络不通,通过控制台登录无法进到CVK的xsconsole蓝色配置页面,在启动阶段加载中报错如下图所示,尝试reboot或断电重启也没能恢复。
故障处理步骤
- 出现该现象原因为:CAS侧服务器内核被升级,从12.04升级到16.04,导致依赖环境异常,需要重装环境。
- 请联系H3C技术工程师到现场协助重装环境。
已有集群添加主机失败
故障描述
新装的CVK添加到云学堂集群环境中失败,提示信息:服务器部署失败。
故障处理步骤
新装的服务器CAS版本为E0509时,需要打上补丁包才能添加至集群。低版本的升级到0509时不用打补丁包。请按照以下步骤为新安装的CAS E0509打补丁包:
- 通过h3classwiki.h3c.com获取CAS-E0509-Upgrade.tar.gz。
- 使用SSH工具将CAS-E0509-Upgrade.tar.gz上传至服务器。
- 执行tar xvf CAS-E0509-Upgrade.tar.gz命令解压文件。
- 执行下面的命令,到system.upgrade目录,手工安装python-sqlalchemy_0.7.4-1ubuntu0.1_all.deb。
- root@cvknode:~# cd upgrade.e0509/package/system.upgrade
- root@cvknode:~# dpkg -i python-sqlalchemy_0.7.4-1ubuntu0.1_all.deb
- 执行检查命令cas-apt-get check,输出内容如下则说明安装成功。
- root@cvknode:~# cas-apt-get check
- Reading package lists... Done
- Building dependency tree
- Reading state information... Done
- 如果打上补丁包仍让没能解决该故障,请联系H3C技术支持工程师。
管理平台升级后课程模板安装软件报错
故障描述
该问题和平台升级相关,升级后,访问管理平台为虚拟机安装软件时,报错“课程虚拟机启动失败,错误详细:cannot read header......”。
故障处理步骤
- 再执行一次升级即可,./h3clas...bin -u。
管理平台升级失败
故障描述
CAS升级:0303升级到0509;
云学堂管理平台升级:0303h02升级到0303h03;
报错提示信息:dpkg –configure -a 失败,具体安装日志提示依赖libnss3的两个库文件安装校验失败。
故障处理步骤
- 人为操作导致升级后的libnss3文件被覆盖,网上下载正常主机对应的libnss3文件覆盖现场主机里的libnss3,执行dpkg –configure -a 不报错,之后升级管理平台成功,业务正常。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
管理平台观看直播失败
故障描述
故障处理步骤
请设置浏览器允许使用Flash,步骤如下:
- 打开chrome://settings/content/flash
- 将“禁止网站运行Flash”改为“先询问(推荐)”
- 在“允许”栏,单击<添加>按钮,将对应网站添加到允许访问Flash的网站列表中。
- 若无<添加>按钮,请打开chrome://flags/#enable-ephemeral-flash-permission
把Ephemeral Flash Permission从Default改为Disabled重新打开Chrome,进入Flash设置 chrome://settings/content/flash重新进行设置。 详情可参照 https://blog.csdn.net/qq_31325079/article/details/82703094
管理节点业务虚拟交换机被误清除
故障描述
管理节点主机误执行了compute-clean.sh脚本,导致业务虚拟交换机被删除,在前台页面虚拟交换机hccvswitch也显示被删除。一般来说,该脚本并没有执行权限,请不要在没有指导的情况下随意添加执行权限去执行服务器上的任何脚本,否则均可能导致不可预知的错误。
故障处理步骤
处理该问题的方法就是重新构建业务虚拟交换机,并手动在管理平台上配置恢复对应的网络信息。
情况一
- 在管理节点执行如下指令重新创建业务虚拟交换机:
- root@cvknode:~# ovs-vsctl add-br hccvswitch //创建名为hccvswitch的虚拟交换机
- root@cvknode:~# ovs-vsctl add-port hccvswitch eth1 //为虚拟交换机绑定物理网卡(请确保eth1是业务网卡)
- 执行完上述命令后重启服务器网络服务
- root@cvknode:~# /etc/init.d/networking restart
- 登录管理平台,业务虚拟交换机显示恢复,重新配置对应的网络信息,包括IP、掩码和网关等。
情况二
- 在管理节执行如下指令
- root@cvknode:~# ovs-vsctl add-br hccvswitch
- root@cvknode:~# ovs-vsctl add-bond hccvswitch hccvswitch_bond eth2 eth3 //请确保是eth2和eth3聚合作为业务口
- 执行完上述命令后重启服务器网络服务
- root@cvknode:~# /etc/init.d/networking restart
- 登录管理平台,业务虚拟交换机显示恢复,重新配置对应的网络信息,包括IP、掩码和网关等。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
云学堂管理平台升级问题举例
故障描述
管理平台升级报错,查看日志显示去下图。意思是安装libmicrohttpd10的时候,它的依赖包libc6版本不对、libgnutls30包未安装。经与程序员确认,libmicrohttpd10这个包并不是云学堂的包,推测是其他人员(或场景)在后台安装软件失败,卡在了libmicrohttpd10安装步骤,导致我们在升级过程安装包文件的时候无法正常执行。
故障处理步骤
执行apt-get remove libmicrohttpd10 ,再执行升级操作。
主机下课后仍占用CPU和内存
故障描述
全部教室下课后主机仍占用着高cpu和内存。
故障处理步骤
服务器在下课过程中异常断电,导致虚拟机在关机过程中异常,残留在后台,且状态为in shutdown。这种状态虚拟机无法删除且会占用CPU和内存。后台执行virsh list --all可以看到虚拟机残留的现象。请重启对应服务器能将之前异常状态的虚拟机清除,并释放资源。
集群环境,主机断网、断电、关机状态时,直接被删除,导致配置残留。然后该主机被重新添加回来,状态显示禁用。
故障描述
集群环境,主机断网、断电、关机状态时,直接被删除,导致配置残留。然后该主机被重新添加回来,状态显示禁用。
故障处理步骤
- 删除该主机,在问题主机上执行如下脚本(手动清理网络配置,其中包括删除虚拟交换机),注意不要在主节点主机执行,切记切记!执行完毕后,再将该主机添加进集群,自动部署回复配置。(如果主节点虚拟交换机被误删除,请参考另一个指导恢复。)
- SSH登录该服务器。 执行/opt/bin/compute-clean.sh。
如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
共享存储与本地gluster目录的对应关系
• /vms/images--/gluster/ssd
• /opt/doc--/gluster/hdd
从管理平台自带的H3ClassFTP工具无法上传镜像与软件等,怎么处理
故障描述
管理平台无法上传base镜像以及软件等,又着急部署使用。
故障处理步骤
可采用第三方FTP工具直接将相应的base镜像和软件上传到管理平台所在服务器的后台目录下:
• base文件上传路径:/vms/images
• 课程安装文件上传路径:/vms/share
上课后虚拟机状态为“未知状态”,客户端一直无法连接,如何处理
故障描述
上课后虚拟机状态为“未知状态”,客户端一直无法连接。
- 后台通过命令virsh list --all 查看虚拟机状态为shutdown状态。
- 通过命令virsh start stu-1-12 手动启动某一台虚拟机报错“internal error process exited while connecting to monitor”。
故障处理步骤=
该问题可是是因为CAS版本与云学堂版本不匹配造成的。当CAS版本不正确时,虚拟机xml中的参数很可能与正常CAS版本存在差异,导致虚拟机无法正常启动。
- 执行如下两个命令(不同版本的命令不同,请以实际情况为准),查看CAS版本。
- cat /etc/h3c_cas_cvk-version
- cat /etc/cas_cvk-version
- 使用与云学堂版本匹配的CAS版本。
服务器后台查看存储是否挂载
故障描述
- 执行mountpoint /vms/images,打印/vms/images/ is not a mountpoint则说明未挂载。
- 如果/vms/images未挂载,会导致的问题是,上课会提示找不到镜像文件。
故障处理步骤
- 执行cat /etc/crontab命令
- 手动执行最后一条挂载存储的命令:/var/lib/h3class/venv/horizon/bin/python /var/lib/h3class/bin/rename-disk-partition.py -s
- 如果前面的命令执行报错,执行export LANG=C.UTF-8和export LC_ALL=C.UTF-8命令
服务器XCONSOLE界面未启动
故障描述
当使用显示器与服务器直接相连时,不能进入Xconsole界面,提示“No controller found”。
故障处理步骤
由于XCONSOLE界面未启动导致,可使用ssh工具连接服务器,采用“service tty1 start”启动后即可恢复XCONSOLE。
管理平台日志收集
故障描述
当遇到故障时,需要收集服务器相应日志,供H3C工程师进行问题定位等。
故障处理步骤
- 登录云学堂管理平台,单击导航树中[系统管理/日志管理]菜单项。
- 单击“日志文件收集”页签,单击页面中部的<下载日志>按钮,下载“系统日志”。
- 单击“操作日志”页签,填写“用户名”,选择时间区间,下载“操作日志”。
- 单击“上下课日志”页签,填写“教室用户名”,下载“上下课日志”。
管理平台admin账户密码忘记,如何重置?
故障描述
当管理平台admin账户密码修改后忘记密码后,无法登陆管理平台。
故障处理步骤
- SSH连接服务器。
- 执行/var/lib/h3class/bin/reset-admin-pwd.sh命令。
- 重置后的密码为admin。
2.46 高可用课程上课,其中一台服务器断电后恢复供电,主机被禁用,并提示glusterfs-server stop/waiting
故障描述
集群环境,开启高可用课程后,上课中一台服务器断电,然后恢复供电,主机被禁用,提示glusterfs-server stop/waiting。
故障处理步骤
- SSH连接问题服务器。
- 执行service glusterfs-server restart即可。
集群环境中,如何设置资源分配策略?
故障描述
在集群环境中,各主机上的资源相差较大时,如何保证虚拟机自动在资源较多的主机上创建,从而达到资源充分利用及最大化主机性能的目的。【注意】:修改默认策略未必是好的选择,谨慎操作!
故障处理步骤
处理该问题的方法就是重新构建业务虚拟交换机,并手动在管理平台上配置恢复对应的网络信息。
情况一:云主机资源平均分配策略(默认):
- SSH访问主服务器。
- 执行vim /etc/horizon/config.yml命令。
- 将system.vdi-average-distribution参数设置为True,或者注释掉。
- 执行restart h3class-http命令。
当前云学堂缺省该设置,集中上课时,虚拟机的创建将被平均到各云主机上。
情况二:云主机资源优先分配:
- SSH访问主服务器。
- 执行vim /etc/horizon/config.yml命令。
- 将system.vdi-average-distribution参数设置为False。
- 执行restart h3class-http命令。
集中上课后,从空余资源最多的主机上开始创建虚拟机。
上课中,服务器总电源跳闸,重新上电后,出现虚拟机黑屏的情况
故障描述
该问题是概率事件,在使用未配置高可用的课程上课时,才会发生,处理方法是下课重新上课。以下给出黑屏现象预防手段,该手段是牺牲虚拟机性能换取稳定性的方法。
故障处理步骤
情况一:未配置HA的环境:
- 使用SSH工具连接安装有管理平台的服务器
- 将/etc/horizon/config.yml文件中的system.vm-disk-cache:False字段取消注释(该参数不配置或设定为True时,云桌面缓存模式为writeback。设定为False时,云桌面缓存模式为writethrough。Writeback模式的虚拟机性能优于writethrough模式)
- /var/lib/h3class/venv/horizon/bin/horizon stop 关闭horizon服务
- /var/lib/h3class/venv/horizon/bin/horizon start 启动horizon服务
情况二:配置有HA的环境:
- 将备服务器/etc/horizon/config.yml文件中的system.vm-disk-cache字段取消注释
- 将主服务器/etc/horizon/config.yml文件中的system.vm-disk-cache字段取消注释
- /var/lib/h3class/venv/horizon/bin/horizon stop 关闭horizon服务
- /var/lib/h3class/venv/horizon/bin/horizon start 启动horizon服务
忘记mysql密码
故障描述
缺省用户名可能是 User: horizon Passwd: horizon User: root Passwd: 1q2w3edc 如果以上缺省用户名密码不正确,可通过以下方式找到:
故障处理步骤
- 使用find / -name settings.py命令,找到setting.py文件路径。
- 进入该文件目录。
- vim setting.py
- 在VIM末行模式下输入/DATABASES命令,查找DATABASE字段所在位置。即可看到数据库相关的用户名密码。
主机缩容后无法再次扩容(将主机添加到集群)
故障描述
对未运行状态(断电、断网、关机)的主机进行缩容,会导致缩容主机残留数据文件,而无法再次扩容。
故障处理步骤
需要在缩容主机上执行如下操作,清除其残留数据:
- gluster volume stop images //停止images这个数据卷
- gluster volume delete images //清除images这个数据卷数据
- gluster volume stop documents //停止documents这个数据卷
- gluster volume delete documents //清除documents这个数据卷
- gluster pool list //得到除了localhost之外的所有hostname
- gluster peer detach <参数:hostname> force //强制移除缩容的节点
在管理平台上启动课程虚拟机后,鼠标无法透传到虚拟机中
故障描述
从管理平台打开课程虚拟机,但是鼠标在虚拟机中不生效
故障处理步骤
- 在浏览器地址栏输入chrome://flags/#touch-events
- 调整 Touch Events API 参数为“Disable”,重启浏览器
云学堂管理平台登录界面无法打开,报错提示502 Bad Gateway
故障描述
由于根分区利用率100%,导致云学堂管理平台的登录界面无法打开,报错提示502 Bad Gateway.
故障处理步骤
- 通过SSH工具登录安装有云学堂管理平台软件的服务器后台使用df –h命令查看空间占用情况。
- 使用du –sh *命令查找并删除无用大文件、清理磁盘空间。(请勿自行清理,请联系一下研发人员协助)
- 执行service mysql start命令启动mysql服务。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
集群环境中,主机之间如何传输文件
故障描述
在集群环境中,主机之间想要快速传输文件。
故障处理步骤
使用scp命令:
- scp <目的文件> <本机路径>
举例:scp root@10.88.190.153:/vms/images/image-name /vms/images
- scp <本机文件> <目的路径>
举例:scp image-name root@10.88.190.153:/vms/images
HA环境中,如何判断主备服务器
故障描述
HA环境中,怎么判断哪台服务器是主服务器,哪台服务器是备服务器。
故障处理步骤
在对应服务器后台输入status h3class-http命令,如果结果是“h3class-http start/running”,则是主服务器,“h3class-http start/waiting”,则是备服务器。
软件安装文件上传失败
故障描述
软件安装文件上传失败。
故障处理步骤
不能直接上传文件夹,需要先压缩上传,然后再在虚拟机中解压使用
云学堂管理平台相关端口说明
故障描述
云学堂管理平台对不同服务使用了不同的端口,请不要私自对这些端口进行相关操作。有问题时,请联系H3C工程师。
故障处理步骤
在此列出管理平台相关端口:
端口 | 作用 | 用途 | 中间件 |
---|---|---|---|
21 | FTP服务器 | 上传镜像、软件等 | KVM |
22 | SSH服务 | 后台管理 | gluster |
80 | web服务 | 前台web管理 | open-vswitch |
82 | 主机交互 | 内部数据交互 | mysql |
111 | 远程过程调用服务 | 内部数据交互 | - |
139 | samba共享服务 | 学生空间、素材空间等 | - |
445 | samba共享服务 | 学生空间、素材空间等 | - |
1935 | 课程直播端口 | 课程直播 | - |
4900 | VNC反向代理 | 课程编辑 | - |
59XX | VNC端口 | 虚拟机VNC端口 | - |
12530 | 主机交互 | 内部数据交付 | - |
忘记服务器HDM(iLO)口密码处理方法
故障描述
有时候忘记HDM口的密码,无法远程打开服务器控制台。
故障处理步骤
方法一:在BIOS中里新建账户
- 进BIOS,选择Server Mgnt---HDM User Setting。
- 选择Add User。
- 此时创建后的帐户处于禁用状态。
- 新建完成后,返回后再选择修改帐户。此帐户可以对其它用户进行修改或删除(无法删除admin,可以修改admin帐户)。
- 重新将帐户设置为启用Channel NO =1或8 ,加管理员权限。
- 此服务器使用的共享方式,所以需要设置为1。
- 如果Channel NO 设置错误,例如应该设置为1,错误设置为8,登录时会有如下报错。
- 按ESC返回,此时用户状态为正常。
- 此时可以使用新创建的帐户登录HDM。
方法二:通过主板上的拔码开关,禁用HDM安全
- 主板拔码开关,如下图,在服务器机箱盖板的内部,也会有主板示意图。
- 关机断电情况下将 1号拔码开关拔至ON状态, 此时登录HDM,会有提示,如下图
- 无需输入密码,即可登录HDM。
- 可以在HDM中直接修改/新建/删除用户名,无需验证密码。
- 也可以直接添加新的用户,并管理员权限。
- 将拔码开关恢复正常后,可以使用新建议的用户名或修改后的密码登录系统。
- 当输入错误的用户或密码时,有如下报错。
更换哪些硬件时需要重新申请license授权?
license授权与机器的mac地址(网卡的物理地址)具有映射关系。更换硬件时,只要不更换正在使用的网卡,就不需要做license授权的解绑流程。一般情况下,服务器都是使用板载的LOM卡,故更换主板时,必然涉及授权解绑。其次,现场如果是万兆PCI更换,也涉及到授权解绑。
故障描述
模板安装软件上传的目录读写异常。
故障处理步骤
share.img为课程模板启动后挂载D盘所需的软件,gluster共享存储脑裂会导致share.img损坏,损坏后将导致模板安装软件上传的目录读写异常。处理方法如下:
- 执行rm -f /opt/doc/share/share.img命令移除share.img文件。
- 执行cat /etc/crontab 查看系统任务调度配置文件。
- 执行cd /var/lib/h3class/bin/命令,进入share.img所在目录。
- 执行./share-image.sh恢复share.img。
平台上下课卡住异常,报“undefined”错误
故障描述
云学堂管理平台上下课卡住异常,报“undefined”错误。
故障处理步骤
- 在/var/log/h3class下的celeryheart.log里能看到关于redis的报错。
- 若在上述日志里看到redis的错误才能进行以下的操作,否则造成的影响无法恢复。
- 执行/var/lib/h3class/venv/horizon/bin/horizon stop。
- 将/var/lib/redis下的dump.rdb文件删除或者重命名掉。
- 找到redis-server的进程号并kill掉。
- 执行service redis-server start。
- 执行/var/lib/h3class/venv/horizon/bin/horizon start。
- 重新上下课。
平台上下课卡住异常,日志中出现allocate waiting提示
故障描述
云学堂管理平台上下课异常,日志中出现allocate waiting提示。
故障处理步骤
该种情况只会E0303H03之前的版本里发生。
- 确认在/var/log/h3class下的horizon.log里能看到allocate waiting提示。
- 一旦日志里看到以上信息,联系研发处理。
云学堂服务器配置公网后,全国大屏采集端仍无法连接数据中心
故障描述
云学堂服务器网络环境连接公网之后,docker容器无法自动同步相关配置,导致全国大屏采集端的容器不能自动连上公网,从而无法上报数据给全国大屏服务器。
故障处理步骤
将无法连接公网的服务器配置公网之后,docker容器需要重启才能连上公网,同步相关配置,所以配置完公网后如果不重启容器仍然无法连接数据中心。
解决方法如下:
- 执行命令查看容器id: docker ps -a | grep conf_updater-m
- 复制第一步中第一列的容器id,然后执行命令重启容器:docker restart id
云学堂管理平台的教室状态一直处于正在上课中
故障描述
某局点安装部署好云学堂管理平台及相关组件后,云主机发生了异常掉电的情况,待服务器重启后发现云学堂管理平台的教室状态一直处于“正在上课”中,并且无法执行上课、下课等操作。
故障处理步骤
正常情况下,云学堂的教室在不上课的情况下状态为“空闲”,上课的情况下状态为“上课中”,由于在执行上课过程中服务器发生异常掉电,导致教室一直呈现“正在上课”的异常状态,需要通过后台手工修改数据库的方法来修改教室的状态。检查对应教室中是否有正在运行的云桌面,如果有的话可以手工删除虚拟机。
- 教室中正在运行的云桌面个数为0。
- 通过SSH工具登录到云学堂管理平台云主机的后台,输入 mysql -u<数据库用户名> -p<数据库密码> 命令,登入数据库。(缺省用户名密码都是horizon)
- 输入“select * from horizon_classroomstage”查询教室当前的状态,若state数值是否为0即为空闲状态。
- 如果上一步中教室的state数值不为0,则执行“update horizon_classroomstage set state='0' where id='1';”命令将教室的状态值修改为0。
- 修改完成后再执行select * from horizon_classroomstage命令查询确认教室的state数值是否已修改为0。
- 数据库修改完成之后刷新浏览器页面重新登录云学堂管理平台即可。
- 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
上课时提示“启动课程失败,服务器没有足够的资源”
故障描述
E0303P08之前版本,一键上课时,提示“启动课程失败,服务器没有足够的资源”。
故障处理步骤
E0303P08之前版本,自由上课的情况下频繁还原虚拟机的操作,导致后台vcpu重复记录。全部下课时,平台在没有虚拟机的情况下仍显示有vcpu占用。
- 请将服务器所需要创建的虚拟机数量改为目前可用vcpu能满足的虚拟机的最大数量,上下课一次即可恢复。
集群模式下,计算节点上的虚拟机无法获取IP
故障描述
集群模式下,管理节点上的虚拟机能获取到IP,计算节点上虚拟机均无法获取IP。
故障处理步骤
服务器接入的核心交换机上配了dhcp-snooping,上课后给虚拟机分配IP的dhcp server在管理节点上,因而管理节点上的虚拟机获取dhcp信息通过内部通信不经过交换机,信息不会被过滤,虚机能获取IP,计算节点上虚拟机需要经过交换机与管理节点通信,dhcp信息被过滤,计算节点上的虚拟机不能获取IP。
- 请在交换机上清除dhcp-snooping配置即可。
启用考试模式的RDP课程上课时,若干学生机黑屏如何处理
故障描述
使用RDP桌面连接协议,并启用考试模式的课程,上课时若干学生机黑屏。
故障处理步骤
- 移动鼠标或敲击键盘即可恢复正常。
- 规避该现象,请将课程模板中如下路径的配置文件“C:\CloudClassVMServer\CloudClassVMServer\mapdriverclient\VMAgent.exe.CONFIG”的“<add key=”kaoshitype” value=”reboot”/>”中“reboot”参数改为“logout”。
Flash重定向时,概率性出现全屏后视频区域黑屏,但视频声音和进度条缓冲正常。
故障描述
使用IE浏览器进行Flash重定向时,概率性出现全屏后视频区域黑屏,但视频声音和进度条缓冲正常。
故障处理步骤
该问题为Flash插件自身问题,在客户机使用浏览器长时间播放Flash视频,全屏也会概率出现此现象。
- 手动拖动进度条,画面即可恢复正常。
使用IE浏览器无法打开管理平台
故障描述
使用IE浏览器,如IE9、IE11等,无法打开云学堂管理平台。
故障处理步骤
云学堂管理平台暂不支持通过IE浏览器访问。
- 推荐使用Google Chrome 73及以上版本的浏览器。
四主机集群,特定两台主机下的虚拟机启动总是很慢,明显慢于另外两台主机下的虚拟机
故障描述
某局点win10的课程,在服务器CPU和内存充足的情况下,上课后,有两台主机下的虚拟机启动总是明显慢于另外两台主机下的虚拟机,出现启动至少耗时两分半的情况
故障处理步骤
- 请使用以下命令对旧版本中的brick读取性能进行调优,所有教室下课后,在管理节点执行:gluster volume set images cluster.read-hash-mode 2
- 如果以上调整无法解决问题,请联系华三技术人员重新对GlusterFs的存储方案进行评估或调整
注意:调整GlusterFS存储方案是高危操作,问题评估后,请在华三技术人员指导或直接由华三技术人员操作完成
课程上下课速度缓慢,如何解决
故障描述
课程上下课速度缓慢。
故障处理步骤
- 检查课程模板中是否配置了静态IP地址。如果配置为静态IP地址,则在下课状态下,将课程模板的IP地址修改为动态获取。
- 上下课两次。为了清理可能残留的虚拟机第一次上下课速度可能仍然很慢,从第二次开始上下课速度即可恢复正常。
多节点环境下,某台主机故障,如何处理
故障描述
多节点环境下,某主机(非管理平台所在主机)由于系统故障,出现禁用现象,如下图所示。
故障处理步骤
当管理节点故障时,建议先备份数据后卸载管理平台,然后重新安装。 当环境节点数为偶数时,按以下步骤操作;当环境节点数为奇数且故障主机是非glusterfs存储节点时,无需执行步骤(3)中gluster相关操作,其他操作一样。 当无法直接排查出主机禁用原因,或需更换硬件,或需重启系统时才采取下文所述处理方法,其他情况请解决相关故障后观察主机是否禁用。
- 登录管理平台页面,进入云主机页面,找到故障主机,执行删除故障主机操作。
- 对故障主机进行重装系统操作,恢复该主机为云学堂配套版本的CAS CVK纯净系统。但是要求网络信息不变更,即管理口IP还是原来故障前的IP。
- 在云主机页面,执行添加该主机的操作。执行成功后,该主机虽然还是会进入禁用状态,但可以先不用处理禁用问题,继续执行如下步骤修复共享存储后禁用问题会自动修复。
- a. 在管理平台所在主机上,执行gluster volume info --xml,找到故障主机(10.10.10.195)的hostuuid(09c71116-c517-4262-8785-dc60b92064f0)。
- b. 通过ssh工具登录故障主机后台系统,执行vim /var/lib/glusterd/glusterd.info命令,打开glusterd.info文件,将文件中UUID值修改为刚才记录的hostuuid的值。
- c.在故障主机上,执行service glusterfs-server restart命令重启gluster服务。
- d. 在故障主机上,执行gluster peer probe ip命令发现所有其他正常节点。
- root@cvknode195:~# gluster peer probe 10.10.10.196
- peer probe: success.
- root@cvknode195:~# gluster peer probe 10.10.10.192
- peer probe: success.
- root@cvknode195:~# gluster peer probe 10.10.10.197
- peer probe: success.
- e. 在故障主机上,再次执行service glusterfs-server restart命令重启gluster服务。
- f. 查看peer status,稍等几秒钟,等执行gluster peer status命令看到所有邻居节点都处于Peer in Cluster (Connected)状态时,继续执行下一步。
- root@cvknode195:~# gluster peer status
- Number of Peers: 3
- Hostname: 10.10.10.192
- Uuid: 1e29497f-6df1-41ab-818a-77ae40484990
- State: Peer in Cluster (Connected)
- Hostname: 10.10.10.197
- Uuid: 65d4a950-f6a6-4e9e-b738-287d18e1bda3
- State: Peer in Cluster (Connected)
- Hostname: 10.10.10.196
- Uuid: 94b601f5-8c12-4ffe-ad4d-cb58d19159db
- State: Peer in Cluster (Connected)
- g. 通过SSH工具登录管理平台所在主机的后台系统,创建一个临时目录,比如/gluster/tmp。
- h. 在管理平台所在节点上,执行gluster volume replace-brick命令将故障节点的brick替换为管理平台所在节点的临时目录:
- root@cvknode196:/gluster# gluster volume replace-brick images 10.10.10.195:/gluster/ssd 10.10.10.196:/gluster/tmp commit force
- volume replace-brick: success: replace-brick commit force operation successful
- i. 在故障节点上再次执行service glusterfs-server restart命令重启gluster服务。
- j. 在管理平台所在节点上,执行gluster volume replace-brick命令将刚才的替换还原回来。如果提示失败,请重新尝试几次,如果一直失败请重启故障节点上的gluster服务后再次尝试。
- root@cvknode196:~# gluster volume replace-brick images 10.10.10.196:/gluster/tmp 10.10.10.195:/gluster/ssd commit force
- volume replace-brick: success: replace-brick commit force operation successful
- k. 重复上面的几步,把documents这个共享存储卷也修复。
- l. 在管理平台所在节点上,执行如下命令,替换brick。
- root@cvknode196:/gluster# gluster volume replace-brick documents 10.10.10.195:/gluster/hdd 10.10.10.196:/gluster/tmp commit force
- volume replace-brick: success: replace-brick commit force operation successful
- m. 在故障节点上再次执行service glusterfs-server restart命令重启gluster服务。
- n. 在管理平台所在节点上,执行替换操作,如果提示失败,请重新尝试几次,如果一直失败请重新启动故障节点上的gluster服务后再次尝试。
- root@cvknode196:~# gluster volume replace-brick documents 10.10.10.196:/gluster/tmp 10.10.10.195:/gluster/hdd commit force
- volume replace-brick: success: replace-brick commit force operation successful
- o. 最后执行gluster volume status,如果查看是否所有的主机的Online状态都是Y。如果都是Y,就表示共享存储修复成功了。
- a. 在管理平台所在主机上,执行gluster volume info --xml,找到故障主机(10.10.10.195)的hostuuid(09c71116-c517-4262-8785-dc60b92064f0)。
- 4. 执行如下步骤修改数据库:
- a. 在管理平台所在主机后台,执行mysql -uroot -p1q2w3e@4R命令,登录mysql。密码老版本的是1q2w3e,E0306P02之后的版本是1q2w3e@4R。
- b. 登录mysql后,执行use HORIZON;指令。
- c. 执行指令select * from horizon_host;查看故障后新添加的主机的id的值,下图中显示10.10.10.195的id是5。
- d. 执行select * from horizon_glustermount;查看当前挂载记录,其中应该暂时还没有故障后添加主机的挂载记录,下图看到host_id并没有等于5的记录。
- e. 手动添加挂载记录,添加后,等待两分钟,应该故障主机就自动变为启用了。需要注意的是,其中volume_id等于1时,mount_path等于/vms/images,volume_id等于2时,mount_path等于/opt/doc;如下示例中,添加时间和host_id根据实际情况填写,其他保留原样即可。
- insert into horizon_glustermount (mount_path, mount_state, added_at, host_id, volume_id) values ("/vms/images",1,"2019-11-13 16:05:00",5,1);
- insert into horizon_glustermount (mount_path, mount_state, added_at, host_id, volume_id) values ("/opt/doc",1,"2019-11-13 16:05:00",5,2);
- 5. 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。