分类 技术类 下的文章

搭建Selenium 集群

引言

工作中用到了Selenium作为爬虫去解析网页,发现单机跑慢的要死,所以找了点资料,将官方的Selenium 集群搭建了起来,下面是搭建的过程。

环境介绍

系统 jdk环境 selenium版本 安装的浏览器 用途 别名
Centos7 1.8 3.141.59 chrome server Hub
Centos7 1.8 3.141.59 chrome node Node1
Centos7 1.8 3.141.59 chrome node Node2
Centos7 1.8 3.141.59 chrome node Node3

安装Hub

首先从官网上下载好最新版本的selenium-server-standalone.jar

在Hub机器上执行下面的命令,运行hub管理端

screen -dmS selenium  java -jar selenium-server-standalone.jar -role hub -maxSession 100  -log /var/log/selenium.log

执行以后会出现下面这样的提示

记住下面的两个URL地址:

第一个地址是注册node的时候回使用到,第二个地址是在代码中会用到

安装Node

将上面下载的jar文件复制到各个节点机器上,然后执行下面命令,注册node节点

screen -dmS selenium java -jar selenium-server-standalone.jar -role node -hub http://10.10.88.51:4444/grid/register/ -capabilities browserName=chrome,platform=linux,maxInstances=30 -log /var/log/selenium.log

记住将-hub后面的url地址更改为你的hub地址,执行以后会出现下面的界面

然后我们返回Hub机器上看Hub机器上回出现一条这样的提示

可以看到已经成功注册了节点机器。其他节点按照同样的方式进行注册即可。
关于其中的参数可以参考下面的文章:

查看web界面

在注册完node节点以后,我们可以在web界面中看到我们注册的机器的列表以及配置
我们访问Hub机器的url地址为:

http://10.10.88.51:4444/grid/console

将其中的10.10.88.51换为你hub机器的ip地址即可访问

至此我们的Selenium 集群以及初步搭建完成,接下来就是使用了

使用Selenium集群

这边我用python代码进行测试Selenium机器是否能正常使用。
代码如下

# -*- coding:utf-8 -*-
# Author: sky
# Email:  sky@03sec.com
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--hide-scrollbars')
driver = webdriver.Remote(command_executor="http://10.10.88.51:4444/wd/hub",options=chrome_options)
driver.get("https://www.03sec.com")
driver.implicitly_wait(3)
driver.find_elements_by_tag_name("div")
print(driver.page_source)
driver.quit()

其中chrome_options请根据自己的情况进行自定义,
command_executor为上面我们记录的第二条url地址,请自行更换

其实和平时写没有什么区别,唯一的区别就是

driver = webdriver.Remote(command_executor="http://10.10.88.51:4444/wd/hub",options=chrome_options)

这条配置

设置Centos7 开机启动

  • selenium grid 设置开机启动的命令
mkdir /opt/script
touch /opt/script/autostart.sh
echo "
#!/bin/bash
#description:启动selenium Grid
screen -dmS selenium java -jar selenium-server-standalone.jar -role hub -maxSession 100 -log /var/log/selenium.log
" >> /opt/script/autostart.sh
chmod +x /opt/script/autostart.sh
echo "su - root -c '/opt/script/autostart.sh'" >> /etc/rc.d/rc.local
chmod +x /etc/rc.d/rc.local
cat /etc/rc.d/rc.local
ls -la /etc/rc.d/rc.local
cat /opt/script/autostart.sh
ls -la /opt/script/autostart.sh
echo "ok"


  • selenium node 设置开机启动的命令
mkdir /opt/script
touch /opt/script/autostart.sh
echo "
#!/bin/bash
#description:启动selenium节点
screen -dmS selenium java -jar selenium-server-standalone.jar -role node -hub http://selenium-grid 服务器IP:4444/grid/register/ -capabilities browserName=chrome,platform=linux,maxInstances=30 -maxSession 60  -log /var/log/selenium.log
" >> /opt/script/autostart.sh
chmod +x /opt/script/autostart.sh
echo "su - root -c '/opt/script/autostart.sh'" >> /etc/rc.d/rc.local
chmod +x /etc/rc.d/rc.local
cat /etc/rc.d/rc.local
ls -la /etc/rc.d/rc.local
cat /opt/script/autostart.sh
ls -la /opt/script/autostart.sh
echo "ok"

安装中遇到的问题

可能会有中文乱码的问题,在centos7下安装下中文字体库即可,

yum groupinstall fonts

总结

集群安装以后,使用和平时没什么两样,速度也差不多。如果你是单机单进程跑,没必要使用集群。如果涉及到多进程或者多线程这样的话,Selenium集群才能真正发挥作用。

hub端传入的timeout会同时设置到节点上(应该)

参考

PHPdocX7 Source code

====PHPdocX 7 by 2mdc.com==== https://www.phpdocx.com/

PHPDOCX is a PHP library designed to dynamically generate reports in
Word format (WordprocessingML).

The reports may be built from any available data source like a MySQL
database or a spreadsheet. The resulting documents remain fully
editable in Microsoft Word (or any other compatible software like
OpenOffice) and therefore the final users are able to modify them as
necessary.

The formatting capabilities of the library allow the programmers to
generate dynamically and programmatically all the standard rich
formatting of a typical word processor.

This library also provides an easy method to generate documents in
other standard formats such as PDF or HTML.


phpdocx 可以使用word模板将数据填充到word里面并且生成新的word文档。具体使用方式看官方文档

https://www.phpdocx.com/documentation

下载地址:phpdocx7.zip

git地址:phpdocx7-git

Spring MVC MultipartResolver特性-QP编码

今天看Spring的Multipart处理发现一段比较奇怪的代码:

20180803094501_282.png
奇怪的是Spring为什么会对“=?”、“?=”进行特殊处理?跟进后发现这玩意是QP编码,用来解决邮件内附件编码问题。Spring调用了java mail的api对文件上传的附件文件名称进行了QP编码。

既然已知Spring的这个特性,那么某些时候或许就可以通过对文件名称进行编码来绕过传统的waf、cdn的防御了。

利用Java mail库生成特殊的文件名:
2.png

上传进行编码后的文件:

3.png

Spring会做decode解析:
4.png

原文地址:http://p2j.cn/?p=1868

SolusVM 授权服务器端

  • 1.编辑hosts文件
vi /etc/hosts
  • 2.添加以下内容
162.211.226.149     www.soluslabs.com
162.211.226.149     soluslabs.com
162.211.226.149     licensing1.soluslabs.net
162.211.226.149     licensing2.soluslabs.net
162.211.226.149     licensing3.soluslabs.net
162.211.226.149     licensing4.soluslabs.net
162.211.226.149     licensing5.soluslabs.net
162.211.226.149     licensing6.soluslabs.net
  • 3.打开SolusVM后台,打开 Configuration –> License 添加授权码并保存
SVMTL-88888-88888-88888-88888-88888-88888

设置完以后可以正常升级。

提示:据说 SolusVM 的主控端还是会偷偷地往法国 OVH 的一个机器发包,非域名,IP 直连请求,可以尝试通过 tcpdump 抓取这个 IP 然后做 iptables 限制访问。
我这边是直接将94.0.0.0/8这个段全部封掉
iptables -I INPUT -s 94.0.0.0/8 -j DROP

Virtualizor破解

license 验证函数的文件路径是:

/usr/local/virtualizor/main/functions.php

一键自动破解脚本

首先创建脚本

vi /opt/license.sh

然后写入下面的内容

#/bin/bash
# 
# 设置license
# 
chattr -i /usr/local/virtualizor/license2.php
rm -rf /usr/local/virtualizor/license2.php
IP=`curl http://members.3322.org/dyndns/getip`
LIC_URL='http://www.03sec.com/make_license.php?str='$IP
license_text=`curl $LIC_URL`
echo $license_text >> /usr/local/virtualizor/license2.php
chattr +i /usr/local/virtualizor/license2.php

最后增加执行权限以及运行脚本

chmod +x /opt/license.sh && /opt/license.sh

测试中发现,virtualizor会自己更改license2.php,即使使用了chattr也没用。建议将上面的脚本设置为定时任务,每小时运行一次

0 * * * * /opt/license.sh