#开源# 妹妹站,全站采集自动发布
主机社 9月前

采集说明:crawler下的每个文件都是一个独立爬虫,分别对应一个站。需要采集那个站就修改那个文件,默认采集首页,根据标题去重。爬虫里有备注

另外,建议第一次采集全站,然后修改配置,只采集第一页,写进linux定时任务里

本地图片发布说明:cd 到 crawler,执行python3 AutoPost.py,根据提示输入本地图片所在路径,输入自动发布时间

图片压缩使用说明:有些网站可能未对图片进行压缩,一张图1m甚至几m不但降低传输速度还占空间。cd 到 crawler,执行python3 Compress.py,

根据提示输入,默认10个线程压缩,如果服务器配置高可适当增加,只压缩图片质量,尺寸不变,实测1m图片压缩到100k后肉眼看不出区别

宝塔安装教程:最初因为这是Python程序只用安装mysql和nginx(可选),所以一直没写教程。群里一老哥写了一个教程,在此借用下

直接上老哥博客地址:

https://sunsea.im/131/bt-94imm-build-beautiful-girl-picture-station/

演示地址:模板1 https://www.94imm.com、 模板2 http://mm.94imm.com(联通有墙)

git地址:https://git.coding.net/zxy_coding/94imm.git

1.环境需求Python3.6.5、mysql5.7、nginx(可选)。系统版本推荐centos7 64位2.环境搭建  python3.6.5参考 http://blog.51cto.com/wenguonideshou/2083301,软链地址有问题,注意看回复  mysql5.7安装,参考https://blog.csdn.net/qq_38663729/article/details/79327305  python-dev安装,参考https://blog.csdn.net/default7/article/details/73368665  安装程序依赖,进入程序目录,输入:pip3 install -r requirements.txt3.程序安装  修改silumz下settings.py文件中数据库的配置  DATABASES = {      'default': {          'ENGINE': 'django.db.backends.mysql',          'NAME': 'xxxx',          'USER': 'root',          'PASSWORD': 'xxxx',          'HOST': '127.0.0.1',          'PORT': '3306',      }  }  创建相应数据库,导入程序目录下的sql文件  修改nginx配置文件(centos7  /etc/nginx/nginx.conf)  配置文件的server中的location字段如下修改  location / {            proxy_pass   http://127.0.0.1:8000;            index  index.html index.htm;        }  重启nginx,访问网站即可4.修改爬虫中的数据库地址  爬虫位于crawler目录下,每一个文件都是独立的,可单独执行  建议第一次运行时修改爬虫参数为采集全站,运行完修改参数为采集第一页,然后在linux中添加定时任务。实现自动采集5.启动程序  进入程序目录,uwsgi --ini uwsgi.ini6.模板修改  修改silumz下settings文件中的模板配置  TEMPLATES = [    {        'BACKEND': 'django.template.backends.django.DjangoTemplates',        'DIRS': [os.path.join(BASE_DIR, 'templates'+"/"+"94imm")]  94imm为模板名  模板文件位于templates文件夹下,修改相应页面7.其他配置  将模板目录下的pagination.html文件放入python安装目录的/site-packages/dj_pagination/templates/pagination/下  (centos7  /usr/lib/python3.6/site-packages/dj_pagination/templates/pagination)8.备注说明  其他系统请自行百度mysql python3.6.5 nginx的安装方法,程序安装方法相同更新内容9.自动发布位于crawler下,执行python3 AutoPost.py 即可,注意输入文件夹时选择图片根目录,脚本会自动获取根目录下的所有子目录,并将子目录名作为标题,并复制子目录下所有文件到static/images/随机7个字母/ 下并删除源文件10.压缩脚本位于crawler下,执行python3 Compress.py 即可,演示时使用兔玩的图片,发现图片太大,平均每张1M左右,600多套就占30G。所以写了个批量压缩脚本,同样是输入图片根目录,可以选在覆盖原图或在新目录压缩

不明白的跟帖或加qq 386523048

作者:saskeke

支持作者:sunsea.im

查看原帖:https://www.hostloc.com/thread-507774-1-1.html

最新回复 (0)
返回
网站标签