1. 使用 html2md.py
脚本把网页转换成 Markdown
文本
./html2md.py 'https://www.ruyile.com/xuexiao/?a=183&t=3&p=1' >x01.txt
./html2md.py 'https://www.ruyile.com/xuexiao/?a=183&t=3&p=2' >x02.txt
...
./html2md.py 'https://www.ruyile.com/xuexiao/?a=183&t=3&p=14' >x14.txt
2. 因为脚本是在容器中运行,所以先打包,下载到Windows下合并
$ tar cvf x.tar x*.txt
# x01.txt + x02.txt + x03.txt + x04.txt + x05.txt + x06.txt + x07.txt + x08.txt + x09.txt + x10.txt + x11.txt + x12.txt + x13.txt + x14.txt
$ sz x.tar
# windows 下解压tar,cmd命令合并成一个文件
copy x01.txt + x02.txt + x03.txt + x04.txt + x05.txt + x06.txt + x07.txt + x08.txt + x09.txt + x10.txt + x11.txt + x12.txt + x13.txt + x14.txt new.txt
3. VS code 中使用 正则语法多行替换
####s+[(.*)].*
(电话.*)
(邮编.*)
(地址.*)
X选择X $1 $2 $3 $4
4. 使用文本排序后,剔除垃圾信息,就可以复制到EXCEL使用
- Excel 里按邮编和名称排序,学校就按县级市分类整理好了
5. 转换成PDF打印使用
0 条评论