jsoup-learning

Jsoup学习笔记。添加了部分学习代码和注释。

  • 所有者: code4craft/jsoup-learning
  • 平台:
  • 許可證: MIT License
  • 分類:
  • 主題:
  • 喜歡:
    0
      比較:

Github星跟蹤圖

Jsoup学习笔记

Jsoup是Java世界的一款HTML解析工具,它支持用CSS Selector方式选择DOM元素,也可过滤HTML文本,防止XSS攻击。

学习Jsoup是为了更好的开发我的另一个爬虫框架webmagic,为了学的比较详细,就强制自己用很规范的方式写出这部分文章。

代码部分来自https://github.com/jhy/jsoup,添加了一些中文注释以及示例代码。


提纲

  1. 概述

  2. DOM相关对象

  3. Document的输出

  4. HTML语法分析parser

    1. 语法分析与状态机基础
    2. 词法分析Tokenizer
    3. 语法检查及DOM树构建
  5. CSS Selector

  6. 防御XSS攻击

  7. 为Jsoup增加XPath选择功能

    Jsoup默认没有XPath功能,我写了一个项目Xsoup,可以使用XPath来选择HTML文本。Java里较常用的XPath抽取器是HtmlCleaner,Xsoup的性能比它快了一倍。


协议:

相关代码遵循MIT协议。

文档遵循CC-BYNC协议。

Bitdeli Badge

主要指標

概覽
名稱與所有者code4craft/jsoup-learning
主編程語言Java
編程語言Java (語言數: 1)
平台
許可證MIT License
所有者活动
創建於2013-08-31 00:32:57
推送於2023-12-16 18:10:39
最后一次提交2014-01-22 21:13:10
發布數0
用户参与
星數638
關注者數71
派生數229
提交數50
已啟用問題?
問題數3
打開的問題數1
拉請求數1
打開的拉請求數2
關閉的拉請求數0
项目设置
已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?