jsoup-learning

Jsoup学习笔记。添加了部分学习代码和注释。

  • Owner: code4craft/jsoup-learning
  • Platform:
  • License:: MIT License
  • Category::
  • Topic:
  • Like:
    0
      Compare:

Github stars Tracking Chart

Jsoup学习笔记

Jsoup是Java世界的一款HTML解析工具,它支持用CSS Selector方式选择DOM元素,也可过滤HTML文本,防止XSS攻击。

学习Jsoup是为了更好的开发我的另一个爬虫框架webmagic,为了学的比较详细,就强制自己用很规范的方式写出这部分文章。

代码部分来自https://github.com/jhy/jsoup,添加了一些中文注释以及示例代码。


提纲

  1. 概述

  2. DOM相关对象

  3. Document的输出

  4. HTML语法分析parser

    1. 语法分析与状态机基础
    2. 词法分析Tokenizer
    3. 语法检查及DOM树构建
  5. CSS Selector

  6. 防御XSS攻击

  7. 为Jsoup增加XPath选择功能

    Jsoup默认没有XPath功能,我写了一个项目Xsoup,可以使用XPath来选择HTML文本。Java里较常用的XPath抽取器是HtmlCleaner,Xsoup的性能比它快了一倍。


协议:

相关代码遵循MIT协议。

文档遵循CC-BYNC协议。

Bitdeli Badge

Main metrics

Overview
Name With Ownercode4craft/jsoup-learning
Primary LanguageJava
Program languageJava (Language Count: 1)
Platform
License:MIT License
所有者活动
Created At2013-08-31 00:32:57
Pushed At2023-12-16 18:10:39
Last Commit At2014-01-22 21:13:10
Release Count0
用户参与
Stargazers Count638
Watchers Count71
Fork Count229
Commits Count50
Has Issues Enabled
Issues Count3
Issue Open Count1
Pull Requests Count1
Pull Requests Open Count2
Pull Requests Close Count0
项目设置
Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private