jsoup: Java HTML Scrapper - агляд Semalt

jsoup - гэта сховішча Java, якое выконвае HTML. Ён абсталяваны эфектыўным і эфектыўным API, які збірае, аналізуе і кіруе дадзенымі, выкарыстоўваючы неабходныя DOM, CSS і jquery-падобныя метады.

З праграмамі jsoup і вэб-дызайнерамі можна распрацоўваць дакументы з файлаў вэб-крыніц без змены структуры зыходных файлаў. Атрымаўшы файлы, карыстальнікі jsoup могуць наладзіць альбо змяніць цэлыя элементы структуры альбо элементы элемента, дадаўшы або змяніўшы элементы, змест альбо абодва.

Інструмент пабудаваны з шырокай спрытнасцю, каб забяспечыць гнуткі і стандартны інтэрфейс праграмавання для карыстальнікаў у шырокай разнастайнасці вэб-асяроддзя і прыкладанняў. Гэта дае карыстачу неабходны доступ да змены, выдалення або дадання кампанентаў да іх вытворных.

jsoup можа дэкадаваць і дэзінтэграваць дадзеныя на больш дробныя кампаненты для зручнага перакладу ў іншыя фарматы. Зыходныя дадзеныя здабываюцца ў выглядзе алгарытмічнай прагрэсіі, якая складаецца з кода інструкцый, убудаваных у дрэва збору або словаўтварэння. Ён пабудаваны для разумення і інтэграцыі кампанентаў HTML такім чынам, каб ён мог атрымаць складнікі файла з такой гнуткасцю ў залежнасці ад структуры кадавання. Як гэта робіцца? Ён праглядае і чысціць усю вэб-старонку для доступу і шаблона для захопу дадзеных. Калі магчыма атрыманне дадзеных, ён будзе працягвацца:

Навігацыя і аналіз дрэва разбору з самага высокага ўзроўню праз канфігурацыйную структуру да самага нізкага ўзроўню, улічваючы кожны кампанент дадзеных. Такі падыход называецца метадам разбору зверху ўніз.

Карэкціраванне дадзеных з самага нізкага ўзроўню структуры, аналіз кожнага кампанента дадзеных, праз прамежкавыя кампазіцыі да верхняга разбору ці дрэва словаўтварэння.

jsoup - гэта эфектыўнае рашэнне, якое падвяргаецца мноству складаных аперацый на працягу некалькіх секунд з-за сваёй сучаснай канструкцыі. Звычайна гэты працэс складаецца з трох наступных этапаў:

1. Фрагментацыя вынятых знакаў і дадзеных на меншыя больш простыя пакеты і аналіз гэтых бітаў сімвалаў і дадзеных для стварэння.

2. Інтэрпрэтацыя, якую можна прачытаць і скампіляваць машыннай мовай, якая здольная прывесці элементы дадзеных у парадак пераваг і якія можна выкарыстоўваць для стварэння

3. Электронныя выразы, якія ўтвараюць фрагменты інфармацыі, якая мае неабходную канфігурацыю, значэнне і значнасць для карыстальніка.

jsoup сумяшчальны і здольны выканаць вялікую структуру сцэнарыяў HTML, моўнага інтэрфейсу, праграм і стыляў дакументаў, уключаючы патрабаванні WhatWG HTML5. Яны аднолькава здольныя развязваць структуры HTML у той самай мадэлі дакумента, як і вэб-прыкладанні праграмнага забеспячэння, якія выкарыстоўваюцца для здабывання, навігацыі і прадстаўлення дадзеных і інфармацыйных рэсурсаў у сусветнай павуціне.

jsoup мае магчымасць:

  • ачысціць і разабраць HTML з URL, файла ці радка
  • знайсці і здабываць дадзеныя, выкарыстоўваючы праход DOM або CSS-селектары
  • павысіць HTML-элементы, атрыбуты і тэкст
  • выдаліце прадстаўлены карыстальнікам кантэнт з бяспечнага белага спісу, каб пазбегнуць нападаў XSS
  • даставіць акуратны HTML

Праграмнае забеспячэнне створана для ўрэгулявання ўсіх тыпаў HTML незалежна ад канфігурацыі: ад некранутай і праверкі да несапраўднай тэгі-супу: jsoup створыць патрэбную структуру разбору.