Cum să extrageți și salvați cu nokogiri conținutul din HTML într-un fișier text

Ruby este un limbaj de programare orientat-obiect, dinamic, ușor de citit și implementat. Află cum poți implementa cod.
Avatar utilizator
specialist it
Mesaje: 205
Membru din: 28 Iun 2017, 16:39
6
Contact:

Cum să extrageți și salvați cu nokogiri conținutul din HTML într-un fișier text

Mesaj de specialist it »

Salut,

Mai jos regăsiți un scurt tutorial despre cum să extrageți conținutul din HTML utilizând nokogiri și cum să salvați acest conținut într-un fișier text (.txt).

Cerințe preliminare:

- instalați nokogiri (gem install nokogiri);
- obțineți un fișier .html care să aibă conținut (ex: test.html);
- creați un fișier text (ex: tags.txt).

Codul Ruby aferent:

Cod: Selectaţi tot

require 'nokogiri'

doc = File.open("/Users/admin/Desktop/test.html") { |f| Nokogiri::HTML(f) }

puts "### Scrap"

begin
file = File.open("/Users/admin/Desktop/tags.txt", "w")
        #use css selector to target the node that contains content
	doc.css('span.select-menu-item-text.js-select-button-text.js-navigation-open').each do |span|
	  puts span.content
	  file.write(span.content.to_s + "\n")
	end
rescue IOError => e
#some error occur, dir not writable etc.
ensure
	file.close unless file.nil?
end
Pentru întrebări, vă stăm la dispoziție.

Autor thread: stefanciprian, Echipa Specialişti IT

Mulțumesc
Moderator și Specialist IT
Scrie răspuns