XML Parsing

Alok Kothari · Apr 1, 2008

Hello,
I am new to XML parsing.Could you kindly tell me whats the
problem with the following code:

import xml.dom.minidom
import xml.parsers.expat
document = """<token pos="nn">Letterman</token><token pos="bez">is</
token><token pos="jjr">better</token><token pos="cs">than</
token><token pos="np">Jay</token><token pos="np">Leno</token>"""

# 3 handler functions
def start_element(name, attrs):
print 'Start element:', name, attrs
def end_element(name):
print 'End element:', name
def char_data(data):
print 'Character data:', repr(data)

p = xml.parsers.expat.ParserCreate()

p.StartElementHandler = start_element
p.EndElementHandler = end_element
p.CharacterDataHandler = char_data
p.Parse(document, 1)

OUTPUT:

Start element: token {u'pos': u'nn'}
Character data: u'Letterman'
End element: token

Traceback (most recent call last):
File "C:/Python25/Programs/eg.py", line 20, in <module>
p.Parse(document, 1)
ExpatError: junk after document element: line 1, column 33

Jason Scheirer · Apr 1, 2008

Hello,
I am new to XML parsing.Could you kindly tell me whats the
problem with the following code:

import xml.dom.minidom
import xml.parsers.expat
document = """<token pos="nn">Letterman</token><token pos="bez">is</
token><token pos="jjr">better</token><token pos="cs">than</
token><token pos="np">Jay</token><token pos="np">Leno</token>"""

# 3 handler functions
def start_element(name, attrs):
print 'Start element:', name, attrs
def end_element(name):
print 'End element:', name
def char_data(data):
print 'Character data:', repr(data)

p = xml.parsers.expat.ParserCreate()

p.StartElementHandler = start_element
p.EndElementHandler = end_element
p.CharacterDataHandler = char_data
p.Parse(document, 1)

OUTPUT:

Start element: token {u'pos': u'nn'}
Character data: u'Letterman'
End element: token

Traceback (most recent call last):
File "C:/Python25/Programs/eg.py", line 20, in <module>
p.Parse(document, 1)
ExpatError: junk after document element: line 1, column 33

Your XML is wrong. Don't put line breaks between </ and token>.

7stud · Apr 2, 2008

Hello,
I am new to XML parsing.Could you kindly tell me whats the
problem with the following code:

import xml.dom.minidom
import xml.parsers.expat
document = """<token pos="nn">Letterman</token><token pos="bez">is</
token><token pos="jjr">better</token><token pos="cs">than</
token><token pos="np">Jay</token><token pos="np">Leno</token>"""

# 3 handler functions
def start_element(name, attrs):
print 'Start element:', name, attrs
def end_element(name):
print 'End element:', name
def char_data(data):
print 'Character data:', repr(data)

p = xml.parsers.expat.ParserCreate()

p.StartElementHandler = start_element
p.EndElementHandler = end_element
p.CharacterDataHandler = char_data
p.Parse(document, 1)

OUTPUT:

Start element: token {u'pos': u'nn'}
Character data: u'Letterman'
End element: token

Traceback (most recent call last):
File "C:/Python25/Programs/eg.py", line 20, in <module>
p.Parse(document, 1)
ExpatError: junk after document element: line 1, column 33

I don't know if you are aware of the BeautifulSoup module:

import BeautifulSoup as bs

xml = """<token pos="nn">Letterman</token><token pos="bez">is</
token><token pos="jjr">better</token><token pos="cs">than</
token><token pos="np">Jay</token><token pos="np">Leno</token>"""

doc = bs.BeautifulStoneSoup(xml)

tokens = doc.findAll("token")
for token in tokens:
for attr in token.attrs:
print "%s : %s" % attr

print token.string

--output:--
pos : nn
Letterman
pos : bez
is
pos : jjr
better
pos : cs
than
pos : np
Jay
pos : np
Leno

Gabriel Genellina · Apr 2, 2008

I don't know if you are aware of the BeautifulSoup module:

Or ElementTree:

import xml.etree.ElementTree as ET

doctext = """<tokens><token pos="nn">Letterman</token><token
pos="bez">is</token><token pos="jjr">better</token><token
pos="cs">than</token><token pos="np">Jay</token><token
pos="np">Leno</token></tokens>"""

doc = ET.fromstring(doctext)
for token in doc.findall("token"):
print 'pos:', token.get('pos')
print 'text:', token.text

expat parsing error	10	Jun 1, 2010
expat parsing error	0	Jun 1, 2010
expat parser	1	May 27, 2007
ElementTree XML parsing problem	8	Apr 27, 2011
parsing nested unbounded XML fields with ElementTree	6	Nov 25, 2013
python and parsing an xml file	3	Feb 21, 2011
problems with xml parsing (python 3.3)	5	Oct 28, 2012
expat having problems with entities (&)	3	Dec 11, 2009

XML Parsing

Alok Kothari

Jason Scheirer

7stud

Gabriel Genellina

Ask a Question

Similar Threads

Members online

Forum statistics

Latest Threads