Parsing - baseline

from html.parser import HTMLParser
import time
import colorama
import docx
import os
from Function2 import *
from colorama import *
taglist =[]
count0 = 0
count1 = 0
count2 = 0
count3 = 0
switch = 0
switch2= 0


class MyHTMLParser(HTMLParser):
    global document
    global switch2
    global count1
    global count2
    global count3
    global paragraph
    def handle_starttag(self, tag, attrs):
        global switch


        if len(attrs) >0:
            print("START:", tag, attrs)
        if len (attrs) == 0:
            print("START:", tag)
        self.opentags=tag
        taglist.append(tag)
        if tag == 'fnote':
            switch2 = 1

        if taglist[-1] == 'p':
            switch = 0


    def handle_endtag(self, tag):
        print("END:", tag)
        taglist.remove(tag)
        switch2 = 0


    def handle_data(self, data):
        global count1
        global count2
        global count3
        global paragraph
        global document
        global switch
        global switch2
        print(Fore.BLUE + "DATA(" + taglist[-1] + ")-"  + data + colorama.Style.RESET_ALL)
        activetag = taglist[-1]

        if activetag == 'h1':
            document.add_heading(data, level=3)

            #paragraph = document.add_paragraph ('')
            paragraph =document.add_paragraph()

            print ('111111')
            return
        if activetag == 'p':
            if switch == 1:
                paragraph.add_run(data).italic = False
                print ('SWITCH -1 or enabled so run')
                switch = 0
                return
            if switch == 0:
                print('SWITCH -0 or disabled so new paragraph')
                paragraph = document.add_paragraph(data)
            print('222222')
            return
        if activetag == 'i':


            paragraph.add_run(data).italic =True
            switch = 1
            print('333333')
            return

        if activetag == 'item':
            paragraph = document.add_paragraph(data)

        if activetag == 'fnote':

            paragraph.add_footnote(data)
            switch = 1

            if switch2 == 1:  # or on
                switch = 1

        if activetag == 'quote':
            paragraph = document.add_paragraph(data)


#1 and 0 is run and new paragraph respectively

parser = MyHTMLParser()
mydict = CSVimport('volfilenames.csv')
for filename, volno in mydict.items():
    count0 +=1
    #Key - (U)nwrap (D)ecompose
    #      (S)elect (U)nwrap
    #      (S)elect (D)ecompose

    soup = SoupFILEimport(filename)
    U1(soup, ['div', 'front'])
    SU(soup,'date')
    SD(soup, 'style')
    SD(soup, 'figure')
    U1(soup, ['div', 'front'])
    U2(soup, 'div', 'type', 'headnote')
    U2(soup, 'div', 'type', 'copyright')
    U2(soup, 'span', 'style', 'font-variant:small-caps')
    R2(soup, 'span', 'class', 'head', 'h1')
    R2(soup, 'span', 'class', 'item', 'item')
    R2(soup, 'span', 'class', 'fnote', 'fnote')
    R2(soup, 'span', 'style', 'font-style:italic', 'i')
    R2(soup, 'span', 'style', 'font-style: italic;', 'i')


    R2(soup, 'span', 'style', 'text-align:left', 'p')
    R2(soup, 'span', 'style', 'text-align:right', 'p')
    R3(soup, 'xmlns')

    document = docx.Document()
    paragraph = document.add_paragraph

    parser.feed(str(soup))

    os.system("pkill 'Microsoft Word'")
    time.sleep(1)
    document.save('./docx/temp/' + str(count0) + filename + '.docx')
    #os.system("open /Applications/Microsoft\ Word.app " + '/Users/williamcorney/PycharmProjects/pythonProject/DOCX/temp/2' + filename + '.docx')


    if count0 > 30:
        quit()


# html = "<h1> heading</h1><p> paragraph <i> italics <b> bold </b> </i> should be paragraph </p><h2> heading </h2> <p> paragraph <i> italics </i> and more paragraph </p>"