add valid letters to detect paragraphs

2024-06-26 16:34:26 +02:00
parent ee229a41c5
commit 9b8e0621fe
1 changed files with 11 additions and 2 deletions
--- a/src/logic/wordparser.py
+++ b/src/logic/wordparser.py
@@ -1,6 +1,6 @@
 import pandas as pd
 from docx import Document
-
+letters = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"

 def word_docx_to_csv(path) -> pd.DataFrame:
    doc = Document(path)
@@ -28,6 +28,8 @@ def word_docx_to_csv(path) -> pd.DataFrame:

 def elsa_word_to_csv(path) -> list[tuple]:
    doc = Document(path)
+    # print all lines in doc
+    doctype = [para.text for para in doc.paragraphs if para.text != ""][-1]
    tables = doc.tables

    m_data = []
@@ -53,4 +55,11 @@ def elsa_word_to_csv(path) -> list[tuple]:
        if row != ("", "", "", "", "", "", "", "", "")
    ]

-    return data
+    return data, doctype
+
+
+if __name__ == "__main__":
+    else_df = elsa_word_to_csv(
+        "c:/Users/aky547/Desktop/semap/formularsemhrsg2023_Bestellung Sahrai_Hurrelmann et al.Referenzwerk Prävention.docx"
+    )
+    print(else_df)