Spaces:

techconspartners
/

ConversAI

Sleeping

Rauhan commited on Aug 23

Commit

6a1e988

•

1 Parent(s): d07d38d

UPDATE: base64 encodings

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import io
 import tempfile
 import jwt
 from click import option
 from jwt import ExpiredSignatureError, InvalidTokenError
 from starlette import status
@@ -273,8 +274,16 @@ async def returnText(pdf: UploadFile = File(...)):
     }
 @app.post("/addText")
-async def addText(vectorstore: str, text: str, source: str = "Text"):
     username, chatbotname = vectorstore.split("$")[1], vectorstore.split("$")[2]
     df = pd.DataFrame(supabase.table("ConversAI_ChatbotInfo").select("*").execute().data)
     currentCount = df[(df["user_id"] == username) & (df["chatbotname"] == chatbotname)]["charactercount"].iloc[0]

 import io
 import tempfile
 import jwt
+import base64
 from click import option
 from jwt import ExpiredSignatureError, InvalidTokenError
 from starlette import status
     }
+class AddText(BaseModel):
+    vectorstore: str
+    text: str
+    source: str = "Text"
 @app.post("/addText")
+async def addText(addTextConfig: AddText):
+    vectorstore, text, source = addTextConfig.vectorstore, addTextConfig.text, addTextConfig.source
+    text = base64.b64decode(text.encode("utf-8")).decode("utf-8")
     username, chatbotname = vectorstore.split("$")[1], vectorstore.split("$")[2]
     df = pd.DataFrame(supabase.table("ConversAI_ChatbotInfo").select("*").execute().data)
     currentCount = df[(df["user_id"] == username) & (df["chatbotname"] == chatbotname)]["charactercount"].iloc[0]

functions.py CHANGED Viewed

@@ -288,7 +288,7 @@ def getTextFromImagePDF(pdfBytes):
         return "\n".join([text[1] for text in reader.readtext(np.array(image), paragraph=True)])
     allImages = convert_from_bytes(pdfBytes)
-    texts = [getText(image) for image in allImages]
     return {x + 1: y for x, y in enumerate(texts)}
@@ -304,6 +304,7 @@ def getTranscript(urls: str):
         except:
             doc = ""
             texts.append(doc)
     return {x: y for x, y in zip(urls, texts)}
@@ -321,7 +322,8 @@ def analyzeData(query, dataframe):
 def extractTextFromPage(page):
-    return page.get_text()
 def extractTextFromPdf(pdf_path):
@@ -338,7 +340,8 @@ def extractTextFromUrl(url):
     response.raise_for_status()
     html = response.text
     soup = BeautifulSoup(html, 'lxml')
-    return soup.get_text(separator=' ', strip=True)
 def extractTextFromUrlList(urls):

         return "\n".join([text[1] for text in reader.readtext(np.array(image), paragraph=True)])
     allImages = convert_from_bytes(pdfBytes)
+    texts = [base64.b64encode(getText(image).encode("utf-8")).decode("utf-8") for image in allImages]
     return {x + 1: y for x, y in enumerate(texts)}
         except:
             doc = ""
             texts.append(doc)
+    texts = [base64.b64encode(text.encode("utf-8")).decode("utf-8") for text in texts]
     return {x: y for x, y in zip(urls, texts)}
 def extractTextFromPage(page):
+    text = page.get_text()
+    return base64.b64encode(text.encode("utf-8")).decode("utf-8")
 def extractTextFromPdf(pdf_path):
     response.raise_for_status()
     html = response.text
     soup = BeautifulSoup(html, 'lxml')
+    text = soup.get_text(separator=' ', strip=True)
+    return base64.b64encode(text.encode("utf-8")).decode("utf-8")
 def extractTextFromUrlList(urls):