BasedHardware · beastoin · Sep 22, 2024 · Sep 22, 2024 · Sep 22, 2024 · Sep 22, 2024
diff --git a/backend/models/processing_memory.py b/backend/models/processing_memory.py
@@ -14,6 +14,7 @@ class ProcessingMemory(BaseModel):
     audio_url: Optional[str] = None
     created_at: datetime
     timer_start: float
+    timer_segment_start: Optional[float] = None
     timer_starts: List[float] = []
     language: Optional[str] = None  # applies only to Friend # TODO: once released migrate db to default 'en'
     transcript_segments: List[TranscriptSegment] = []

diff --git a/backend/routers/transcribe.py b/backend/routers/transcribe.py
@@ -1,4 +1,5 @@
 import threading
+import math
 import asyncio
 import time
 from typing import List
@@ -139,10 +140,27 @@ def stream_transcript(segments, stream_id):
         nonlocal processing_memory
         nonlocal processing_memory_synced
         nonlocal memory_transcript_segements
+        nonlocal segment_start
+        nonlocal segment_end
 
         if not segments or len(segments) == 0:
             return
 
+        # Align the start, end segment
+        if not segment_start:
+            start = segments[0]["start"]
+            segment_start = start
+
+        # end
+        end = segments[-1]["end"]
+        if not segment_end or segment_end < end:
+            segment_end = end
+
+        for i, segment in enumerate(segments):
+            segment["start"] -= segment_start
+            segment["end"] -= segment_start
+            segments[i] = segment
+
         asyncio.run_coroutine_threadsafe(websocket.send_json(segments), loop)
         threading.Thread(target=process_segments, args=(uid, segments)).start()
 
@@ -178,6 +196,9 @@ def stream_audio(audio_buffer):
     websocket_active = True
     websocket_close_code = 1001  # Going Away, don't close with good from backend
     timer_start = None
+    segment_start = None
+    segment_end = None
+    audio_frames_per_sec = 100
     # audio_buffer = None
     duration = 0
     try:
@@ -239,7 +260,8 @@ async def receive_audio(dg_socket1, dg_socket2, soniox_socket, speechmatics_sock
         # audio_file = open(path, "a")
         try:
             while websocket_active:
-                data = await websocket.receive_bytes()
+                raw_data = await websocket.receive_bytes()
+                data = raw_data[:]
                 # audio_buffer.extend(data)
                 if codec == 'opus' and sample_rate == 16000:
                     data = decoder.decode(bytes(data), frame_size=160)
@@ -262,7 +284,7 @@ async def receive_audio(dg_socket1, dg_socket2, soniox_socket, speechmatics_sock
                         dg_socket2.send(data)
 
                 # stream
-                stream_audio(data)
+                stream_audio(raw_data)
 
                 # audio_buffer = bytearray()
 
@@ -331,10 +353,11 @@ async def _create_processing_memory():
         last_processing_memory_data = processing_memories_db.get_last(uid)
         if last_processing_memory_data:
             last_processing_memory = ProcessingMemory(**last_processing_memory_data)
-            segment_end = 0
+            last_segment_end = 0
             for segment in last_processing_memory.transcript_segments:
-                segment_end = max(segment_end, segment.end)
-            if last_processing_memory.timer_start + segment_end + min_seconds_limit > time.time():
+                last_segment_end = max(last_segment_end, segment.end)
+            timer_segment_start = last_processing_memory.timer_segment_start if last_processing_memory.timer_segment_start else last_processing_memory.timer_start
+            if timer_segment_start + last_segment_end + min_seconds_limit > time.time():
                 processing_memory = last_processing_memory
 
         # Or create new
@@ -343,6 +366,7 @@ async def _create_processing_memory():
                 id=str(uuid.uuid4()),
                 created_at=datetime.now(timezone.utc),
                 timer_start=timer_start,
+                timer_segment_start=timer_start+segment_start,
                 language=language,
             )
 
@@ -375,11 +399,22 @@ async def _post_process_memory(memory: Memory):
         nonlocal processing_memory
         nonlocal processing_audio_frames
         nonlocal processing_audio_frame_synced
+        nonlocal segment_start
+        nonlocal segment_end
 
         # Create wav
         processing_audio_frame_synced = len(processing_audio_frames)
+
+        # Remove audio frames [start, end]
+        left = 0
+        if segment_start:
+            left = max(left, math.floor(segment_start) * audio_frames_per_sec)
+        right = processing_audio_frame_synced
+        if segment_end:
+            right = min(math.ceil(segment_end) * audio_frames_per_sec, right)
+
         file_path = f"_temp/{memory.id}_{uuid.uuid4()}_be"
-        create_wav_from_bytes(file_path=file_path, frames=processing_audio_frames[:processing_audio_frame_synced],
+        create_wav_from_bytes(file_path=file_path, frames=processing_audio_frames[left:right],
                               frame_rate=sample_rate, channels=channels, codec=codec, )
 
         # Try merge new audio with the previous
@@ -525,6 +560,8 @@ async def _try_flush_new_memory_with_lock(time_validate: bool = True):
     async def _try_flush_new_memory(time_validate: bool = True):
         nonlocal memory_transcript_segements
         nonlocal timer_start
+        nonlocal segment_start
+        nonlocal segment_end
         nonlocal processing_memory
         nonlocal processing_memory_synced
         nonlocal processing_audio_frames
@@ -535,13 +572,8 @@ async def _try_flush_new_memory(time_validate: bool = True):
             return
 
         # Validate last segment
-        last_segment = None
-        if len(memory_transcript_segements) > 0:
-            last_segment = memory_transcript_segements[-1]
-        if not last_segment:
+        if not segment_end:
             print("Not last segment or last segment invalid")
-            if last_segment:
-                print(f"{last_segment.dict()}")
             return
 
         # First chunk, create processing memory
@@ -552,11 +584,11 @@ async def _try_flush_new_memory(time_validate: bool = True):
 
         # Validate transcript
         # Longer 120s
-        segment_end = last_segment.end
         now = time.time()
         should_create_memory_time = True
+        timer_segment_start = timer_start + segment_start
         if time_validate:
-            should_create_memory_time = timer_start + segment_end + min_seconds_limit < now
+            should_create_memory_time = timer_segment_start + segment_end + min_seconds_limit < now
 
         # 1 words at least
         should_create_memory_time_words = min_words_limit == 0
@@ -570,7 +602,7 @@ async def _try_flush_new_memory(time_validate: bool = True):
 
         should_create_memory = should_create_memory_time and should_create_memory_time_words
         print(
-            f"Should create memory {should_create_memory} - {timer_start} {segment_end} {min_seconds_limit} {now} - {time_validate}, session {session_id}")
+            f"Should create memory {should_create_memory} - {timer_segment_start} {segment_end} {min_seconds_limit} {now} - {time_validate}, session {session_id}")
         if should_create_memory:
             memory = await _create_memory()
             if not memory:

diff --git a/backend/utils/processing_memories.py b/backend/utils/processing_memories.py
@@ -23,11 +23,11 @@ async def create_memory_by_processing_memory(uid: str, processing_memory_id: str
     if not transcript_segments or len(transcript_segments) == 0:
         print("Transcript segments is invalid")
         return
-    timer_start = processing_memory.timer_start
+    timer_segment_start = processing_memory.timer_segment_start if processing_memory.timer_segment_start else processing_memory.timer_start
     segment_end = transcript_segments[-1].end
     new_memory = CreateMemory(
-        started_at=datetime.fromtimestamp(timer_start, timezone.utc),
-        finished_at=datetime.fromtimestamp(timer_start + segment_end, timezone.utc),
+        started_at=datetime.fromtimestamp(timer_segment_start, timezone.utc),
+        finished_at=datetime.fromtimestamp(timer_segment_start + segment_end, timezone.utc),
         language=processing_memory.language,
         transcript_segments=transcript_segments,
     )