BasedHardware · beastoin · Sep 22, 2024 · Sep 22, 2024 · Sep 22, 2024 · Sep 22, 2024
diff --git a/backend/database/memories.py b/backend/database/memories.py
@@ -138,6 +138,11 @@ def update_memory_events(uid: str, memory_id: str, events: List[dict]):
     memory_ref = user_ref.collection('memories').document(memory_id)
     memory_ref.update({'structured.events': events})
 
+def update_memory_finished_at(uid: str, memory_id: str, finished_at: datetime):
+    user_ref = db.collection('users').document(uid)
+    memory_ref = user_ref.collection('memories').document(memory_id)
+    memory_ref.update({'finished_at': finished_at})
+
 
 # VISBILITY
 

diff --git a/backend/models/processing_memory.py b/backend/models/processing_memory.py
@@ -14,6 +14,7 @@ class ProcessingMemory(BaseModel):
     audio_url: Optional[str] = None
     created_at: datetime
     timer_start: float
+    timer_segment_start: Optional[float] = None
     timer_starts: List[float] = []
     language: Optional[str] = None  # applies only to Friend # TODO: once released migrate db to default 'en'
     transcript_segments: List[TranscriptSegment] = []

diff --git a/backend/routers/transcribe.py b/backend/routers/transcribe.py
@@ -1,4 +1,5 @@
 import threading
+import math
 import asyncio
 import time
 from typing import List
@@ -139,10 +140,27 @@ def stream_transcript(segments, stream_id):
         nonlocal processing_memory
         nonlocal processing_memory_synced
         nonlocal memory_transcript_segements
+        nonlocal segment_start
+        nonlocal segment_end
 
         if not segments or len(segments) == 0:
             return
 
+        # Align the start, end segment
+        if not segment_start:
+            start = segments[0]["start"]
+            segment_start = start
+
+        # end
+        end = segments[-1]["end"]
+        if not segment_end or segment_end < end:
+            segment_end = end
+
+        for i, segment in enumerate(segments):
+            segment["start"] -= segment_start
+            segment["end"] -= segment_start
+            segments[i] = segment
+
         asyncio.run_coroutine_threadsafe(websocket.send_json(segments), loop)
         threading.Thread(target=process_segments, args=(uid, segments)).start()
 
@@ -178,6 +196,9 @@ def stream_audio(audio_buffer):
     websocket_active = True
     websocket_close_code = 1001  # Going Away, don't close with good from backend
     timer_start = None
+    segment_start = None
+    segment_end = None
+    audio_frames_per_sec = 100
     # audio_buffer = None
     duration = 0
     try:
@@ -239,7 +260,8 @@ async def receive_audio(dg_socket1, dg_socket2, soniox_socket, speechmatics_sock
         # audio_file = open(path, "a")
         try:
             while websocket_active:
-                data = await websocket.receive_bytes()
+                raw_data = await websocket.receive_bytes()
+                data = raw_data[:]
                 # audio_buffer.extend(data)
                 if codec == 'opus' and sample_rate == 16000:
                     data = decoder.decode(bytes(data), frame_size=160)
@@ -262,7 +284,7 @@ async def receive_audio(dg_socket1, dg_socket2, soniox_socket, speechmatics_sock
                         dg_socket2.send(data)
 
                 # stream
-                stream_audio(data)
+                stream_audio(raw_data)
 
                 # audio_buffer = bytearray()
 
@@ -331,10 +353,11 @@ async def _create_processing_memory():
         last_processing_memory_data = processing_memories_db.get_last(uid)
         if last_processing_memory_data:
             last_processing_memory = ProcessingMemory(**last_processing_memory_data)
-            segment_end = 0
+            last_segment_end = 0
             for segment in last_processing_memory.transcript_segments:
-                segment_end = max(segment_end, segment.end)
-            if last_processing_memory.timer_start + segment_end + min_seconds_limit > time.time():
+                last_segment_end = max(last_segment_end, segment.end)
+            timer_segment_start = last_processing_memory.timer_segment_start if last_processing_memory.timer_segment_start else last_processing_memory.timer_start
+            if timer_segment_start + last_segment_end + min_seconds_limit > time.time():
                 processing_memory = last_processing_memory
 
         # Or create new
@@ -343,6 +366,7 @@ async def _create_processing_memory():
                 id=str(uuid.uuid4()),
                 created_at=datetime.now(timezone.utc),
                 timer_start=timer_start,
+                timer_segment_start=timer_start+segment_start,
                 language=language,
             )
 
@@ -375,11 +399,22 @@ async def _post_process_memory(memory: Memory):
         nonlocal processing_memory
         nonlocal processing_audio_frames
         nonlocal processing_audio_frame_synced
+        nonlocal segment_start
+        nonlocal segment_end
 
         # Create wav
         processing_audio_frame_synced = len(processing_audio_frames)
+
+        # Remove audio frames [start, end]
+        left = 0
+        if segment_start:
+            left = max(left, math.floor(segment_start) * audio_frames_per_sec)
+        right = processing_audio_frame_synced
+        if segment_end:
+            right = min(math.ceil(segment_end) * audio_frames_per_sec, right)
+
         file_path = f"_temp/{memory.id}_{uuid.uuid4()}_be"
-        create_wav_from_bytes(file_path=file_path, frames=processing_audio_frames[:processing_audio_frame_synced],
+        create_wav_from_bytes(file_path=file_path, frames=processing_audio_frames[left:right],
                               frame_rate=sample_rate, channels=channels, codec=codec, )
 
         # Try merge new audio with the previous
@@ -393,7 +428,8 @@ async def _post_process_memory(memory: Memory):
 
                     # merge
                     merge_file_path = f"_temp/{memory.id}_{uuid.uuid4()}_be"
-                    merge_wav_files(merge_file_path, [previous_file_path, file_path])
+                    nearest_timer_start = processing_memory.timer_starts[-2]
+                    merge_wav_files(merge_file_path, [previous_file_path, file_path], [math.ceil(timer_start-nearest_timer_start), 0])
 
                     # clean
                     os.remove(previous_file_path)
@@ -489,6 +525,10 @@ async def _create_memory():
             memories_db.update_memory_segments(uid, memory.id,
                                                [segment.dict() for segment in memory.transcript_segments])
 
+            # Update finished at
+            memory.finished_at = datetime.fromtimestamp(memory.started_at.timestamp() + processing_memory.transcript_segments[-1].end, timezone.utc)
+            memories_db.update_memory_finished_at(uid, memory.id, memory.finished_at)
+
             # Process
             memory = process_memory(uid, memory.language, memory, force_process=True)
 
@@ -525,6 +565,8 @@ async def _try_flush_new_memory_with_lock(time_validate: bool = True):
     async def _try_flush_new_memory(time_validate: bool = True):
         nonlocal memory_transcript_segements
         nonlocal timer_start
+        nonlocal segment_start
+        nonlocal segment_end
         nonlocal processing_memory
         nonlocal processing_memory_synced
         nonlocal processing_audio_frames
@@ -535,13 +577,8 @@ async def _try_flush_new_memory(time_validate: bool = True):
             return
 
         # Validate last segment
-        last_segment = None
-        if len(memory_transcript_segements) > 0:
-            last_segment = memory_transcript_segements[-1]
-        if not last_segment:
+        if not segment_end:
             print("Not last segment or last segment invalid")
-            if last_segment:
-                print(f"{last_segment.dict()}")
             return
 
         # First chunk, create processing memory
@@ -552,7 +589,6 @@ async def _try_flush_new_memory(time_validate: bool = True):
 
         # Validate transcript
         # Longer 120s
-        segment_end = last_segment.end
         now = time.time()
         should_create_memory_time = True
         if time_validate:

diff --git a/backend/utils/audio.py b/backend/utils/audio.py
@@ -3,14 +3,16 @@
 from pyogg import OpusDecoder
 from pydub import AudioSegment
 
-def merge_wav_files(dest_file_path: str, source_files: [str]):
+def merge_wav_files(dest_file_path: str, source_files: [str], silent_seconds: [int]):
     if len(source_files) == 0 or not dest_file_path:
         return
 
     combined_sounds = AudioSegment.empty()
-    for file_path in source_files:
+    for i in range(len(source_files)):
+        file_path = source_files[i]
         sound = AudioSegment.from_wav(file_path)
-        combined_sounds = combined_sounds + sound
+        silent_sec = silent_seconds[i]
+        combined_sounds = combined_sounds + sound + AudioSegment.silent(duration=silent_sec)
     combined_sounds.export(dest_file_path, format="wav")
 
 

diff --git a/backend/utils/processing_memories.py b/backend/utils/processing_memories.py
@@ -23,11 +23,11 @@ async def create_memory_by_processing_memory(uid: str, processing_memory_id: str
     if not transcript_segments or len(transcript_segments) == 0:
         print("Transcript segments is invalid")
         return
-    timer_start = processing_memory.timer_start
+    timer_segment_start = processing_memory.timer_segment_start if processing_memory.timer_segment_start else processing_memory.timer_start
     segment_end = transcript_segments[-1].end
     new_memory = CreateMemory(
-        started_at=datetime.fromtimestamp(timer_start, timezone.utc),
-        finished_at=datetime.fromtimestamp(timer_start + segment_end, timezone.utc),
+        started_at=datetime.fromtimestamp(timer_segment_start, timezone.utc),
+        finished_at=datetime.fromtimestamp(timer_segment_start + segment_end, timezone.utc),
         language=processing_memory.language,
         transcript_segments=transcript_segments,
     )