Sound (8) 썸네일형 리스트형 SDR (Signal-to-Distortion Ratio) SDR(Signal-to-Distortion Ratio) : 오디오 또는 신호 처리 및 통신 분야에서 일반적으로 사용되는 성능평가 지표임. 노이즈 또는 오류 신호와 같은 원치 않는 구성 요소 또는 왜곡의 전력과 관련하여 원하는 신호의 전력 측정값을 제공함. SDR은 수신하는 신호 중 "실제" 또는 "원하는" 신호의 양과 왜곡 또는 간섭의 양을 평가함. 반적으로 데시벨(dB)로 표시되며 값이 높을수록 신호 품질이 높음. https://jin-choi.tistory.com/34 Noise Suppression 상대방과 통화를 하던 중에 자신 또는 상대방이 시끄러운 곳에 있어서 서로의 목소리가 잘 들리지 않았던 경험, 한번 쯤 있으실텐데요. 옆 집 공사 소리, 길거리 소음, 카페 음악 소리 등 다양한 jin-.. Audio/Sound 데이터의 드럼비트 kick, snare, hi-hat Kick, snare, hi-hat은 일반적으로 드럼비트를 구성하는 요소로 드럼 비트를 형성하는 중요한 요소이며, 음악 장르에 따라 다양한 소리와 패턴으로 사용됨. 1. kick (베이스드럼) : 40-80Hz에서 저음을 강조하고 2-4kHz에서 고음을 강조하여 킥 드럼의 템포와 힘을 부각 저음 주파수를 가진 깊은 소리로서, 주로 리듬의 박자와 강조를 담당합니다. 주로 낮은 음 또는 중저음 영역의 소리로 표현됩니다. 전형적으로 4/4 박자에서 첫 번째 박자에 강조되어 사용됩니다. 예시: "Boom", "Thump", "Bass" 2. Snare (스네어 드럼) :100-250Hz에서 저음을 강조하고, 2-4kHz에서 고음을 강조하여 스네어의 공격감과 힘을 부각시킵니다. 높은 음 또는 고음 영역의 "타악기.. MFCC(Mel Frequency Cepstral Coefficient) MFCC란? Mel Frequency : 우리의 귀가 작동하는 것과 유사한 소리를 측정하는 방법임. 피아노에서 두 개의 높은 음이 두 개의 낮은 음보다 더 가깝게 들리는 것처럼 Mel Frequency는 사운드를 측정하기 위해 특별한 '스케일'을 사용함. Cepstral Coefficients : 소리의 '성분'을 찾고 있는 방법. 소리의 고음, 저음, 중간음등 MFCC의 특징 음성 인식, 음악의 장르 분석, 감정 인식 등 다양한 분야에서 MFCC를 활용합니다. 예를 들어 음성을 인식해야 하는데 목소리가 높은 사람이 높은 음으로 '가나다라~' 하는거랑 낮은 목소리로 '가나다라~' 하는거랑 같게 인식이 되어야 하겠죠? 그러니 MFCC는 적합한 특징값이죠. 반대로 음악에서 악기를 연주하면 그 악기의 음표를 .. 음성데이터 샘플링 (Audio Data Sampling) 샘플링은 아날로그 신호를 디지털화 하는 과정중 하나로, 샘플링 주파수에 따라 1초에 몇 번 디지털화 되어있는 데이터를 생성하는지를 의미함. ex) 샘플링 주파수가 44100Hz라면, 1초에 44100샘플링 한것이며 1초의 데이터는 44100 Size에 담아줘야함. → Spectogram 영상을 만들어야하는데, 시간축인 Width를 정하기 위해서는 샘플링 주파수와 사운드 데이터 길이를 알아야함. ex) 샘플링 주파수 13000Hz인 사운드 데이터가 1분이 있다면, 시간축 길이는 780,000로 설정해줘야함. https://analysisbugs.tistory.com/270 음성 데이터 (Audio Data) Audio Data를 컴퓨터에서 처리하기 위해서는 일반적으로 두 가지 Process가 진행된다. .. 음성데이터 음역대별 데이터 추출 기능 ※ 확실한 방법이라고 확신할 수 없으니 참고용으로만 봐주세요. 원하는 기능을 구현하기 위해 ChatGPT를 활용하여 코드를 구현하였습니다. 1. FFT를 적용하여, 주파수에 따라 음역대를 구분함. import numpy as np import scipy.io.wavfile as wavfile from scipy.signal import butter, lfilter # 음성데이터 불러오기 sampling_freq, signal = wavfile.read('sample_audio.wav') # FFT를 이용해 스펙트럼 그래프 생성 signal_length = len(signal) fft_size = 2 ** int(np.ceil(np.log2(signal_length))) signal = np.pad(sig.. 각 주파수별 소리특성 ▷ 대역의 범위(단위:Hz) Deep Bass(낮은 저역): 20~40 Midbass(중간 저역): 40~80 Upper Bass(높은 저역): 80~160 Lower Midrange(낮은 중역): 160~320 Middle Midrange(중간 중역): 320~640 Upper Midrange(높은 중역): 640~1,280 Lower Treble(낮은 고역): 1,280~2,560 Middle Treble(중간 고역): 2,560~5,120 Upper Treble(높은 고역): 5120~10240 Top Octave(초고역): 10,240~20,480 ▷ 악기별 재생대역표(출처: I.T.T.(AEG-Telefunken)) 베이스:87-349헤르츠 (87.31-349.2) 바리톤:98-392헤르츠 (9.. 음성 주파수 분해 푸리에 변환(Fourier Transform) : 임의의 비주기 함수를 주파수 도메인으로 나타냄 신호 데이터 분해하는 대표적인 방법으로, 모든 주기적인 신호는 주파수가 다른 삼각함수 조합으로 표현할 수 있음. ① 연속 푸리에 변환 (CTFT, Continuous Time Fourier Transform) = 일반적으로 푸리에 변환이라하면 연속 푸리에 변환을 지칭함. ② 이산 푸리에 변환 (DFT, Discrete Fourier Transform) :이산적인 입력신호를 이산치 주파수 축으로 분해 ③ 고속 푸리에 변환 (FFT, Fast Fourier Transform) : 이산 푸리에 변환의 항들을 우함수(even function)와 기함수(odd function)로 모아서 급수를 빠르게 계산하기 위한 알.. Audacity Window 빌드 (python, cmake사용) Audacity는 오디오 편집 프로그램인데, 빌드해서 사용해야해서 CMake로 빌드를 하게 되었다. CMake GUI로 ITK, VTK, OpenCV 등등 여러가지를 빌드를 많이 했어서 크게 어려움이 없을거라 생각했다... 빌드를 하다보니 계속 라이브러리 필요한게 없다고 그래서 conan, wxWighets등을 별도로 깔아서 이것들도 빌드를 하고, directory 설정을 해줬는데도 계속 Configure에러가 났다. 진짜 하루를 거의다 날리고 오늘 Python에 CMake 패키지를 설치하고 한방에 빌드를 하게되었다 ^^.. 1. Audacity Github에서 git clone을 하여 다운로드를 받는다 https://github.com/audacity/audacity GitHub - audacity/a.. 이전 1 다음