Captions is seeking a Machine Learning Engineer to partner closely with our Researchers and bring large-scale multimodal video diffusion models into production. You’ll be responsible for optimizing and deploying state-of-the-art generative models (tens to hundreds of billions of parameters) to deliver low-latency, high-throughput inference at scale. This is a unique opportunity to work on cutting-edge AI—spanning audio-video generation, diffusion architectures, and temporal modeling—and ensure these innovations reach millions of creators worldwide.
Responsibilities:
Inference & Deployment
Develop high-performance GPU-based inference pipelines for large multimodal diffusion models.
Build, optimize, and maintain serving infrastructure to deliver low-latency predictions at large scale.
Collaborate with DevOps teams to containerize models, manage autoscaling, and ensure uptime SLAs.
Model Optimization & Fine-Tuning
Leverage techniques like quantization, pruning, and distillation to reduce latency and memory footprint without compromising quality.
Implement continuous fine-tuning workflows to adapt models based on real-world data and feedback.
Production MLOps
Design and maintain automated CI/CD pipelines for model deployment, versioning, and rollback.
Implement robust monitoring (latency, throughput, concept drift) and alerting for critical production systems.
Performance & Scaling
Explore cutting-edge GPU acceleration frameworks (e.g., TensorRT, Triton, TorchServe) to continuously improve throughput and reduce costs.
Requirements:
Technical Expertise
Proven experience deploying deep learning models on GPU-based infrastructure (NVIDIA GPUs, CUDA, TensorRT, etc.).
Strong knowledge of containerization (Docker, Kubernetes) and microservice architectures for ML model serving.
Proficiency with Python and at least one deep learning framework (PyTorch, TensorFlow).
Model Optimization
Familiarity with compression techniques (quantization, pruning, distillation) for large-scale models.
Experience profiling and optimizing model inference (batching, concurrency, hardware utilization).
Infrastructure
Hands-on experience with ML pipeline orchestration (Airflow, Kubeflow, Argo) and automated CI/CD for ML.
Strong grasp of logging, monitoring, and alerting tools (Prometheus, Grafana, etc.) in distributed systems.
Domain Experience
Exposure to diffusion models, multimodal video generation, or large-scale generative architectures.
Experience with distributed training frameworks (FSDP, DeepSpeed, Megatron-LM) or HPC environments.
Comprehensive medical, dental, and vision plans
401K with employer match
Commuter Benefits
Catered lunch multiple days per week
Dinner stipend every night if you're working late and want a bite!
Doordash DashPass subscription
Health & Wellness Perks (Talkspace, Kindbody, One Medical subscription, HealthAdvocate, Teladoc)
Multiple team offsites per year with team events every month
Generous PTO policy
Captions provides equal employment opportunities to all employees and applicants for employment and prohibits discrimination and harassment of any type without regard to race, color, religion, age, sex, national origin, disability status, genetics, protected veteran status, sexual orientation, gender identity or expression, or any other characteristic protected by federal, state or local laws.
Please note benefits apply to full time employees only.
Salary: ${'@type': 'MonetaryAmount', 'currency': 'USD', 'value': {'@type': 'QuantitativeValue', 'minValue': 170000, 'maxValue': 230000, 'unitText': 'YEAR'}}
","datePosted":"2025-04-23T10:49","employmentType":"FULL_TIME","jobLocation":[{"@type":"Place","address":{"@type":"PostalAddress","addressLocality":"New York, NY, USA","addressRegion":null,"addressCountry":"United States"}}],"directApply":false,"hiringOrganization":{"@type":"Organization","name":"Captions","sameAs":"https://www.captions.ai/","logo":"https://storage.googleapis.com/simplify-imgs/companies/b6c92065-d425-4881-890f-c41f89c494e8/logo.png"},"baseSalary":{"@type":"MonetaryAmount","currency":"USD","value":{"@type":"QuantitativeValue","minValue":170000,"maxValue":230000,"unitText":"YEAR"}},"identifier":{"@type":"PropertyValue","name":"Captions","value":"b6c92065-d425-4881-890f-c41f89c494e8"}}Full-Time
Video captioning and translation services
$170k - $230k/yr
Mid, Senior
New York, NY, USA
All roles require in-person attendance at the NYC HQ located in Union Square.
Upload your resume to see how it matches 18 keywords from the job description.
PDF, DOC, DOCX, up to 4 MB
Captions.ai enhances video content by providing captioning and translation services tailored for content creators, social media influencers, marketing agencies, and businesses. Their main offerings include automatic subtitle generation, translation into 28 languages, and video compression to improve performance. These tools simplify the video production process, allowing users to produce professional-quality videos with ease. Captions.ai operates on a freemium model, offering basic services for free while charging for advanced features through subscription plans. This approach helps attract a large user base and convert free users into paying customers. Recently, the company secured $25 million in funding to expand its product offerings and market reach, aiming to make high-quality video content accessible to a wider audience.
Company Size
51-200
Company Stage
Series C
Total Funding
$85M
Headquarters
New York City, New York
Founded
2021
Help us improve and share your feedback! Did you find this helpful?
Health Insurance
Dental Insurance
Vision Insurance
401(k) Retirement Plan
401(k) Company Match
Commuter Benefits
Wellness Program
Unlimited Paid Time Off
Flexible Work Hours
Captions, the video editing app, introduces AI edit feature for automatic video effects.
Captions, an AI video editing startup, has acquired AlpacaML, an AI digital canvas platform, following a successful Series C funding round that valued Captions at $500 million and raised $60 million in July. This acquisition aims to enhance creative tools for artists by integrating AlpacaML's AI rendering capabilities. Captions plans to invest $100 million in generative AI video research in NYC. The acquisition includes AlpacaML's CEO William Buchwalter and team, marking a new phase of innovation.
In July, Captions raised $60 million Series C in funding from Kleiner Perkins, Sequoia Capital, and Andreessen Horowitz, and new investors - Adobe Ventures, HubSpot Ventures, and Jared Leto.
本稿は独立系ベンチャーキャピタル、グローバル・ブレインが運営するサイト「GB Universe」に掲載された記事からの転載今週の注目テックトレンドGB Tech Trendでは世界で話題になったテック・スタートアップへの投資事例を紹介します。プロも認める「映像AI」を目指すまるで本物の映像のように錯覚してしまう動画生成AI「Sora」や「Runway」に注目が集まっています。しかし、いまだにこれらのAIモデルは、ランダムなコンテンツをしばしば生成してしまうなど改善点も多い状況です。プロフェッショナルが使うサービスとなるためには、たとえば元映像素材を勝手にAIが編集しないなどの、高いクオリティと使い勝手が求められます。今回紹介するVFXスタートアップ「Beeble AI」は、こうした課題を解決した生成AIを開発し、クリエイターが完全に制御できる映像制作サービスの確立を目指しているスタートアップです。このたび475万ドルの資金調達を発表しました。同社は現在、グリーンバックにAIを活用したバーチャルライティングサービスを軸に事業を展開しています。今後は先述したようなプロクリエイター向けの映像生成AIの提供を目指しており、今回の調達はその開発に使われる予定です。「映像生成AI」3つのトレンドBeeble AIのような映像生成AIには、3つの新たなトレンドが起きています。1. 個人向けサービスの発展1つは、個人向け映像編集AIサービスの普及です。たとえば「Captions」などが先行事例として挙げられます。Sequoia CapitalやAndreessen Horowitz(a16z)らが出資するスタートアップで、Instagramなどで活躍する動画クリエイター層をターゲットに、手軽にAIを使った編集を行えるオールインワン編集サービスを提供しています。スマホファーストで活躍する、アマチュア系クリエイターなどがサービス対象です。こうした消費者向けサービスの登場にあわせて、法人向け領域も追従して盛り上がる現象がこれまでも多くの市場で見られました。たとえばSlackのようなサービスも、FacebookやX(旧Twitter)などのソーシャルでのチャットコミュニケーションが広く普及していたからこそ、法人向け領域でも受け入れられたと言えるでしょう。Beeble AIが、消費者向けの映像系生成AIの利活用がさらに進むと考えているのであれば、このタイミングでの開発を急ピッチで進めるのも頷けます。2.大手による買収2つ目は大手企業による買収です。直近では5月にCGソフトサービス大手「Autodesk」がAI VFXスタートアップ「Wonder Dynamics」を買収しています。またBeeble AIとは少し領域が異なりますが、動画編集サービスの「Frame.io」はAdobeに買収されました。いずれも大手サービスの手の届かないバリューを提供することで、Exitに結びつけることに成功しています。こうしたExit実績が続いているのも、映像生成AIに関するポジティブなトレンドの1つです。3.プラットフォーム化最後は、プロダクトのプラットフォーム化です。プロダクトに複数の機能を付与し、当該領域のプラットフォームとなる拡大戦略はこれまでもまざまな分野で見られてきました。たとえば、a16zが出資する「Descript」はPodcastクリエイターのためのAI機能をバンドル提供し、プラットフォーム化を図っています。Beeble AIは創業チームがAIバックグラウンドを強く持っていることもあり、現在は単一機能(バーチャルライティング)の提供に制限されています。しかし、ゆくゆくは映像編集に関わるあらゆる機能を持ち得るプラットフォームへ舵を切ることも見込めるでしょう。また、バーチャルプロダクト(CGで描いた商品)を自然な形で映像内に差し込む、ポストプロダクションサービス「Ryff」の過去事例も参考になります。残念ながら、Ryffは生成AIトレンドの前だったこともありクローズしてしまいましたが、同社の事例に倣い、映像編集 + 広告市場に打って出る戦略も考えられそうです。この拡大戦略のとりやすさも映像生成AIへの期待を後押しする要因の1つと言えるでしょう。Beeble AIのようなAIプロダクトは今後も多く登場するでしょうが、どこが覇権を握るのかに引き続き注目が集まります。7月9日〜7月22日の主要ニュース
Image credit: Captions. 生成 AI 動画の需要が高まるにつれ、この分野のスタートアップはベンチャーキャピタルから大きな資金を集めている。最近では、RunwayML が大規模な資金調達を行うことが報じられた。そして今回、元マイクロソフトのエンジニア Gaurav Misra 氏が設立した AI 動画スタートアップ Captions がシリーズ C ラウンドで6,000万米ドルの資金を調達した。. 2021年に設立された Captions は、ユーザがカメラと直接関わることで「トーキングビデオ」を録画するカメラアプリとしてスタートした。過去1年間で、同社は AI に焦点を移し、ユーザがゼロからアバター付きの動画を作成できるようにした。実質的には、動画クリエイターのための AI 搭載クリエイティブ・スイートとなっている。